RNAseq数据评估

  • 主要包括测序饱和度和测序随机性两个指标

  • 横坐标是读段数量,纵坐标是检测到表达基因的数量;对于下图,如果只以150万条reads做检测,结果是基因表达了4200个,而还有100个表达基因检测不到却被说没表达,得到的结论不准确。
    001
    002

序列比对FAQ

  • 测序数据量
    003
  • 测序不饱和的影响
    005
  • 可以比对到基因组,比对不到基因集
  • 基因集是指具有遗传特性的基因编码的集合,
    006
  • 基因比对率低会有什么影响
    007
  • unspliced比对方法可能会造成发生可变剪接的读段匹配不到参考基因组上。
    008

基因表达量的计算

  • 根据基因是否被reads覆盖到来推测该基因是否发生了表达。
    009
  • 覆盖度相同,长度不同的基因。长度更长的基因表达量更高
    010
  • 相同的基因长度,测序深度不同,表达量也不同
    在这里插11入图片描述
  • 基因表达量的计算公式RPKM,通餐只适合原核生物,而不适合真核生物。主要由于真核的可变剪接
    在这里插123入图片描述
  • RPKM不适合发生可变剪接的数据
    456
  • FPKM计算公式,F表示fragment,计算的是片段。RPKM的R是reads。
    789

计算基因表达量软件

rpkm计算(rpkmgorgenes.py)

  1. 统计落在每个基因上的reads数目,测序乘数、基因长度
  2. rpkmforgenes.py可选参数说明
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐