RNAseq数据分析第9-10课
目录RNAseq数据评估序列比对FAQ基因表达量的计算计算基因表达量软件rpkm计算(rpkmgorgenes.py)RNAseq数据评估主要包括测序饱和度和测序随机性两个指标横坐标是读段数量,纵坐标是检测到表达基因的数量;对于下图,如果只以150万条reads做检测,结果是基因表达了4200个,而还有100个表达基因检测不到却被说没表达,得到的结论不准确。序列比对FAQ测序数据量测序不饱和的影响
·
RNAseq数据评估
-
主要包括测序饱和度和测序随机性两个指标
-
横坐标是读段数量,纵坐标是检测到表达基因的数量;对于下图,如果只以150万条reads做检测,结果是基因表达了4200个,而还有100个表达基因检测不到却被说没表达,得到的结论不准确。


序列比对FAQ
- 测序数据量

- 测序不饱和的影响

- 可以比对到基因组,比对不到基因集
- 基因集是指具有遗传特性的基因编码的集合,

- 基因比对率低会有什么影响

- unspliced比对方法可能会造成发生可变剪接的读段匹配不到参考基因组上。

基因表达量的计算
- 根据基因是否被reads覆盖到来推测该基因是否发生了表达。

- 覆盖度相同,长度不同的基因。长度更长的基因表达量更高

- 相同的基因长度,测序深度不同,表达量也不同

- 基因表达量的计算公式RPKM,通餐只适合原核生物,而不适合真核生物。主要由于真核的可变剪接

- RPKM不适合发生可变剪接的数据

- FPKM计算公式,F表示fragment,计算的是片段。RPKM的R是reads。

计算基因表达量软件
rpkm计算(rpkmgorgenes.py)
- 统计落在每个基因上的reads数目,测序乘数、基因长度
- rpkmforgenes.py可选参数说明
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)