最近在学习GEO表达谱芯片数据处理,单个数据集(肿瘤组vs正常组织)寻找差异基因。

目前流程如下:下载cel文件,提取表达数据,rma标准化,批次效应去除。

遇到的问题:combat去除批次效应后PCA图没有明显变化,但是后续差异基因分析差别很大,不去除批次效应的差异基因有1200多个,combat后的有800多个,这是为什么,我应该用哪个矩阵数据继续做差异基因分析?求小伙伴们大神们帮助一下我这个菜鸟,感激不尽!

我理解批次效应是时间

 

 

去除批次效应的代码如下

​​​​​​

 

去除前的pca图

去除后的pca图

 

 

 

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐