PCA都分不开的两个组强行找差异是为何

  • 最新
  • 精选
  • 区块链
  • 汽车
  • 创意科技
  • 媒体达人
  • 电影音乐
  • 娱乐休闲
  • 生活旅行
  • 学习工具
  • 历史读书
  • 金融理财
  • 美食菜谱

PCA都分不开的两个组强行找差异是为何

生信技能树 生信技能树 2020-07-01

我在生信技能树的教程:《你确定你的差异基因找对了吗?》, 提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图

  • 左边的热图,说明我们实验的两个分组,normal和npc的很多基因表达量是有明显差异的
  • 中间的PCA图,说明我们的normal和npc两个分组非常明显的差异
  • 右边的层次聚类也是如此,说明我们的normal和npc两个分组非常明显的差异

如果分组在3张图里面体现不出来,实际上后续差异分析是有风险的。这个时候需要根据你自己不合格的3张图,仔细探索哪些样本是离群点,自行查询中间过程可能的问题所在,或者检查是否有其它混杂因素,都是会影响我们的差异分析结果的生物学解释的。

生存分析和差异分析的关键是分组

在肿瘤学研究里面,就是对癌症患者的样本根据某个临床特征或者某些分子的特性来进行分组。但是如果大家分析过TCGA数据库的全部样本的RNA-seq表达矩阵,就应该是明白,首先样本需要按照癌症肿瘤,起源器官等特征进行第一级别分组,然后每个癌症内部表达量分组主要是体现在亚型。比如是乳腺癌,你可以看lumA,lumB,basal,HER2 等亚型,如果是胃癌,也是有4种分子分型,具体如下:

  • ①爱泼斯坦-巴尔(Epstein-Barr)病毒(EBV)阳性型肿瘤:约占胃癌的9%,表现为较高频率的PIK3CA基因突变和DNA极度超甲基化,以及JAK2、CD274(也称PD-L1)和PDCD1LG2(也称PD-L2)基因扩增。

  • 微卫星不稳定(MSI)型:约占22%,表现为重复DNA序列突变增加,包括编码靶向致癌信号蛋白的基因突变。

  • 基因稳定(GS)型:约占20%,其组织学变异弥漫且丰富,RHOA基因突变或RHO家族GTP酶活化蛋白基因融合现象多见。

  • 染色体不稳定(CIN)型:此类肿瘤占胃癌的比例近一半,表现为显著异倍体性及受体酪氨酸激酶的局部扩增。

当然了,这样的肿瘤亚型已经被研究的比较清楚了,很难直接去做它们之间的差异,已经被阐明过了,所以大家会另辟蹊径的对肿瘤病人进行分组。

现在非常多的数据挖掘文章,喜欢使用TMB分组,或者免疫浸润情况分组(包括CIBERSOFT计算的LM22比例分组,以及ESTIMATE计算得到的 immune scores, stromal scores and ESTIMATE scores ),实际上风险很大,因为它们这些指标并不能比较好的区分肿瘤病人。

如果从PCA角度来看,就会发现被你分组的病人在前几个主成分上面基本上是混杂在一起的,如果是看全局热图(比如top500的mad的基因),就会发现病人仍然是混在一起。我前面提到过很多次,这样的混杂,其实对你差异分析的结果具有干扰,会影响我们对差异分析结果的生物学解释。

但是很多文章就喜欢取巧,针对性看top200的差异基因那么两个分组还是可以比较明显,如下:

针对显著的差异进行进行热图可视化

火山图看起来也会是很正常:

 

当然了,这些简单图表通常是都不会出现在文献正文里面,因为这样的数据挖掘文章落脚点都是肿瘤免疫,预后模型啥的,所以主要是生存分析模型等等。大家可以组合ESTIMATE关键词加上具体的某个TCGA里面的癌症,就可以发现大量的这样的文章。

或者是组合CIBERSORT关键词,也是加上某个TCGA里面的癌症,成百上千个粗糙的数据挖掘等你去“品鉴”。

数据挖掘的核心是缩小目标基因

各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。其实还有另外一个策略,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可

如果大家对数据挖掘的中间过程的合理性不好把握,建议看完我两年前带学徒的时候,安排他们做的文献关键图表复现作业系列笔记分享,如下;

第一期(2018年秋季)
  • 保姆式GEO数据挖掘演示--重现9分文章
  • GEO数据挖掘-第一期-胶质母细胞瘤(GBM)
  • GEO数据挖掘-第二期-三阴性乳腺癌(TNBC)
  • GEO数据挖掘-第三期-口腔鳞状细胞癌(OSCC),WGCNA
  • GEO数据挖掘-第四期-肝细胞癌(HCC),WGCNA
  • GEO数据挖掘-第五期-肝细胞癌(HCC)-多组分开差异分析
  • GEO数据挖掘-第六期-RNA-seq数据也照挖不误
  • TCGA数据库的TP53突变型和TP53野生型BRCA病人的差异分析结果
  • GEO数据库的耐药与敏感的患者组织内的成纤维细胞比较
  • TCGA数据库中三阴性乳腺癌在亚洲人群中的差异表达
  • TCGA数据库的有PIK3CA基因突变的肿瘤病人的转录水平变化
  • TCGA数据库里面的乳腺癌的芯片表达数据进行差异分析
第二期(2019年全年)
  • 1. 公共数据辅助乳腺癌的免疫治疗机制研究
  • 2. 有生物学意义的复杂热图
  • 3. 干扰MYC‑WWP1通路重新激活PTEN的抑癌活性——3步搞定GSEA分 析
  • 4. 按基因在染色体上的顺序画差异甲基化热图
  • 5. 热图、⻙恩图、GO富集分析图(有了转录组数据不知道该怎么写⽂ 章,看我就对了!)
  • 6. 纯R代码实现ssGSEA算法评估肿瘤免疫浸润程度
  • 7. 肿瘤异质性+免疫浸润细胞数据挖掘(可能是最简单的3分⽂章了)
  • 8. ArrayExpress数据库的基因芯⽚原始数据处理,3D主成分图及聚类热 图
  • 9. 学徒数据挖掘第⼆期汇总之多分组基因注释代码⼤放送
  • 10. TCGA数据辅助甲基化区域的功能研究
  • 11. 你确定你的差异基因找对了吗?
  • 12. 看nature⽂章是如何设计和使⽤普通转录组数据  
  • 13. 不⼀定正确的多分组差异分析结果热图展现
  • 14. 如果传统bulk转录组数据队列⾜够⼤也可以使⽤单细胞流程
  • 15. 最简单的芯⽚挖掘也会出错(菜⻦团周⼀数据挖掘专栏第?期)
  • 16. 乳腺癌的IHC分类和PAM50分型的差异情况
文末友情推荐

要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160 。如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班:

  • 数据挖掘学习班第4期(线上直播3周,马拉松式陪伴,带你入门)
  • 生信爆款入门-第6期(线上直播4周,马拉松式陪伴,带你入门)

如果你没有服务器的话,做NGS数据分析实战可能会有点勉强,建议考虑:每天不足一块钱,定制生信云送给你


 人赞赏

长按二维码向我转账

不点赞也不打赏,为什么呢?

受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

    前往看一看

    看一看入口已关闭

    在“设置”-“通用”-“发现页管理”打开“看一看”入口

    我知道了

    已发送

    发送到看一看

    发送中

    微信扫一扫
    使用小程序

    取消 允许

    取消 允许

    微信版本过低

    当前微信版本不支持该功能,请升级至最新版本。

    我知道了 前往更新

    确定删除回复吗?

    取消 删除

      知道了

      长按识别前往小程序

      本站仅按申请收录文章,版权归原作者所有
      如若侵权,请联系本站删除

      微信QQ空间新浪微博腾讯微博人人Twitter豆瓣百度贴吧

      觉得不错,分享给更多人看到

      生信技能树 热门文章:

      中国制造:碉堡的TCGA可视化网站GEPIA    阅读/点赞 : 2378/52

      使用阿里云+Docker分析RNA-Seq与ChIP-Seq    阅读/点赞 : 1457/29

      想炼成顶级生信科学家,本科是学生物好还是学计算机好呢?    阅读/点赞 : 1164/54

      起初听到这个,我是蒙圈的    阅读/点赞 : 1120/42

      师兄和他的生信故事    阅读/点赞 : 1075/44

      没有自己的服务器如何学习生物数据分析(上篇)    阅读/点赞 : 940/23

      生信编程直播第0题-生信编程很简单!    阅读/点赞 : 700/24

      为什么要休学出国走间隔年    阅读/点赞 : 595/36

      【直播】我的基因组65:看看哪些基因的突变较多,哪些较少    阅读/点赞 : 438/21

      我想起来了儿时一些好玩的事情    阅读/点赞 : 341/23

      生信技能树 微信二维码

      生信技能树 微信二维码

      生信技能树 最新文章

      PCA都分不开的两个组强行找差异是为何  2020-07-01

      线上公开课 | 洞悉NGS热点技术,达澈助您发表 SCI 高质文章  2020-07-01

      难为你们了,选择生信技能树  2020-06-30

      免费视频课程ATAC-seq实战演练  2020-06-30

      在R里面对三元一次方程求解  2020-06-29

      西湖大学42个实验室开放暑期科研实习项目  2020-06-29

      生存分析凭什么不需要矫正P值  2020-06-28

      全基因组癌症分析(PCAWG)文献精读  2020-06-28

      这样的诊断模型才优秀  2020-06-27

      中山大学肿瘤防治中心石明教授课题组博士后/特聘副研究员招聘启事  2020-06-27

      (adsbygoogle = window.adsbygoogle || []).push({});

      (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); (function(){ var src = (document.location.protocol == "http:") ? "http://js.passport.qihucdn.com/11.0.1.js?ba34c9f41d18b62312e960833b3cb4ae":"https://jspassport.ssl.qhimg.com/11.0.1.js?ba34c9f41d18b62312e960833b3cb4ae"; document.write(''); })();

       
      ®关于本站文章™ | 若非注明原创,默认 均为网友分享文章,如有侵权,请联系我们™
      ㊣ 本文永久链接: PCA都分不开的两个组强行找差异是为何