乳腺癌的基因识别
作者:作图丫
导语
癌症的体细胞改变导致控制细胞周期进程、细胞凋亡和细胞生长的信号通路失调。这些途径中个体改变的影响在个体肿瘤和肿瘤类型之间不同。识别驱动事件是一项复杂的任务,需要整合多个分子数据,包括基因组学、表观基因组学和功能基因组学。一个常见的假设是,这些驱动事件对癌症的标志具有相似的影响。大规模多组学研究的可用性允许从数据中推断出这些共同的影响。一旦挖掘出这些影响,就可以确定在每个患者身上反卷积给定的基因组学改变是否是一个驱动事件。
背景介绍
今天小编为大家介绍的这篇文章,基于多组学数据对乳腺癌进行免疫亚型分类。文章发表在《Journal of Translational Medicine》上,影响因子为8.44,文章题目为:Pan-cancer onco-signatures reveal a novel mitochondrial subtype of luminal breast cancer with specific regulators。
数据介绍
TCGA乳腺癌数据集,使用9107个原发性泛肿瘤样本的发现集以及相应的匹配突变数据和来自 COSMIC 数据库的已知癌症相关基因列表,从 TCGA 基因表达数据中推导出表达泛癌肿瘤特征。
研究设计
结果解析
01、Onco-signatures识别四种不同的乳腺癌表型
癌症是由参与细胞生长或 DNA 修复活动等重要生物过程的基因中体细胞突变的积累引起的。由于突变事件的特异性、外显率、细胞为减少损伤影响而部署的补偿机制,以及癌症环境,分子损伤可以产生新的基因表达模式,这些模式可以在癌症类型之间共享和驱动程序事件。为了识别由复发突变诱导的常见癌症相关分子组织不可知模式,我们开发了一种新的研究框架,如图 1所示。通过使用泛癌,我们仅评估了衍生肿瘤特征对乳腺癌类型的影响。我们应用Cox比例风险模型,使用来自TCGA的1093名原发性乳腺癌患者的生存数据来识别与生存显著相关(p 0.05)的肿瘤特征,以这种方式选择总共28例乳腺癌生存相关的肿瘤特征。接下来,我们通过对每个肿瘤样本中每个肿瘤特征获得的归一化富集评分值进行聚类,测试了选定的28个乳腺癌预后肿瘤特征对1093个TCGA原发性乳腺癌样本进行分层的能力。整个研究的工作流程如图1。这七个过程包括:①来自TCGA的泛癌数据收集,②对COSMIC数据库中标注的每个癌症相关基因进行差异基因表达分析(突变型与野生型样本),③鉴定105个肿瘤共标记,每个肿瘤共标记由特定标记基因组成,④在TCGA- brca数据集中进行单样本Mann-Whitney-Wilcoxon基因集检验,⑤应用Cox比例风险模型鉴定28个最具预后的乳腺癌共标记。⑥对单样本Mann-Whitney-Wilcoxon基因集测试计算的归一化富集分数矩阵进行聚类分析,行示28例乳腺癌生存相关肿瘤共同特征,列示TCGA原发性乳腺癌样本。⑦通过生存分析、差异表达分析、拷贝数变异分析、DNA甲基化分析、启动子分析、DNA甲基化分析对鉴定组进行分子表征。基因本体富集分析。
图1
02、四个识别的的乳腺癌亚群在总生存期方面表现出不同的结果
聚类分析确定了四个组,它们显示出不同程度的肿瘤特征激活(图2)。NES 聚类分析定义了四种具有不同生存结果的原发性乳腺癌表型。A 原发性 TCGA 乳腺癌样本的无监督层次聚类(Ward.D2 标准)应用于通过单样本 Mann–Whitney–Wilcoxon 基因集测试计算的富集分数矩阵,用于每个已识别的乳腺肿瘤预后肿瘤特征。红色的肿瘤特征明显丰富,蓝色的肿瘤特征在四个集群中显着减少。B 根据聚类分配的 TCGA 原发性乳腺癌数据集的 Kaplan-Meier 总体生存曲线。 C TCGA 原发性 Luminal 乳腺癌队列的 Kaplan-Meier 总体生存曲线通过比较集群 1 与集群 2 与集群 4 确定。D TCGA 原发性 Luminal 乳腺癌数据集的 Kaplan-Meier 总体生存曲线通过比较集群 2 与集群 4 确定。E Cluster 4和Cluster 2差异表达基因的基因本体富集分析。
图2
03、一部分管腔肿瘤显示出 OXPHOS 表型
为了评估可能解释观察到的属于已识别集群的 Luminal 乳腺癌患者生存结果差异的生物学功能和分子特征,我们对构成更极端表型的样本进行了比较分析,即集群Cluster4,以更好的生存为特征,而Cluster2,具有更差的结果(图2D)。我们根据|Log2FC|的阈值对第4组与第2组进行了差异基因表达分析。根据|Log2FC|≥ 1.5且错误发现率 (FDR)0.05,我们发现了 645 个差异表达基因 (DEGs;243 个上调基因和 402个下调基因。基因本体 (GO) 富集分析表明,上调的 DEG 的生物过程富集项主要与线粒体呼吸功能、电子传递链和氧化还原过程相关(图2 E)。相反,最显著下调的基因涉及与脑组织功能、细胞外基质组织和细胞粘附相关的GO术语(图2E)。MiRNA 差异表达分析确定了 60 个失调的miRNA(16个上调和44个下调的microRNA;|Log2FC| ≥ 1 且 FDR 0.05)。对 16 种上调 miRNA 的过度表征分析捕获了与癌症相关的富集类别,包括脑癌和神经退行性疾病(图 3A)。相反,对 44 种下调的 microRNA的MiRNA组富集分析显示,富集与癌症密切相关,尤其是与肺鳞状细胞癌相关(调整后的 p 值 = 1.94e-15;图3B)。与Cluster2 的管腔肿瘤相比,属于Cluster4的管腔乳腺癌显示miR-135a-5p表达显着上调(log2FC = 2.9 和 FDR = 3e-99)。众所周知,miR-135a-5p 是乳腺癌上皮-间质转化 (EMT) 的调节因子,通过 Wnt/β-catenin 信号通路发挥作用,我们比较了 EMT 和经典的转录水平Cluster4与Cluster2中的非经典WNT信号通路标记。如图3C,EMT和WNT信号通路成员根据聚类分类完美地分离了Luminal样本。此外,这两个簇显示特定标记的相反表达谱,在Cluster4中上皮成员的表达增加,在Clusrer2 中间充质标记和 WNT 成员的表达增加(图3C)。由于已知比 Luminal A 肿瘤更具侵袭性的Luminal B样本百分比在第2组中高于第4组(分别为 29% 和 12%),我们重新运行所有分析,移除 Luminal B 参与者以减少分子分型引起的潜在偏差。令人惊讶的是,如图3D-F所示,通过仅对Lumina A队列运行分析获得了可叠加的结果。
图3
04、Cluster 2 中 miR-135a-5p 的下调可以部分地用 TDMD 来解释
为了尝试找到与第2亚组和第4亚组管腔肿瘤之间这种不同生存结果相关的分子特征,进行了额外的分析。当我们分析 GISTIC 处理的 SNP 数据时,我们发现尽管在两个分析组中显示收益和/或损失的病例比例相当,但与集群 4 相比,集群 2 在全球范围内显示出更稳定的拷贝数改变模式。相反,在单基因水平上分析两个簇之间的损失和增益频率,我们发现 3118 个扩增基因和 1757 个缺失基因在簇2和簇4中显着富集,只有 130 个扩增基因在簇4和簇2中显着富集(图4A)。有趣的是,聚类2中更频繁改变的基因的GO富集分析表明,569个扩增基因参与了与药物和有机阴离子转运反应相关的功能和过程(图4B),而 292 个缺失基因在 GO中显示富集通过JAK-STAT与免疫反应和受体信号通路的调节有关(图4 C)。相反,我们没有发现聚类 4 中鉴定的 23 个频繁扩增基因的富集GO。此外,通过卡方检验比较了编码 miR-135a-5p 转录本的两个基因(分别为 MIR135A1 和 MIR135A2 基因)的 CNV在两个簇之间,但两个基因在簇2中均未显示出显着(p 值 0.05)更高的改变频率(MIR135A1:分别在 32.1% 和 6.4% 的样本中删除和扩增;MIR135A2:分别在 12.2% 和 21.0% 的样本中删除和扩增)或簇 4(MIR135A1:分别在 23.4% 和 7.8% 的样本中删除和扩增;MIR135A2:分别在 9.4% 和 23.4% 的样本中删除和扩增 )。同样,在分析甲基化 β 值时,5AB)。接下来,为了了解 miR-135a-5p 在 Cluster 2 和 Cluster 4 之间的表达差异是否可以在转录调控方面在基因组水平上得到解释,我们试图在 DNA 中寻找候选转录因子 (TF) 结合位点使用基于序列匹配的方法分析 MIR135A1 和 MIR135A2 基因的启动子序列。通过该分析,我们发现了 122 个富含 MIR135A 启动子基因的潜在转录因子结合位点。122 个候选TF和DEG列表之间的交集揭示了只有 4 个基因(ZNF354C、NFATC2、NFIC 和 EHF)的重叠,所有基因在第 4 组和第 2 组中都显着下调。我们接下来研究了表达之间的差异转录后事件可诱导簇4和簇2中miR-135a-5p的水平。由于目前已知许多 RNA 转录本能够通过称为靶向 miRNA 降解 (TDMD)的机制触发microRNA 的降解,我们尝试查询TDMDfinder数据库( 效应。
图4
图5
图6
05、不同代谢亚型的管腔乳腺癌在肿瘤微环境 (TME) 状态的显著差异
通过使用 TIMER2.0 webtool 提供的六种免疫反卷积方法,对感兴趣的两组(即 Cluster 2 和 Cluster 4)的 Luminal 肿瘤的不同肿瘤浸润免疫和癌细胞类型的丰度进行了评估。如图 7所示,在 Cluster 4 中富集的 Luminal 肿瘤显示出更高的免疫效应细胞浸润,如 γδ T 细胞、T 滤泡辅助细胞 (Tfh)、巨噬细胞 M2、自然杀伤 T (NKT) 细胞、嗜酸性粒细胞、中性粒细胞、血浆 B细胞和非调节性 CD4 T 细胞。相反,与第 2 类管腔癌相关的肿瘤微环境显示调节性 T 细胞 (Treg)、浆细胞样树突状细胞 (PDC)、普通淋巴祖细胞、巨噬细胞 M0 和 M1、CD4+ Th1 细胞和 CD4+ Th2 细胞的更高浸润,以及更高的细胞毒性评分。此外,我们还使用 pRRhotetic 算法估计了在第 2 组和第 4 组中富集的 Luminal 样本中 138 种抗癌药物的 IC50 值。有趣的是,第 2 组的 Luminal 肿瘤对三种抗癌药物即恩替司他(或MS-S75)、Olaparib(或 AZD2281)和 BI-D1870(Wilcoxon 检验,p 0.05;图7B –D),关于 Cluster 4 Luminal 样本。
图7
小编总结
在这项研究中,我们提出了一种新的分析管道,以确定可能能够预测癌症患者疾病结果的强大肿瘤特征。使用由9107个原发性肿瘤样本组成的泛癌发现集以及相应的匹配突变数据和已知癌症相关基因列表,我们确定了105个肿瘤特征,每个特征都由一组不同的标记基因组成。为了研究105种肿瘤特征在乳腺癌疾病中的预测能力,使用 TCGA BRCA 基因表达数据集构建了 Cox 比例风险回归模型,确定了28种BRCA生存相关肿瘤特征。接下来,通过执行基因集富集分析,然后对NES进行无监督的层次聚类分析,我们确定了四个具有临床相关性的离散乳腺癌组。我们的方法成功地对 Basal 样乳腺肿瘤进行了分层,但没有对 Luminal 肿瘤进行分层,后者在不同簇的总体存活率方面表现出高度多样性。确认在四个确定的组中富集的 Luminal 癌症的预后差异鼓励计算机分子分析以发现相关的遗传变量,这表明更极端的 Luminal 表型(即簇 2 和簇 4)之间存在显着差异差异基因表达、CNV 状态和致癌特征的激活。
总之,我们的研究提出了一种基于基因集富集分析的有效且新颖的方法来构建癌症的预后基因特征。通过详细分析 TCGA 乳腺癌数据集,我们证明了我们的模型可用于预测患者的预后,并且还能够将癌症样本分层为更相关的亚组。特别是,我们的肿瘤特征能够区分具有不同临床和遗传特征以及不同代谢状态和不同肿瘤微环境的 Luminal 肿瘤。此外,我们的分析还提供了潜在的治疗靶点以及候选化疗药物,以改善线粒体活性较低的 Luminal 患者的治疗,当然,这需要进一步的临床证实。
文字均为原创,欢迎读者分享或转发到朋友圈,任何公众号或其他媒体未经许可不得私自或抄袭。
本文自其他网站,不代表健康界观点和立场。如有内容和图片的著作权异议,请及时联系我们(邮箱:guikequan@hmkx.cn)
我来说两句