生信分析工作室
TCGA
卵巢癌
分子亚型
limma
ConsensusClusterPlus
GSEA

TCGA 卵巢癌多组学实战(上)

从分子亚型出发:差异基因、共识聚类、通路富集

12 分钟阅读
TCGA 卵巢癌多组学实战(上)

卵巢癌(Ovarian Carcinoma, OV)是妇科肿瘤里死亡率最高的一种。TCGA 的 OV 队列在 2011 年率先给出了基于转录组的 4 种分子亚型 —— differentiated、immunoreactive、mesenchymal、proliferative —— 至今仍是几乎所有 OV 转录组研究绕不开的分层依据。但很多公众号文章止步于『按亚型分组画 KM』,没有把这 4 个亚型的生物学差异讲透。本文用一份完整的 TCGA-OV 多组学数据(mRNA 20,530 × 308、miRNA 2,165 × 485、临床 631 例、生存 604 例)做一次系统的拆解。上篇先解决 4 个问题:

(1)队列长什么样?(2)每个亚型有哪些特异的高表达基因?(3)不用先验标签,能不能纯靠表达谱聚类把 4 个亚型『还原』出来?(4)4 个亚型的功能差异是什么,能不能在通路上一句话总结?

下篇再继续讲免疫浸润、WGCNA 共表达、miRNA-mRNA 整合、生存分析与 LASSO-Cox 预后模型。两篇的脚本与图都基于同一份配色方案(peise.txt 第 22 号),PDF + PNG 双格式输出,全英文图例,可以直接拿去投稿。

第一步 · 队列构建:5 张表的样本求交

TCGA-OV 在 Xena 上下到的有 5 张表:mRNA 表达(HiSeqV2_PANCAN 归一化)、miRNA 表达、4 亚型标签、临床矩阵(102 列)、生存数据(OS / DSS / DFI / PFI 四套终点)。把这 5 张表按样本 barcode 求交,确定每个下游分析能动用的样本量。

R · 01_data_preparation.R
# 5 张表读入后做样本交集
common_all <- Reduce(intersect, list(
  colnames(mrna), subtype$sample, surv$sample))

# 最终 OS 队列 307 人;mRNA ∩ miRNA = 304 人
TCGA-OV 4 个分子亚型的样本量
图 1 · TCGA-OV 4 个分子亚型的样本量:differentiated 70 / immunoreactive 84 / mesenchymal 69 / proliferative 85,整体分布非常均衡,对下游统计极其友好。
各数据子集的样本量与交集汇总
图 2 · 各数据子集的样本量与交集汇总。308 例 mRNA 全部带有亚型标签,几乎全部带有生存信息;mRNA ∩ miRNA = 304 例。

第二步 · limma 差异表达:每个亚型 vs 其余

我们采用经典的 one-vs-rest 设计:每个亚型与其余三个亚型的均值做差异检验。数据已经是 log2 归一化,所以用 limma + trend = TRUE,阈值取 |log2FC| > 1 且 adj.P < 0.05。

R · 02_DEG_analysis.R
design <- model.matrix(~ 0 + grp);  colnames(design) <- levels(grp)
contr  <- makeContrasts(contrasts = paste0(lv, " - others"), levels = design)
fit2   <- eBayes(contrasts.fit(lmFit(expr, design), contr), trend = TRUE)

四个对比的 DEG 数量:

SubtypeUpDownDEG total
Differentiated185346531
Immunoreactive453416869
Mesenchymal87799976
Proliferative90410711975
四个亚型 vs 其余的火山图
图 3 · 四个亚型 vs 其余的火山图(faceted)。横轴 log2FC,纵轴 -log10(adj.P)。每个 panel 上标注了显著性最强的 Top-5 上下调基因。Mesenchymal 的右半边明显更密集。
每个亚型 Top-20 标志基因热图
图 4 · 每个亚型 Top-20 上调标志基因的 z-score 热图(合并去重后 80 基因)。样本按亚型分块,4 个亚型呈现非常清晰的『一块块』高表达条纹,证明 limma 给出的标志基因有很强的亚型特异性。

第三步 · 共识聚类:从表达谱反推亚型

上一步是『有先验标签做监督差异』,这一步反过来:把先验标签盖住,用 top-1500 高 MAD 基因 + ConsensusClusterPlus 做无监督共识聚类,看看能不能把 4 个亚型『还原』出来。如果还原度高,说明这 4 个亚型确实是表达谱里的真实结构,不是某种历史划分的人为偏好。

R · 04_consensus_clustering.R
cc <- ConsensusClusterPlus(
  d = mat, maxK = 6, reps = 200, pItem = 0.8, pFeature = 1,
  clusterAlg = "km", distance = "euclidean",
  innerLinkage = "ward.D2", finalLinkage = "ward.D2")
# 取 k = 4 与 TCGA 亚型对比
k=4 共识聚类与 TCGA 亚型交叉表
图 5 · k=4 共识聚类结果与 TCGA 亚型的交叉表(气泡 + 数字)。C1 ≈ Immunoreactive、C3 ≈ Proliferative、C4 ≈ Mesenchymal 都呈现明显主对角线集中。
共识聚类热图
图 6 · 1,500 个高 MAD 基因在样本维度上做共识聚类后得到的热图,顶部双注释(上:共识 cluster,下:TCGA 亚型)。4 个 cluster 各自有一片清晰的高表达 / 低表达模块。

第四步 · 通路富集:GO / KEGG / Hallmark GSEA

差异基因列表本身可读性差,必须落到通路层面才能讲故事。我们对每个亚型的『Up-DEG』做三件事:

(1)GO BP 超几何检验(clusterProfiler::enrichGO);(2)KEGG 通路富集(enrichKEGG,在线读 hsa 注释);(3)Hallmark GSEA(fgsea,按 limma t 统计量排序,捕捉全谱趋势)。

4.1 GO Biological Process · Top 8 / 亚型

GO BP top-8 通路 by 亚型
图 7 · 每个亚型 Up-DEG 的 GO BP top-8 通路。Immunoreactive 富集在 immune / T-cell 通路;Mesenchymal 集中在 ECM / 血管发育 / 创伤愈合;Proliferative 全部命中细胞周期 / DNA 复制;Differentiated 的功能特异性最弱。

4.2 KEGG 通路 · Top 6 / 亚型

KEGG 通路富集 by 亚型
图 8 · KEGG 通路富集。Mesenchymal 的 ECM-receptor / focal adhesion / PI3K-Akt 高度聚集,Immunoreactive 命中 cytokine-cytokine receptor interaction,与 GO 完全一致。

4.3 Hallmark GSEA · 全谱视角

MSigDB Hallmark GSEA 气泡图
图 9 · MSigDB Hallmark GSEA 气泡图(每亚型 top-10)。颜色 = NES,大小 = -log10(padj)。EMT 在 Mesenchymal 拿到 NES=+0.82, padj<1e-49 的极端富集,对应通路富集第①条总结。

上篇小结

到此上篇结束 —— 我们从 4 张原始表整理出 307 例可用队列,用 limma 拿到了每个亚型的特异 DEG,用 ConsensusClusterPlus 验证了 4 亚型的真实性(ARI=0.39),再用 GO / KEGG / Hallmark 给出了亚型对应的功能图景。整个流程是一个『可复现的范式』:

① 样本求交 → ② limma DEG → ③ 无监督聚类反向验证 → ④ GO / KEGG / GSEA 三层富集。

下篇会接着写:ESTIMATE + 28-cell ssGSEA 免疫浸润、WGCNA 模块-性状相关、miRNA-mRNA 整合、以及最重要的 LASSO-Cox 预后模型 + 时间依赖 ROC + 多变量校正。

本文相关服务

生存分析 / 数据库挖掘

想把类似的分析跑在你自己的数据上?可以直接看服务详情或发起咨询。

更多案例