TCGA 卵巢癌多组学实战（上）

卵巢癌（Ovarian Carcinoma, OV）是妇科肿瘤里死亡率最高的一种。TCGA 的 OV 队列在 2011 年率先给出了基于转录组的 4 种分子亚型 —— differentiated、immunoreactive、mesenchymal、proliferative —— 至今仍是几乎所有 OV 转录组研究绕不开的分层依据。但很多公众号文章止步于『按亚型分组画 KM』，没有把这 4 个亚型的生物学差异讲透。本文用一份完整的 TCGA-OV 多组学数据（mRNA 20,530 × 308、miRNA 2,165 × 485、临床 631 例、生存 604 例）做一次系统的拆解。上篇先解决 4 个问题：

（1）队列长什么样？（2）每个亚型有哪些特异的高表达基因？（3）不用先验标签，能不能纯靠表达谱聚类把 4 个亚型『还原』出来？（4）4 个亚型的功能差异是什么，能不能在通路上一句话总结？

下篇再继续讲免疫浸润、WGCNA 共表达、miRNA-mRNA 整合、生存分析与 LASSO-Cox 预后模型。两篇的脚本与图都基于同一份配色方案（peise.txt 第 22 号），PDF + PNG 双格式输出，全英文图例，可以直接拿去投稿。

第一步 · 队列构建：5 张表的样本求交

TCGA-OV 在 Xena 上下到的有 5 张表：mRNA 表达（HiSeqV2_PANCAN 归一化）、miRNA 表达、4 亚型标签、临床矩阵（102 列）、生存数据（OS / DSS / DFI / PFI 四套终点）。把这 5 张表按样本 barcode 求交，确定每个下游分析能动用的样本量。

R · 01_data_preparation.R

# 5 张表读入后做样本交集
common_all <- Reduce(intersect, list(
  colnames(mrna), subtype$sample, surv$sample))

# 最终 OS 队列 307 人；mRNA ∩ miRNA = 304 人

图 1 · TCGA-OV 4 个分子亚型的样本量：differentiated 70 / immunoreactive 84 / mesenchymal 69 / proliferative 85，整体分布非常均衡，对下游统计极其友好。

图 2 · 各数据子集的样本量与交集汇总。308 例 mRNA 全部带有亚型标签，几乎全部带有生存信息；mRNA ∩ miRNA = 304 例。

第二步 · limma 差异表达：每个亚型 vs 其余

我们采用经典的 one-vs-rest 设计：每个亚型与其余三个亚型的均值做差异检验。数据已经是 log2 归一化，所以用 limma + trend = TRUE，阈值取 |log2FC| > 1 且 adj.P < 0.05。

R · 02_DEG_analysis.R

design <- model.matrix(~ 0 + grp);  colnames(design) <- levels(grp)
contr  <- makeContrasts(contrasts = paste0(lv, " - others"), levels = design)
fit2   <- eBayes(contrasts.fit(lmFit(expr, design), contr), trend = TRUE)

四个对比的 DEG 数量：

Subtype	Up	Down	DEG total
Differentiated	185	346	531
Immunoreactive	453	416	869
Mesenchymal	877	99	976
Proliferative	904	1071	1975

图 3 · 四个亚型 vs 其余的火山图（faceted）。横轴 log2FC，纵轴 -log10(adj.P)。每个 panel 上标注了显著性最强的 Top-5 上下调基因。Mesenchymal 的右半边明显更密集。

每个亚型 Top-20 标志基因热图 — 图 4 · 每个亚型 Top-20 上调标志基因的 z-score 热图（合并去重后 80 基因）。样本按亚型分块，4 个亚型呈现非常清晰的『一块块』高表达条纹，证明 limma 给出的标志基因有很强的亚型特异性。

第三步 · 共识聚类：从表达谱反推亚型

上一步是『有先验标签做监督差异』，这一步反过来：把先验标签盖住，用 top-1500 高 MAD 基因 + ConsensusClusterPlus 做无监督共识聚类，看看能不能把 4 个亚型『还原』出来。如果还原度高，说明这 4 个亚型确实是表达谱里的真实结构，不是某种历史划分的人为偏好。

R · 04_consensus_clustering.R

cc <- ConsensusClusterPlus(
  d = mat, maxK = 6, reps = 200, pItem = 0.8, pFeature = 1,
  clusterAlg = "km", distance = "euclidean",
  innerLinkage = "ward.D2", finalLinkage = "ward.D2")
# 取 k = 4 与 TCGA 亚型对比

k=4 共识聚类与 TCGA 亚型交叉表 — 图 5 · k=4 共识聚类结果与 TCGA 亚型的交叉表（气泡 + 数字）。C1 ≈ Immunoreactive、C3 ≈ Proliferative、C4 ≈ Mesenchymal 都呈现明显主对角线集中。

共识聚类热图 — 图 6 · 1,500 个高 MAD 基因在样本维度上做共识聚类后得到的热图，顶部双注释（上：共识 cluster，下：TCGA 亚型）。4 个 cluster 各自有一片清晰的高表达 / 低表达模块。

第四步 · 通路富集：GO / KEGG / Hallmark GSEA

差异基因列表本身可读性差，必须落到通路层面才能讲故事。我们对每个亚型的『Up-DEG』做三件事：

（1）GO BP 超几何检验（clusterProfiler::enrichGO）；（2）KEGG 通路富集（enrichKEGG，在线读 hsa 注释）；（3）Hallmark GSEA（fgsea，按 limma t 统计量排序，捕捉全谱趋势）。

4.1 GO Biological Process · Top 8 / 亚型

GO BP top-8 通路 by 亚型 — 图 7 · 每个亚型 Up-DEG 的 GO BP top-8 通路。Immunoreactive 富集在 immune / T-cell 通路；Mesenchymal 集中在 ECM / 血管发育 / 创伤愈合；Proliferative 全部命中细胞周期 / DNA 复制；Differentiated 的功能特异性最弱。

4.2 KEGG 通路 · Top 6 / 亚型

KEGG 通路富集 by 亚型 — 图 8 · KEGG 通路富集。Mesenchymal 的 ECM-receptor / focal adhesion / PI3K-Akt 高度聚集，Immunoreactive 命中 cytokine-cytokine receptor interaction，与 GO 完全一致。

4.3 Hallmark GSEA · 全谱视角

图 9 · MSigDB Hallmark GSEA 气泡图（每亚型 top-10）。颜色 = NES，大小 = -log10(padj)。EMT 在 Mesenchymal 拿到 NES=+0.82, padj<1e-49 的极端富集，对应通路富集第①条总结。

上篇小结

到此上篇结束 —— 我们从 4 张原始表整理出 307 例可用队列，用 limma 拿到了每个亚型的特异 DEG，用 ConsensusClusterPlus 验证了 4 亚型的真实性（ARI=0.39），再用 GO / KEGG / Hallmark 给出了亚型对应的功能图景。整个流程是一个『可复现的范式』：

① 样本求交 → ② limma DEG → ③ 无监督聚类反向验证 → ④ GO / KEGG / GSEA 三层富集。

下篇会接着写：ESTIMATE + 28-cell ssGSEA 免疫浸润、WGCNA 模块-性状相关、miRNA-mRNA 整合、以及最重要的 LASSO-Cox 预后模型 + 时间依赖 ROC + 多变量校正。