卵巢癌(Ovarian Carcinoma, OV)是妇科肿瘤里死亡率最高的一种。TCGA 的 OV 队列在 2011 年率先给出了基于转录组的 4 种分子亚型 —— differentiated、immunoreactive、mesenchymal、proliferative —— 至今仍是几乎所有 OV 转录组研究绕不开的分层依据。但很多公众号文章止步于『按亚型分组画 KM』,没有把这 4 个亚型的生物学差异讲透。本文用一份完整的 TCGA-OV 多组学数据(mRNA 20,530 × 308、miRNA 2,165 × 485、临床 631 例、生存 604 例)做一次系统的拆解。上篇先解决 4 个问题:
(1)队列长什么样?(2)每个亚型有哪些特异的高表达基因?(3)不用先验标签,能不能纯靠表达谱聚类把 4 个亚型『还原』出来?(4)4 个亚型的功能差异是什么,能不能在通路上一句话总结?
下篇再继续讲免疫浸润、WGCNA 共表达、miRNA-mRNA 整合、生存分析与 LASSO-Cox 预后模型。两篇的脚本与图都基于同一份配色方案(peise.txt 第 22 号),PDF + PNG 双格式输出,全英文图例,可以直接拿去投稿。
第一步 · 队列构建:5 张表的样本求交
TCGA-OV 在 Xena 上下到的有 5 张表:mRNA 表达(HiSeqV2_PANCAN 归一化)、miRNA 表达、4 亚型标签、临床矩阵(102 列)、生存数据(OS / DSS / DFI / PFI 四套终点)。把这 5 张表按样本 barcode 求交,确定每个下游分析能动用的样本量。
# 5 张表读入后做样本交集
common_all <- Reduce(intersect, list(
colnames(mrna), subtype$sample, surv$sample))
# 最终 OS 队列 307 人;mRNA ∩ miRNA = 304 人

第二步 · limma 差异表达:每个亚型 vs 其余
我们采用经典的 one-vs-rest 设计:每个亚型与其余三个亚型的均值做差异检验。数据已经是 log2 归一化,所以用 limma + trend = TRUE,阈值取 |log2FC| > 1 且 adj.P < 0.05。
design <- model.matrix(~ 0 + grp); colnames(design) <- levels(grp)
contr <- makeContrasts(contrasts = paste0(lv, " - others"), levels = design)
fit2 <- eBayes(contrasts.fit(lmFit(expr, design), contr), trend = TRUE)四个对比的 DEG 数量:
| Subtype | Up | Down | DEG total |
|---|---|---|---|
| Differentiated | 185 | 346 | 531 |
| Immunoreactive | 453 | 416 | 869 |
| Mesenchymal | 877 | 99 | 976 |
| Proliferative | 904 | 1071 | 1975 |


第三步 · 共识聚类:从表达谱反推亚型
上一步是『有先验标签做监督差异』,这一步反过来:把先验标签盖住,用 top-1500 高 MAD 基因 + ConsensusClusterPlus 做无监督共识聚类,看看能不能把 4 个亚型『还原』出来。如果还原度高,说明这 4 个亚型确实是表达谱里的真实结构,不是某种历史划分的人为偏好。
cc <- ConsensusClusterPlus(
d = mat, maxK = 6, reps = 200, pItem = 0.8, pFeature = 1,
clusterAlg = "km", distance = "euclidean",
innerLinkage = "ward.D2", finalLinkage = "ward.D2")
# 取 k = 4 与 TCGA 亚型对比

第四步 · 通路富集:GO / KEGG / Hallmark GSEA
差异基因列表本身可读性差,必须落到通路层面才能讲故事。我们对每个亚型的『Up-DEG』做三件事:
(1)GO BP 超几何检验(clusterProfiler::enrichGO);(2)KEGG 通路富集(enrichKEGG,在线读 hsa 注释);(3)Hallmark GSEA(fgsea,按 limma t 统计量排序,捕捉全谱趋势)。
4.1 GO Biological Process · Top 8 / 亚型

4.2 KEGG 通路 · Top 6 / 亚型

4.3 Hallmark GSEA · 全谱视角

上篇小结
到此上篇结束 —— 我们从 4 张原始表整理出 307 例可用队列,用 limma 拿到了每个亚型的特异 DEG,用 ConsensusClusterPlus 验证了 4 亚型的真实性(ARI=0.39),再用 GO / KEGG / Hallmark 给出了亚型对应的功能图景。整个流程是一个『可复现的范式』:
① 样本求交 → ② limma DEG → ③ 无监督聚类反向验证 → ④ GO / KEGG / GSEA 三层富集。
下篇会接着写:ESTIMATE + 28-cell ssGSEA 免疫浸润、WGCNA 模块-性状相关、miRNA-mRNA 整合、以及最重要的 LASSO-Cox 预后模型 + 时间依赖 ROC + 多变量校正。