软组织肉瘤(Soft Tissue Sarcoma, SARC)是一类异质性极强的间叶来源恶性肿瘤,组织学亚型多达数十种,临床表型、预后和治疗反应都差异巨大。TCGA-SARC 队列一次性整合了 271 例患者的临床随访 + 全转录组 + miRNA 表达数据,为我们研究亚型差异、预后因子和分子分型提供了一份完美的练手数据。本文是这套数据完整分析的上篇,把前 5 步走完:数据整合与样本筛选、临床描述、生存分析、亚型差异基因、GO/Hallmark 富集。下一篇会接着写:LASSO-Cox 预后模型、共识聚类、免疫浸润、WGCNA 模块、miRNA-mRNA 网络。
第一步 · 数据整合:4 个文件,1 个统一队列
UCSC Xena 上的 TCGA-SARC 数据包含 4 个核心文件:临床矩阵(106 个变量)、生存数据(OS / DSS / DFI / PFI)、mRNA 表达谱(log2 RSEM, 20 530 基因)、miRNA HiSeq(2 093 features)。我们先把它们按 sampleID 全部对齐,只保留 肿瘤样本(barcode 末尾 -01),并过滤掉低表达和缺失太多的特征。
# Tumor-only filter (TCGA -01 barcode)
mrna <- mrna [, grepl("-01[A-Z]?$", colnames(mrna))]
mirna <- mirna[, grepl("-01[A-Z]?$", colnames(mirna))]
# 简化组织学亚型:8 大类 -> 6 大类(Desmoid/Other 太小后续剔除)
simplify_subtype <- function(x) { ... LMS, DDLPS, UPS, MFS, MPNST, SS, ... }
# 与生存数据合并
meta <- merge(clin_sub, surv, by = "sampleID")第二步 · 临床描述:先把队列特征讲清楚
在任何统计建模之前,先把临床特征摸清楚是必修课。我们看 4 件事:亚型占比、年龄分布、性别构成、死亡事件率。
2.1 亚型分布

2.2 年龄分布按亚型

2.3 综合 dashboard

第三步 · 生存分析:KM 曲线 + 单/多变量 Cox
生存分析是 TCGA 数据最经典的分析层。先按亚型和年龄做 Kaplan-Meier 曲线,再做单变量和多变量 Cox 回归,把临床预后因子一网打尽。
3.1 按组织学亚型的 KM 曲线(OS)

3.2 按年龄分组的 KM 曲线

3.3 PFI(无进展间期)按亚型

3.4 单变量 Cox 森林图

3.5 多变量 Cox 森林图

第四步 · 亚型差异基因:每个亚型 vs 其它
使用 limma 的 cell-means 设计(~0 + subtype),逐一比较 每个亚型 vs 其它亚型均值。阈值取 |log2FC|>1 且 adj.P<0.05。
design <- model.matrix(~0 + subtype, data = meta)
contrast_string <- sapply(subs, function(s) {
others <- setdiff(subs, s)
paste0(s, " - (", paste(others, collapse=" + "), ")/", length(others))
})
contrast_matrix <- makeContrasts(contrasts = contrast_string, levels = design)
fit2 <- eBayes(contrasts.fit(lmFit(expr, design), contrast_matrix))| 亚型 vs 其它 | 上调 | 下调 | 信号强度 |
|---|---|---|---|
| LMS | 1117 | 1175 | ★★★ |
| DDLPS | 866 | 572 | ★★★ |
| UPS | 623 | 1397 | ★★★ |
| MFS | 651 | 803 | ★★★ |
| MPNST | 726 | 87 | ★★☆ |
| SS | 2393 | 2459 | ★★★★ |
4.1 SS 的火山图(最显著)

4.2 LMS 的火山图

4.3 MPNST 的火山图

4.4 Top DEG 跨亚型聚类热图

第五步 · 通路富集:GO + Hallmark GSEA
拿到 DEG 列表后,必须看通路层面的解释。这里做两套:(1)每个亚型上调基因的 GO BP 超几何检验;(2)以全转录组 logFC 作为排序的 Hallmark GSEA。
5.1 SS 的 GO 富集(神经发育主导)

5.2 LMS 的 GO 富集(平滑肌主导)

5.3 MPNST 的 GO 富集(神经髓鞘主导)

5.4 SS 的 Hallmark GSEA

5.5 LMS 的 Hallmark GSEA

上篇小结 + 下篇预告
到这里上篇完成了从原始矩阵到通路解释的闭环:
① 271 例 SARC,6 个主要亚型,临床和年龄异质性巨大;
② 残留肿瘤 (R2) 和远处转移是最强独立预后因子,远超亚型本身;
③ 各亚型转录组指纹清晰:SS 神经向、LMS 肌向、MPNST Schwann 向;
④ Hallmark GSEA 给出每个亚型的核心激活/抑制通路。
下一篇接着写 LASSO-Cox 多基因预后模型 + 列线图、ConsensusClusterPlus 分子分型、ESTIMATE + ssGSEA 免疫浸润、WGCNA 共表达模块,以及 miRNA-mRNA 调控网络。