生信分析工作室
TCGA
软组织肉瘤
生存分析
limma
GO/GSEA

TCGA-SARC 软组织肉瘤多组学实战(上)

从 271 例临床数据到 6 大亚型差异通路,一份能直接交付的 R 流程

14 分钟阅读
TCGA-SARC 软组织肉瘤多组学实战(上)

软组织肉瘤(Soft Tissue Sarcoma, SARC)是一类异质性极强的间叶来源恶性肿瘤,组织学亚型多达数十种,临床表型、预后和治疗反应都差异巨大。TCGA-SARC 队列一次性整合了 271 例患者的临床随访 + 全转录组 + miRNA 表达数据,为我们研究亚型差异、预后因子和分子分型提供了一份完美的练手数据。本文是这套数据完整分析的上篇,把前 5 步走完:数据整合与样本筛选、临床描述、生存分析、亚型差异基因、GO/Hallmark 富集。下一篇会接着写:LASSO-Cox 预后模型、共识聚类、免疫浸润、WGCNA 模块、miRNA-mRNA 网络。

第一步 · 数据整合:4 个文件,1 个统一队列

UCSC Xena 上的 TCGA-SARC 数据包含 4 个核心文件:临床矩阵(106 个变量)、生存数据(OS / DSS / DFI / PFI)、mRNA 表达谱(log2 RSEM, 20 530 基因)、miRNA HiSeq(2 093 features)。我们先把它们按 sampleID 全部对齐,只保留 肿瘤样本(barcode 末尾 -01),并过滤掉低表达和缺失太多的特征。

R · 01_data_preprocessing.R
# Tumor-only filter (TCGA -01 barcode)
mrna  <- mrna [, grepl("-01[A-Z]?$", colnames(mrna))]
mirna <- mirna[, grepl("-01[A-Z]?$", colnames(mirna))]

# 简化组织学亚型:8 大类 -> 6 大类(Desmoid/Other 太小后续剔除)
simplify_subtype <- function(x) { ... LMS, DDLPS, UPS, MFS, MPNST, SS, ... }

# 与生存数据合并
meta <- merge(clin_sub, surv, by = "sampleID")

第二步 · 临床描述:先把队列特征讲清楚

在任何统计建模之前,先把临床特征摸清楚是必修课。我们看 4 件事:亚型占比、年龄分布、性别构成、死亡事件率。

2.1 亚型分布

TCGA-SARC 6 个主要组织学亚型的样本数
Figure 1. TCGA-SARC 6 个主要组织学亚型的样本数。LMS 占比最大(112 例,>40%),DDLPS 与 UPS 紧随其后,MPNST 与 SS 是相对罕见的少数派。

2.2 年龄分布按亚型

各亚型患者年龄密度曲线
Figure 2. 各亚型患者年龄密度曲线。SS 显著年轻(中位 ~30 岁),UPS 最年长(中位 ~68 岁),符合临床流行病学常识。

2.3 综合 dashboard

TCGA-SARC 临床特征综合 dashboard
Figure 3. TCGA-SARC 临床特征综合 dashboard:亚型分布 + 性别构成 + 年龄密度 + 死亡事件率四联图。

第三步 · 生存分析:KM 曲线 + 单/多变量 Cox

生存分析是 TCGA 数据最经典的分析层。先按亚型和年龄做 Kaplan-Meier 曲线,再做单变量和多变量 Cox 回归,把临床预后因子一网打尽。

3.1 按组织学亚型的 KM 曲线(OS)

6 个亚型的 OS Kaplan-Meier 曲线
Figure 4. 6 个亚型的 OS Kaplan-Meier 曲线。曲线之间整体分离不算极端,但 MPNST 与 DDLPS 显示出较差的预后趋势。

3.2 按年龄分组的 KM 曲线

按年龄分 3 组的 OS 曲线
Figure 5. 按年龄分 3 组(≤50 / 51-65 / >65)的 OS 曲线。年龄越大预后越差,趋势十分清晰。

3.3 PFI(无进展间期)按亚型

各亚型的 PFI 曲线
Figure 6. 各亚型的 PFI 曲线。DDLPS 与 MPNST 进展最快,与 OS 上的预后排序一致。

3.4 单变量 Cox 森林图

单变量 Cox 森林图
Figure 7. 单变量 Cox 森林图。残留肿瘤(residual_tumor)和远处转移(metastatic_diagnosis)是 SARC 预后最强的临床因子。

3.5 多变量 Cox 森林图

多变量 Cox 森林图
Figure 8. 多变量 Cox 森林图。即使校正年龄、性别、亚型后,残留肿瘤 / 远处转移仍稳健显著。

第四步 · 亚型差异基因:每个亚型 vs 其它

使用 limma 的 cell-means 设计(~0 + subtype),逐一比较 每个亚型 vs 其它亚型均值。阈值取 |log2FC|>1 且 adj.P<0.05。

R · 04_differential_expression.R
design <- model.matrix(~0 + subtype, data = meta)
contrast_string <- sapply(subs, function(s) {
  others <- setdiff(subs, s)
  paste0(s, " - (", paste(others, collapse=" + "), ")/", length(others))
})
contrast_matrix <- makeContrasts(contrasts = contrast_string, levels = design)
fit2 <- eBayes(contrasts.fit(lmFit(expr, design), contrast_matrix))
亚型 vs 其它上调下调信号强度
LMS11171175★★★
DDLPS866572★★★
UPS6231397★★★
MFS651803★★★
MPNST72687★★☆
SS23932459★★★★

4.1 SS 的火山图(最显著)

Volcano — Synovial Sarcoma vs 其它亚型
Figure 9. Volcano — Synovial Sarcoma vs 其它亚型。Up = 红,Down = 蓝。SS 大量神经分化、肌肉发育相关基因显著差异。

4.2 LMS 的火山图

Volcano — Leiomyosarcoma vs 其它
Figure 10. Volcano — Leiomyosarcoma vs 其它。平滑肌标志物(MYH11/ACTA2 等)在 LMS 显著上调。

4.3 MPNST 的火山图

Volcano — MPNST vs 其它
Figure 11. Volcano — MPNST vs 其它。神经源性 / Schwann 细胞标志物(S100, SOX10 等)在 MPNST 上调。

4.4 Top DEG 跨亚型聚类热图

每个亚型 top 15 上/下调基因合并后做 z-score 热图
Figure 12. 每个亚型 top 15 上/下调基因合并后做 z-score 热图。可以清晰看到 6 个亚型形成各自的转录组『指纹』。

第五步 · 通路富集:GO + Hallmark GSEA

拿到 DEG 列表后,必须看通路层面的解释。这里做两套:(1)每个亚型上调基因的 GO BP 超几何检验;(2)以全转录组 logFC 作为排序的 Hallmark GSEA。

5.1 SS 的 GO 富集(神经发育主导)

GO-BP enrichment for SS up-regulated genes
Figure 13. GO-BP enrichment for SS up-regulated genes. Top terms 集中在神经系统发育与突触相关通路。

5.2 LMS 的 GO 富集(平滑肌主导)

GO-BP for LMS up-regulated genes
Figure 14. GO-BP for LMS up-regulated genes. 肌肉收缩、肌动蛋白细胞骨架占据 top 通路。

5.3 MPNST 的 GO 富集(神经髓鞘主导)

GO-BP for MPNST up-regulated genes
Figure 15. GO-BP for MPNST up-regulated genes. 髓鞘形成、Schwann 细胞分化通路显著富集。

5.4 SS 的 Hallmark GSEA

Hallmark GSEA — SS vs others
Figure 16. Hallmark GSEA — SS vs others. Red bars = positively enriched, blue = negatively. EMT、MYC_TARGETS 等通路在 SS 反向变化。

5.5 LMS 的 Hallmark GSEA

Hallmark GSEA — LMS vs others
Figure 17. Hallmark GSEA — LMS vs others. Myogenesis 通路在 LMS 显著激活(NES > 2)。

上篇小结 + 下篇预告

到这里上篇完成了从原始矩阵到通路解释的闭环:

① 271 例 SARC,6 个主要亚型,临床和年龄异质性巨大;

② 残留肿瘤 (R2) 和远处转移是最强独立预后因子,远超亚型本身;

③ 各亚型转录组指纹清晰:SS 神经向、LMS 肌向、MPNST Schwann 向;

④ Hallmark GSEA 给出每个亚型的核心激活/抑制通路。

下一篇接着写 LASSO-Cox 多基因预后模型 + 列线图、ConsensusClusterPlus 分子分型、ESTIMATE + ssGSEA 免疫浸润、WGCNA 共表达模块,以及 miRNA-mRNA 调控网络。

本文相关服务

生存分析 / 数据库挖掘

想把类似的分析跑在你自己的数据上?可以直接看服务详情或发起咨询。

更多案例