生信分析工作室
TCGA-COAD
免疫浸润
WGCNA
LASSO-Cox
列线图

TCGA-COAD 结肠癌转录组实战(下)

免疫微环境、WGCNA 共表达、LASSO-Cox 预后模型、临床联动

15 分钟阅读
TCGA-COAD 结肠癌转录组实战(下)

上一篇我们把数据带到了通路层面:CRC vs 正常的差异基因高度聚焦在细胞周期 / Wnt / IL-17 轴,分子分型给出三个稳定亚型,Stage 是预后的主要解释因子。这一篇会把分析推到四个更高阶的方向:(1)免疫微环境量化(ESTIMATE + ssGSEA);(2)WGCNA 共表达网络;(3)LASSO-Cox 多基因预后模型 + 列线图;(4)临床×分子综合 landscape。

第六步 · 免疫微环境:ESTIMATE + ssGSEA 28-cell 双视角

先用 ESTIMATE 量化每例肿瘤的 stromal / immune / tumor purity 总分,再用 ssGSEA 在 28 套免疫细胞 / 通路签名上给每例样本打分,最后把所有信号按第四步的 consensus cluster 切开看。

6.1 ESTIMATE 三大评分在三个 cluster 间高度差异

figure /cases/tcga-coad-immune-wgcna/fig01.png

Figure 14 · ESTIMATE 四联图(Stromal / Immune / ESTIMATE / Tumor purity)按 consensus cluster 分箱,两两 Wilcoxon。三个 cluster 之间在免疫景观上呈现统计学高度显著的分层。

6.2 ssGSEA 28-cell 免疫景观全图

figure /cases/tcga-coad-immune-wgcna/fig02.png

Figure 15 · 288 例样本 × 28 个免疫签名 z-score 热图。顶部条带:cluster / MSI / stage / 免疫总分。右侧的 chemokine / cytotoxicity / IFN response / antigen presentation 在 C3 中系统性升高。

6.3 免疫检查点基因表达 —— 直接关系到能不能用 PD-1 / CTLA-4

figure /cases/tcga-coad-immune-wgcna/fig03.png

Figure 16 · 6 个核心免疫检查点(PDCD1 / CD274 / CTLA4 / LAG3 / HAVCR2 / TIGIT)的表达在三个 cluster 间的对比。C3 高表达组明显占优。

第七步 · WGCNA:共表达网络 + Hub 基因

在 top-5000 MAD 基因上做 signed WGCNA。先扫软阈值保证无标度拓扑,再 blockwiseModules 切模块,最后把模块的 eigengene 与 8 个临床 / 分子性状做相关。

7.1 软阈值扫描

figure /cases/tcga-coad-immune-wgcna/fig04.png

Figure 17 · 左:scale-free R² 随软阈值的变化(虚线为 0.85 阈值);右:mean connectivity 随软阈值衰减。算法自动选择了使 R² ≥ 0.85 的最小幂作为最终软阈值。

7.2 模块 × 性状相关热图 —— 看哪些模块和分期 / 生存绑定

figure /cases/tcga-coad-immune-wgcna/fig05.png

Figure 18 · 模块 - 性状相关。turquoise 模块(2,078 个基因)与 stage、OS 时间均强相关,是 COAD 的『stage / 预后驱动模块』。

figure /cases/tcga-coad-immune-wgcna/fig06.png

Figure 19 · 各模块与 stage 和 OS 的相关性条形图,方便快速排序。

第八步 · LASSO-Cox 预后模型:10 基因签名 + 列线图

候选基因池:第二步的 4,631 个 DEG → 单变量 Cox p<0.01 筛到 124 个 → 70/30 切训练-测试 → LASSO-Cox 10-fold CV。当 lambda.min 过严时自动回退到路径上保证 ≥ 8 个非零系数的 lambda,最终得到 10 基因签名:CPT2 · RP9P · SULT1B1 · TIGD1 · PPARGC1A · ITLN1 · FZD3 · C5orf46 · APC2 · WNT16。其中 APC2、WNT16、FZD3 是 Wnt/β-catenin 通路成员,PPARGC1A / CPT2 是代谢调控因子,与肿瘤代谢重编程对应。

8.1 LASSO 交叉验证与系数路径

figure /cases/tcga-coad-immune-wgcna/fig07.png

Figure 20 · 10-fold CV partial likelihood deviance 随 log(λ) 变化;左侧虚线为 λ_min,右侧为 λ_1se。

figure /cases/tcga-coad-immune-wgcna/fig08.png

Figure 21 · LASSO 系数路径。随着 λ 增大基因被依次剔除,最终保留 10 个非零特征。

8.2 风险评分 KM:训练 / 测试 / 全集三联

figure /cases/tcga-coad-immune-wgcna/fig09.png

Figure 22 · 训练集 KM。High vs Low risk 高度显著分离。

figure /cases/tcga-coad-immune-wgcna/fig10.png

Figure 23 · 测试集 KM。模型在未见过的样本上保持显著分离 —— 表明并非过拟合。

figure /cases/tcga-coad-immune-wgcna/fig11.png

Figure 24 · 全集 KM。log-rank p = 8×10⁻⁶,连续型 Cox HR = 19.3, p = 7×10⁻¹⁰,是一个非常强的风险评分。

8.3 时间依赖 ROC:1 年 / 3 年 / 5 年

figure /cases/tcga-coad-immune-wgcna/fig12.png

Figure 25 · time-dependent ROC,左 = 全集,右 = 测试集。1y / 3y / 5y AUC 均显著高于 0.5 对角线。

8.4 风险评分曲线 + 状态散点 + 签名热图

figure /cases/tcga-coad-immune-wgcna/fig13.png

Figure 26 · 上:样本按风险评分排序后的 risk score 曲线;下:每例样本的 OS 时间与生存状态散点。可看到高风险端死亡密度显著升高。

figure /cases/tcga-coad-immune-wgcna/fig14.png

Figure 27 · 10-基因签名 z-score 热图,列序与风险评分同步。

8.5 多变量 Cox 森林 + 列线图 + 校准

figure /cases/tcga-coad-immune-wgcna/fig15.png

Figure 28 · 多变量 Cox 森林:age (p=0.018)、stage (p=4×10⁻⁵)、risk (p=7×10⁻⁵) 三项独立显著。

figure /cases/tcga-coad-immune-wgcna/fig16.png

Figure 29 · 列线图。把 age / gender / stage / risk 转换成总分,可读出 1 / 3 / 5 年 OS 概率。可直接用于临床场景演示。

figure /cases/tcga-coad-immune-wgcna/fig17.png

Figure 30 · 3 年 OS 校准曲线(bootstrap=300)。实际 vs 预测沿对角线分布,模型校准度良好。

本文相关服务

生存分析 / 数据库挖掘

想把类似的分析跑在你自己的数据上?可以直接看服务详情或发起咨询。

更多案例