上一篇我们把数据带到了通路层面:CRC vs 正常的差异基因高度聚焦在细胞周期 / Wnt / IL-17 轴,分子分型给出三个稳定亚型,Stage 是预后的主要解释因子。这一篇会把分析推到四个更高阶的方向:(1)免疫微环境量化(ESTIMATE + ssGSEA);(2)WGCNA 共表达网络;(3)LASSO-Cox 多基因预后模型 + 列线图;(4)临床×分子综合 landscape。
第六步 · 免疫微环境:ESTIMATE + ssGSEA 28-cell 双视角
先用 ESTIMATE 量化每例肿瘤的 stromal / immune / tumor purity 总分,再用 ssGSEA 在 28 套免疫细胞 / 通路签名上给每例样本打分,最后把所有信号按第四步的 consensus cluster 切开看。
6.1 ESTIMATE 三大评分在三个 cluster 间高度差异

Figure 14 · ESTIMATE 四联图(Stromal / Immune / ESTIMATE / Tumor purity)按 consensus cluster 分箱,两两 Wilcoxon。三个 cluster 之间在免疫景观上呈现统计学高度显著的分层。
6.2 ssGSEA 28-cell 免疫景观全图

Figure 15 · 288 例样本 × 28 个免疫签名 z-score 热图。顶部条带:cluster / MSI / stage / 免疫总分。右侧的 chemokine / cytotoxicity / IFN response / antigen presentation 在 C3 中系统性升高。
6.3 免疫检查点基因表达 —— 直接关系到能不能用 PD-1 / CTLA-4

Figure 16 · 6 个核心免疫检查点(PDCD1 / CD274 / CTLA4 / LAG3 / HAVCR2 / TIGIT)的表达在三个 cluster 间的对比。C3 高表达组明显占优。
第七步 · WGCNA:共表达网络 + Hub 基因
在 top-5000 MAD 基因上做 signed WGCNA。先扫软阈值保证无标度拓扑,再 blockwiseModules 切模块,最后把模块的 eigengene 与 8 个临床 / 分子性状做相关。
7.1 软阈值扫描

Figure 17 · 左:scale-free R² 随软阈值的变化(虚线为 0.85 阈值);右:mean connectivity 随软阈值衰减。算法自动选择了使 R² ≥ 0.85 的最小幂作为最终软阈值。
7.2 模块 × 性状相关热图 —— 看哪些模块和分期 / 生存绑定

Figure 18 · 模块 - 性状相关。turquoise 模块(2,078 个基因)与 stage、OS 时间均强相关,是 COAD 的『stage / 预后驱动模块』。

Figure 19 · 各模块与 stage 和 OS 的相关性条形图,方便快速排序。
第八步 · LASSO-Cox 预后模型:10 基因签名 + 列线图
候选基因池:第二步的 4,631 个 DEG → 单变量 Cox p<0.01 筛到 124 个 → 70/30 切训练-测试 → LASSO-Cox 10-fold CV。当 lambda.min 过严时自动回退到路径上保证 ≥ 8 个非零系数的 lambda,最终得到 10 基因签名:CPT2 · RP9P · SULT1B1 · TIGD1 · PPARGC1A · ITLN1 · FZD3 · C5orf46 · APC2 · WNT16。其中 APC2、WNT16、FZD3 是 Wnt/β-catenin 通路成员,PPARGC1A / CPT2 是代谢调控因子,与肿瘤代谢重编程对应。
8.1 LASSO 交叉验证与系数路径

Figure 20 · 10-fold CV partial likelihood deviance 随 log(λ) 变化;左侧虚线为 λ_min,右侧为 λ_1se。

Figure 21 · LASSO 系数路径。随着 λ 增大基因被依次剔除,最终保留 10 个非零特征。
8.2 风险评分 KM:训练 / 测试 / 全集三联

Figure 22 · 训练集 KM。High vs Low risk 高度显著分离。

Figure 23 · 测试集 KM。模型在未见过的样本上保持显著分离 —— 表明并非过拟合。

Figure 24 · 全集 KM。log-rank p = 8×10⁻⁶,连续型 Cox HR = 19.3, p = 7×10⁻¹⁰,是一个非常强的风险评分。
8.3 时间依赖 ROC:1 年 / 3 年 / 5 年

Figure 25 · time-dependent ROC,左 = 全集,右 = 测试集。1y / 3y / 5y AUC 均显著高于 0.5 对角线。
8.4 风险评分曲线 + 状态散点 + 签名热图

Figure 26 · 上:样本按风险评分排序后的 risk score 曲线;下:每例样本的 OS 时间与生存状态散点。可看到高风险端死亡密度显著升高。

Figure 27 · 10-基因签名 z-score 热图,列序与风险评分同步。
8.5 多变量 Cox 森林 + 列线图 + 校准

Figure 28 · 多变量 Cox 森林:age (p=0.018)、stage (p=4×10⁻⁵)、risk (p=7×10⁻⁵) 三项独立显著。

Figure 29 · 列线图。把 age / gender / stage / risk 转换成总分,可读出 1 / 3 / 5 年 OS 概率。可直接用于临床场景演示。

Figure 30 · 3 年 OS 校准曲线(bootstrap=300)。实际 vs 预测沿对角线分布,模型校准度良好。