结肠腺癌(COAD, Colon Adenocarcinoma)是全球第三高发的恶性肿瘤,TCGA 释放的 RNA-seq + 临床 + 生存三联数据集,是入门和长期研究都极具性价比的资源。这一篇我们用 288 例肿瘤 + 41 例配对正常组织(UCSC Xena 重处理 HiSeqV2 矩阵)走完最经典的 5 步公共数据挖掘:数据清洗、差异表达、生存分析、无监督分型、通路富集。下一篇接着写免疫微环境、WGCNA 网络、LASSO 预后模型、临床联动综合解读。
第一步 · 数据准备:把三张表读成一个可分析的对象
我们直接用 data.table::fread 读 UCSC Xena 的三张文件 —— 表达谱、临床矩阵、生存表 —— 然后用 TCGA barcode 第 14-15 位的样本类型码(01-09 = 肿瘤,10-19 = 正常)把样本分成 tumor / normal 两组,再以 sampleID 把临床和生存信息 left-join 到肿瘤样本上,最后存成 .rds 供下游所有脚本复用。

Figure 1 · 队列样本组成。288 例肿瘤 (-01) + 41 例配对正常组织 (-11)。
第二步 · 差异表达:limma 一次拿到 4,631 个 DEG
表达数据已是 log2(RSEM+1),可直接用 limma 的 lmFit + eBayes 走线性模型;阈值取 |log2FC|>1 且 FDR<0.05。最终拿到 1,564 个上调 + 3,067 个下调,共 4,631 个显著基因,差异规模与文献报道的 TCGA-COAD 数量级吻合。

Figure 2 · 火山图。粉色为上调、蓝色为下调;右上角标出了 logFC 与显著性综合最强的 20 个基因。CDH3、KRT80、ETV4、ESM1 等癌基因显著高表达。

Figure 3 · 前 50 个 DEG 的 z-score 热图。肿瘤 / 正常两块完美分块,DEG 的判别力极强。
第三步 · 生存分析:Stage 显著、年龄边缘、基因强信号
Kaplan-Meier 用 survminer 的 ggsurvplot,配合 log-rank 检验;同时把每个临床变量塞进单变量 Cox,得到一张可读的森林图。
3.1 KM by Stage —— 教科书级的分期分层

Figure 4 · OS by pathologic stage (I-IV)。log-rank p ≈ 4×10⁻⁷,I、II 期长期生存 > 80%,IV 期中位生存 < 30 个月。
3.2 临床变量单变量 Cox 森林图

Figure 5 · Univariate Cox forest。Stage 显著(p=8e-7),Age 边缘,Gender 和(被强烈下采样的)CIMP 不显著。
3.3 单基因 KM —— 强预后基因一眼可见

Figure 6 · 由全基因 Cox 排序后的 Top 4 显著基因,按 median 表达分组。蓝 = Low,粉 = High。
第四步 · 无监督分型:PCA / t-SNE / UMAP 与一致性聚类
在 288 例肿瘤上取 top-2000 MAD 基因,先用 PCA / t-SNE / UMAP 看肉眼结构,再用 ConsensusClusterPlus 跑 k=2~6 的稳定性扫描。综合 CDF / delta-area / heatmap,最终选 k=3 作为分子亚型。
4.1 PCA 染色 Stage —— 早晚期沿 PC1 渐变

Figure 7 · PCA on top-2000 MAD genes, 染色为分期。PC1 与 Stage 弱相关,暗示一部分表达变异确实由疾病进展驱动。
4.2 t-SNE / UMAP 非线性视图

Figure 8 · t-SNE。比 PCA 更聚团,但 Stage 依然没有强分组结构 —— 这暗示表达层面的主要变异并不完全等同于分期。
4.3 一致性聚类 k=3 给出 3 个稳定亚型

Figure 9 · PCA 上颜色重映射成 k=3 的 consensus cluster。三团在 PC1-PC2 平面上结构分离,C1 (n=97) / C2 (n=72) / C3 (n=119)。

Figure 10 · Top-80 MAD genes 热图,列按 cluster 切分,注释了 stage / MSI。三个 cluster 在表达模式上呈现明显差异。
第五步 · 功能富集:GO + KEGG + GSEA Hallmark 三联
基因 SYMBOL 经 org.Hs.eg.db 映射到 ENTREZ 后,分别对上 / 下调 DEG 做 GO-BP / KEGG 富集,再把 logFC 排序后跑 MSigDB Hallmark GSEA。三条线相互印证,避免把单一显著结果当成全部。
5.1 GO-BP 上调通路:细胞周期 / 染色体分离的强信号

Figure 11 · 肿瘤上调 GO-BP top 15。nuclear division、chromosome segregation、cell cycle 几乎独占榜单 —— 与肿瘤增殖表型完全一致。
5.2 KEGG 上调通路:Cell cycle / Wnt / IL-17

Figure 12 · KEGG 上调。Cell cycle、Wnt signalling、Cytokine-cytokine receptor interaction、IL-17、DNA replication 排前列。
5.3 GSEA Hallmark 全谱视角

Figure 13 · MSigDB Hallmark GSEA top 20。右侧(粉)为肿瘤上调,左侧(蓝)为下调。E2F_TARGETS NES=3.20 (p.adj=9×10⁻³⁷),强到几乎离群。
上篇小结 · 下篇预告
把第 1-5 步串起来看:TCGA-COAD 在表达层面呈现出一个非常清晰的画面 —— 癌vs 正常之间存在数千个差异基因,并且高度聚焦在细胞周期 / Wnt / IL-17 三条轴;分子分型给出三个稳定亚型;Stage 在生存上贡献了主要的可解释方差。这套结果已经具备投稿一篇『TCGA-COAD 转录组特征解析』短文的全部素材。
下一篇会继续把分析推到 免疫微环境(ESTIMATE + ssGSEA 28-cell)、WGCNA 共表达网络与 hub 基因、LASSO-Cox 10-基因预后模型 + Nomogram + 时间 ROC、以及 临床×分子综合 landscape。预告:风险评分的 Cox HR = 19.3, p < 1e-9 ——非常强。
—— 想要同款流程? ——