ag真人平台官方

机器学习与临床:基于肠道菌群研究识别转移性胰腺癌

2025-01-28 03:31:43 142

一、背景介绍

          胰腺癌常在晚期才被诊断出来,往往伴随转移,这类困境主要与早期诊断困难有关,胰腺癌早期症状不典型,缺乏特异标志物,80%患者在确诊时已是晚期或发生转移,导致5年生存率非常不乐观。近年来,研究发现肠道微生物可能影响肿瘤转移,本研究利用肠道菌群基因测序,结合机器学习,对转移性和非转移性胰腺癌样本进行分析,旨在识别能够区分这两种状态的细菌群体,期望以肠道微生物变化监控胰腺癌转移风险。

 

二、材料方法

 

         研究队列包含53名胰腺癌患者,其中25名为非转移性,28名为转移性,患者提供粪便样本,提取DNA进行16S 测序,对16S rRNA基因的V3-V4区域扩增后,在Illumina MiSeq平台测序,测序数据以16S Metagenomics GAIA分析,BWA-MEM进行数据库比对,进行细菌分类、功能、通路等分析,此外针对部分样本进行代谢组分析。研究使用了PELORA和随机森林机器学习方法,PELORA是一种用于识别不同丰度细菌群落的算法,旨在通过线性组合细菌的相对丰度来区分转移性和非转移性胰腺癌患者;随机森林用于检测稳定和高阶相互作用,通过训练特征加权的决策树来识别重要的细菌及其相互作用。使用袋外数据计算随机森林的判别能力,通过ROC曲线下面积(AUC)及其95%置信区间来评估模型的预测性能。

 

三、结果讨论

         研究发现转移性胰腺癌患者肠道中革兰氏阴性细菌增加,这些细菌包括柔膜菌、厌氧等孢菌、铜绿假单胞菌、副流感嗜血杆菌、副拟杆菌属的SN4菌等,它们可能通过LPS-TLR4-VEGF通路促进血管生成及肿瘤转移。这些细菌在转移性和非转移性胰腺癌之间表现出显著差异,基于PELORA和iRF算法,发现卟啉单胞菌和梭杆菌在预测转移风险方面具有重要作用,前者丰度增加与转移风险降低相关,后者丰度增加与转移风险增加相关。机器学习模型在预测转移风险方面表现良好,ROC曲线下面积(AUC)为0.8,显示出较高的预测准确性和稳定性,揭示了肠道菌群在胰腺癌转移中的作用,为临床诊疗提供了新思路。

 

四、研究结论

         研究基于16S测序和机器学习,揭示了转移性和非转移性胰腺癌患者肠道菌群的差异,发现转移性胰腺癌患者肠道中革兰氏阴性细菌,如柔膜菌、厌氧等孢菌和袋熊杆菌显著增加。机器学习算法,特别是PELORA和iRF,成功识别了与癌症转移风险相关的细菌标志物,如卟啉单胞菌和梭杆菌。这些发现展示了机器学习的强大潜力,为开发新的诊疗策略提供了科学依据,为预测胰腺癌转移风险提供支持。

 

五、结果展开

图1. 展示非转移胰腺癌样本与转移性样本之间肠道菌群分类差异。

 

A:非转移胰腺癌样本与转移性样本之间肠道菌群分类在门水平的差异。
B:非转移胰腺癌样本与转移性样本之间肠道菌群分类在科水平的差异。
C:非转移胰腺癌样本与转移性样本之间肠道菌群分类在属水平的差异。
D:非转移胰腺癌样本与转移性样本之间肠道菌群分类在种水平的差异。

 

图2. 展示了通过PELORA(惩罚逻辑回归分析)在不同分类学层次上计算的Z分数的箱线图。

 

A:展示了门水平中每个由PELORA检测到的簇(即簇中心)内的Z分数分布情况。
B:展示了科水平中每个由PELORA检测到的簇内的Z分数分布情况。
C:展示了属水平中每个由PELORA检测到的簇内的Z分数分布情况。
D:展示了种水平中每个由PELORA检测到的簇内的Z分数分布情况,在种水平上检测到了两个不同的细菌群落簇(左),散点图(右)描绘了在这两个簇中心计算的Z分数对,点代表Z分数对,蓝色和红色代表无转移和有转移。

 

图3. 展示了通过惩罚逻辑回归分析(PELORA)在每个簇中识别出的细菌种群的相对丰度热图。

 

A:展示了门水平中每个由PELORA检测到的簇中识别出的细菌种群的相对丰度热图。
B:展示了科水平中每个由PELORA检测到的簇中识别出的细菌种群的相对丰度热图。
C:展示了属水平中每个由PELORA检测到的簇中识别出的细菌种群的相对丰度热图。
D:展示了种水平中每个由PELORA检测到的簇中识别出的细菌种群的相对丰度热图。

 

图4. 展示了通过迭代随机森林(iRF)分析在科水平检测到的重要细菌。

 

A:展示了变量重要性图,该图根据相对于最大值的重要性进行排序。
B:展示了受试者工作特征曲线(ROC),该曲线展示了iRF基于袋外数据计算出的预测概率在每个可能阈值下的灵敏度和特异性,曲线下面积(AUC)由95%置信区间确认,用以量化iRF的判别能力。
C:展示了所有被iRF检测到且VIMP>10%的变量的相对丰度(%)箱线图。
D:展示了所有被iRF检测到且VIMP>10%的变量的累积局部效应(ALE)。ALE描述了变量对预测概率的平均影响。灰色带表示拟合于估计的ALE点的回归线的置信带。
E:展示了最稳定的二阶相互作用网络图(稳定性得分≥0.5, 0=完全不稳定的相互作用,1=完全稳定),稳定性得分越高,相互作用质量越好。
F:展示了针对具有顶级稳定相互作用(即稳定性得分>0.70)的变量制作的部分依赖图(PDP)。PDP展示了两个变量对预测结果的边际(总体)效应。定位了转移事件更可能发生(绿色/黄色)和不太可能发生(蓝色/紫色)的区域。

 

图5. 展示了通过迭代随机森林(iRF)分析在属水平检测到的重要细菌。

 

A:展示了变量重要性图,该图根据相对于最大值的重要性进行排序。
B:展示了受试者工作特征曲线(ROC),该曲线展示了iRF基于袋外数据计算出的预测概率在每个可能阈值下的灵敏度和特异性,曲线下面积(AUC)由95%置信区间确认,用以量化iRF的判别能力。
C:展示了所有被iRF检测到且VIMP>10%的变量的相对丰度(%)箱线图。
D:展示了所有被iRF检测到且VIMP>10%的变量的累积局部效应(ALE)。ALE描述了变量对预测概率的平均影响。灰色带表示拟合于估计的ALE点的回归线的置信带。
E:展示了最稳定的二阶相互作用网络图(稳定性得分≥0.5, 0=完全不稳定的相互作用,1=完全稳定),稳定性得分越高,相互作用质量越好。
F:展示了针对具有顶级稳定相互作用(即稳定性得分>0.70)的变量制作的部分依赖图(PDP)。PDP展示了两个变量对预测结果的边际(总体)效应。定位了转移事件更可能发生(绿色/黄色)和不太可能发生(蓝色/紫色)的区域。

 

图6. 展示了通过迭代随机森林(iRF)分析在种水平检测到的重要细菌。

 

A:展示了变量重要性图,该图根据相对于最大值的重要性进行排序。
B:展示了受试者工作特征曲线(ROC),该曲线展示了iRF基于袋外数据计算出的预测概率在每个可能阈值下的灵敏度和特异性,曲线下面积(AUC)由95%置信区间确认,用以量化iRF的判别能力。
C:展示了所有被iRF检测到且VIMP>10%的变量的相对丰度(%)箱线图。
D:展示了所有被iRF检测到且VIMP>10%的变量的累积局部效应(ALE)。ALE描述了变量对预测概率的平均影响。灰色带表示拟合于估计的ALE点的回归线的置信带。
E:展示了最稳定的二阶相互作用网络图(稳定性得分≥0.5,0=完全不稳定的相互作用,1=完全稳定),稳定性得分越高,相互作用质量越好。
F:展示了针对具有顶级稳定相互作用(即稳定性得分>0.70)的变量制作的部分依赖图(PDP)。PDP展示了两个变量对预测结果的边际(总体)效应。定位了转移事件更可能发生(绿色/黄色)和不太可能发生(蓝色/紫色)的区域。

 

图7. 展示了对于PC(非转移性胰腺癌)和PC met(转移性胰腺癌)患者的肠道菌群的功能差异。

 

A:展示了在KEGG通路1级水平上,PC与PC met患者之间显著不同的通路。这些通路通过Mann-Whitney检验的p值<0.05来确定其统计显著性。
B:展示了在KEGG通路2级水平上,PC与PC met患者之间显著不同的通路。同样通过p值<0.05来判断统计学差异。

 

图8. 展示了非转移性胰腺癌(PC)和转移性胰腺癌(PC met)患者的粪便代谢组区别。

 

A:展示了极性代谢物的热图,通过t检验显示在PC(蓝色)和PC met(红色)患者之间存在显著差异(p<0.05)。颜色从蓝色到粉色的渐变代表了每种化合物的丰度变化。例如,在非转移性PC患者中发现了增加的4-吡哆酸、N-乙酰组氨酸、酪氨酸、胞嘧啶和黄嘌呤,而谷氨酸则在PC met患者中富集。
B:展示了正离子模式下获得的脂质代谢物的热图,同样地,这些代谢物在PC和PC met患者之间存在显著差异。热图的颜色渐变也表示了不同化合物的相对丰度,如二酰甘油(DG)和N-酰基甘氨酸(NAGly)在两组之间的分布差异。
C:展示了负离子模式下获得的脂质代谢物的热图,该热图进一步揭示了两组患者之间氧化脂肪酸类物质的显著差异,提供了肠道脂质组成的明显区分。

 

图9. 展示了肠道菌群与粪便代谢组之间的关联分析。

 

A:展示了显著不同的极性代谢物与差异菌群之间的Spearman等级相关性。颜色从蓝色(负相关)到粉色(正相关)的渐变代表了R相关系数的值。例如,4-吡哆酸与Clostridiaceae呈显著负相关,而与Bifidobacterium breve则为显著正相关。
B:展示了显著不同的脂类物质与差异菌群之间的Spearman等级相关性。同样地,颜色渐变从蓝色(负相关)到粉色(正相关)表示R相关系数的值。

 

参考文献
Villani A, Fontana A, Panebianco C, Ferro C, Copetti M, Pavlovic R, Drago D, Fiorentini C, Terracciano F, Bazzocchi F, Canistro G, Pisati F, Maiello E, Latiano TP, Perri F, Pazienza V. A powerful machine learning approach to identify interactions of differentially abundant gut microbial subsets in patients with metastatic and non-metastatic pancreatic cancer. Gut Microbes. 2024 Jan-Dec;16(1):2375483. doi: 10.1080/19490976.2024.2375483.

免费获取更多专业咨询
我已阅读并同意 《CTI华测检测隐私政策》 《会员注册协议》

*新号码将自动注册

立即咨询
相关资讯
热门服务 更多 >
  • 热线电话
  • 业务咨询
  • 快速询价
  • 在线客服
  • 报告验证