ag真人平台官方

机器学习与临床:基于蛋白质组学挖掘子宫内膜癌标志物

2025-01-28 03:21:47 166

一、背景介绍

          子宫内膜癌是常见妇科肿瘤之一,早期筛查对于提高生存率至关重要,然目前诊断方法尚不如人意,如经阴道超声、宫腔镜和子宫内膜活检等均为侵入性检测,对于患者颇为不便。因此开发非侵入性且简单经济的早期检测方法,是患者和医生的实际需求。血液和阴道冲洗液样本,易于获取且与肿瘤发生具有关联性,因此开展蛋白质组学研究,利用机器学习开展生物标志物挖掘,具有非常实用的转化医学价值。

 

二、材料方法

 

          研究队列均为绝经女性,其中53名为子宫内膜癌,65名女性正常,分别收集阴道冲洗液和血液样本,血液样本预处理去除高丰度蛋白,冲洗液样本离心浓缩后进行蛋白提取,组学分析采用液相色谱质谱平台,质谱数据采集模式为SWATH-MS。数据预处理包括了缺失值、归一化等,使用R语言进行了描述性统计分析、组间差异比较和多变量分析,采用随机森林进行特征选择,选择出贡献最大的蛋白作为候选标志物,同时使用Boruta算法进行稳健型评估,对于模型的诊断性能使用接收者操作特征曲线(ROC)和曲线下面积(AUC)来评估,并基于似然比检验(LRT)和Akaike信息准则(AIC)来系统评估,平衡性能和复杂度以确定最佳模型。

 

三、结果讨论

          蛋白质组学数据经过机器学习发现,阴道冲洗液样本数据挖掘出5种蛋白质作为标志物,分别为HPT, LG3BP, FGA, LY6D和IGHM,这些蛋白质在炎症、免疫和蛋白质调控等方面具重要作用,其组合在预测子宫内膜癌方面显示出较高的准确性,AUC值为0.95,敏感性为91%,特异性为86%,显示出与肿瘤发生发展密切相关;血液样本挖掘出3种蛋白质,分别为APOD, PSMA7和HPT,在预测方面的AUC值为0.87,敏感性为75%,特异性为84%,总体来看不如冲洗液样本准确,这可能是因为冲洗液在解剖上更接近肿瘤部位,能更直接地反映肿瘤信息。研究还发现检测早期(I期)和晚期(II-IV期)肿瘤的蛋白标志物,为不同阶段的子宫内膜癌检测提供了可能的选择,有助于实现早期诊断,提高患者预后。

 

四、研究结论

          研究利用蛋白质组学和机器学习技术,成功识别出用于检测子宫内膜癌的标志物,比如HPT、LG3BP、FGA、LY6D和IGHM组合,为肿瘤早筛、早诊提供新思路,也为临床检测方法开发奠定了基础。可以看到,机器学习的引入能够从复杂的数据中精确识别具有高区分力的标志物,证实了机器学习在复杂组学数据中捕捉细微线索的能力,比如通过随机森林模型准确识别对诊断有显著贡献的蛋白,从而构建准确模型,机器学习的应用,加速了从样本数据到临床知识的转化,通过深入分析和建模,有助于实现个体诊断治疗,提升医疗质量。

 

五、结果展开

          表一:展示研究队列的患者信息。队列共纳入118名绝经后出血女性,分为病例组和对照组,前者包含53名女性,被确诊患有子宫内膜癌,后者包含65名女性,检查后未发现子宫内膜癌证据,相关参数包括年龄、BMI、种族、子宫内膜厚度,可见确诊女性多项指标大于对照组。

 

图1. 展示冲洗液样本蛋白质组学分析结果。

 

A:火山图显示病例组与对照组蛋白差异表达情况。
B:主成分分析展示所鉴定出597种蛋白区分患者和对照的能力。
C:机器学习随机森林算法识别出重要蛋白质,并根据对诊断准确性排序。
D:主成分分析展示十个重要蛋白区分患者和对照的能力。
E:相关重要蛋白的功能通路分析。
F:基于五个蛋白标志物的诊断模型性能展示。

 

表二:显示通过随机森林算法挑选出的最具有区分能力的标志物,以及基于这些标志物构建的不同诊断模型组成和性能评估。分类器顺序根据随机森林模型中准确率排名,即选择标志物依据它们对诊断准确性的贡献大小,同时建模时考虑了年龄和BMI影响。其中AUC衡量模型区分能力,AIC比较模型优劣,SEN指检测出实际患者比例,SPE为正确识别对照比例,PPV为模型预测为患者中真正患病比例,NPV为被预测为正常中真正非患病比例,最终确定了包括HPT、LG3BP、FGA、LY6D和IGHM的精简模型对于检测子宫内膜癌有效。

注:假设疾病发生率为9%。

 

图2. 展示利用Boruta算法确认冲洗液样本蛋白质组学相关分析结果。

 

A:箱线图展示了Boruta算法确认的重要蛋白排列,这些蛋白质在区分疾病方面具有重要意义。
B:基于逐步前进式逻辑回归,对Boruta算法识别出的蛋白进行了AUC分析,可帮助理解蛋白在模型中贡献程度,并评估作为标志物的有效性。
C:对识别出的标志物进行GO分析,显示其生物过程(红色)、细胞定位(蓝色)和分子功能(绿色)。

 

图3. 展示血液样本蛋白质组学分析结果。

 

A:火山图显示病例组与对照组蛋白差异表达情况。
B:主成分分析展示所鉴定出533种蛋白区分患者和对照的能力。
C:机器学习随机森林算法识别出重要蛋白质,并根据对诊断准确性排序。
D:主成分分析展示十个重要蛋白区分患者和对照的能力。
E:相关重要蛋白的功能通路分析。
F:基于三个蛋白标志物的诊断模型性能展示。

 

参考文献
Njoku K, Pierce A, Chiasserini D, Geary B, Campbell AE, Kelsall J, Reed R, Geifman N, Whetton AD, Crosbie EJ. Detection of endometrial cancer in cervico-vaginal fluid and blood plasma: leveraging proteomics and machine learning for biomarker discovery. EBioMedicine. 2024 Apr;102:105064. doi: 10.1016/j.ebiom.2024.105064.

免费获取更多专业咨询
我已阅读并同意 《CTI华测检测隐私政策》 《会员注册协议》

*新号码将自动注册

立即咨询
相关资讯
热门服务 更多 >
  • 热线电话
  • 业务咨询
  • 快速询价
  • 在线客服
  • 报告验证