ag真人平台官方

长寿与多组学:蛋白质组学衰老时钟预测衰老相关疾病风险

2024-12-30 12:31:49 699

一、背景介绍

临床上一些疾病发病率与衰老相关,比如说心血管疾病在60之后会跃升至75%,这些慢性疾病随年龄发展,会导致生理功能逐渐丧失乃至死亡。生物年龄(biological age)是一个重要的疾病风险预测指标,比实际年龄更能精确反映机体功能状态。本研究开发了一种基于血浆蛋白质组的生物年龄时钟(proteomic age clock),以预测多种与年龄相关的疾病和死亡风险。研究使用了英国人群数据,涉及45,441名参与者,并以中国和芬兰人群数据进行验证,因此对于中国老年群体的疾病预测具有借鉴意义。

 

二、材料方法

 

本研究使用了来自英国生物银行 (UKB)、中国CKB和芬兰FinnGen的样本数据,开发和验证基于血浆蛋白质组的生物年龄时钟。UKB包含45,441名参与者,CKB包含3,977名参与者,FinnGen包含1,990名参与者。蛋白质组学研究采用Olink Explore 3072平台对2,897种血浆蛋白质进行高通量分析,并通过机器学习模型 (LightGBM) 预测参与者的生物年龄。

 

数据处理包括缺失值插补和蛋白质表达数据的标准化,使用Boruta算法和SHAP值进行特征选择,最终确定了204种与年龄预测相关的蛋白质。使用Python和R进行所有统计分析,统计分析采用线性回归、逻辑回归和Cox比例风险模型,评估蛋白质年龄差异(ProtAgeGap)与生物学、功能和认知状态的关联。

 

三、结果讨论

UKB血浆样本蛋白质组学检测发现2,897种血浆蛋白,以该批数据为基础开发了蛋白质组学年龄时钟模型,模型基于204种蛋白质,实现精确预测个体年龄(Pearson相关,r=0.94)。为验证模型适用性,利用CKB和FinnGen来源的数据进一步验证,结果显示预测精度同样理想,相关系数分别为r=0.92和r=0.94。分析显示蛋白质组学年龄与18种主要慢性疾病的发生率显著相关,比如心脏、肝脏、肾脏和肺部疾病、糖尿病、神经退行性疾病及癌症等,此外还可关联到多病共存和死亡风险,表明其作为预测工具的价值,不限于单一疾病。

研究显示,蛋白质组学年龄与实际年龄之间的差异,与一系列生物标志物有关,如端粒长度、虚弱指数和反应时间等,表明蛋白质组学年龄差距能有效反映健康个体衰老状态。通过递归特征消除法(recursive feature elimination)结合SHAP值,评估了蛋白质的重要性,并最终确定了20个关键蛋白质组成的精简模型(ProtAge20),精简模型同样有效,表明该研究模型在实际预测方面的良好实用性。

 

四、研究结论

研究开发验证了基于蛋白质组学的年龄时钟,揭示了血液中蛋白质水平与生物年龄及多种慢性疾病风险之间的密切联系,强调了蛋白质组学在评估个体生物学年龄和疾病风险中的重要价值。结果表明能够准确预测个体生物年龄、慢性病发病率、多病以及死亡风险关,在预防和个性化医疗中具有实用性。此外,研究运用机器学习技术,如LightGBM模型,突显了机器学习在解析复杂生物数据和推动生物医学研究中的应用潜力。

 

五、结果展开

图1. 显示课题研究设计概略与数据分析策略。

 

A:显示模型的训练与初步验证。以UKB来源的样本,按70:30的比例随机分为训练集和测试集,在训练阶段使用了2,897种血浆蛋白质作为特征训练LightGBM模型,以五折交叉验证,用Boruta特征选择算法筛选出204个重要蛋白质,将优化后的模型在UKB测试集中进行验证。
B:显示利用2个外部数据集进行独立验证。为进一步验证模型稳健性和普适性,研究利用中国CKB和芬兰FinnGen数据集来进行验证,用于确认模型在不同遗传背景和地理区域中的适用性。
C:显示蛋白质年龄(ProtAge)、蛋白质年龄差距(ProtAgeGap)的计算以及与个体表型的关联分析。利用UKB样本计算了参与者的ProtAge和ProtAgeGap,后者即ProtAge与实际年龄的差异,采用线性回归和逻辑回归,检验蛋白时钟与衰老标记物、虚弱指数、体能和认知状态之间的关联,使用Cox模型分析与死亡率、常见疾病和癌症之间关联。

 

 

表一:展示了英国生物银行(UK Biobank, UKB)、中国嘉道理生物库(China Kadoorie Biobank, CKB)和芬兰基因组项目(FinnGen)这三个队列中参与者基本特征信息,包含年龄、性别、BMI、地区、患病情况等。

 

图2. 显示3个队列总体情况以及蛋白质组学年龄时钟模型在不同队列中的表现。

 

A:显示UKB、CKB、FinnGen三个队列中招募者年龄密度图,反映了每个队列中参与者的年龄结构差异。
B:密度图比较UKB和CKB中死亡个体的年龄分布情况,揭示了队列间全因死亡率的显著差异。
C:显示UKB样本中常见疾病现有病例(Prevalent cases)和新发病例(Incident cases)的数量统计。
D:显示蛋白质组学年龄时钟模型在UKB测试集的预测表现,给出了皮尔逊相关系数(Pearson r),报告了均方根误差(RMSE)和平均绝对误差(MAE)。
E:显示蛋白质组学年龄时钟模型在CKB测试集的预测表现,给出了皮尔逊相关系数(Pearson r),报告了均方根误差(RMSE)和平均绝对误差(MAE)。
F:显示蛋白质组学年龄时钟模型在FinnGen测试集的预测表现,给出了皮尔逊相关系数(Pearson r),报告了均方根误差(RMSE)和平均绝对误差(MAE)。
G:小提琴图展示UKB、CKB和FinnGen三个队列中男女之间蛋白质预测年龄差距(ProtAgeGap)的分布情况,显示性别对ProtAgeGap有一定的影响。
H:小提琴图展示UKB中不同种族群体(白人、黑人、亚洲人等)的ProtAgeGap分布情况,用于识别特定种族是否具有独特的衰老特征或健康风险。
I:小提琴图展示CKB中十个不同地区(甘肃、河南等)参与者的ProtAgeGap分布情况,揭示地理环境因素影响。

 

图3. 展示ProtAgeGap 与衰老相关标记物、状态及认知能力的关联分析。

 

A:展示 UKB总样本中,ProtAgeGap与衰老标记物的关联,包括端粒长度、白蛋白水平、总胆红素等指标。其中红色代表基于204种蛋白的预测模型,蓝色代表基于20种蛋白的精简模型。
B:展示UKB总样本中,ProtAgeGap与衰老状态及认知能力的关联分析,包括易疲劳、睡眠时间、反应时间等,其中红色代表基于204种蛋白的预测模型,蓝色代表基于20种蛋白的精简模型。
C:展示UKB无疾病群体样本中,ProtAgeGap与衰老标记物的关联,包括端粒长度、白蛋白水平、总胆红素等指标。其中红色代表基于204种蛋白的预测模型,蓝色代表基于20种蛋白的精简模型。
D:展示UKB无疾病群体样本中,ProtAgeGap与衰老状态及认知能力的关联分析,包括易疲劳、睡眠时间、反应时间等,其中红色代表基于204种蛋白的预测模型,蓝色代表基于20种蛋白的精简模型。

 

图4. 展示了ProtAgeGap在UKB和CKB参与群体中的表现,可以依据年龄相关联的死亡率和疾病风险,区分为高中低趋势三个群体,总体显示出高ProtAgeGap值与疾病发生率和死亡率增高相关联。

 

A:展示了在UKB样本中,根据ProtAgeGap将参与者分为高中低三群,对这三个群体与不同疾病或死亡进行Kaplan-Meier生存分析,显示三群体累积发生率随时间变化的不同。比如说随着ProtAgeGap值增加,疾病风险显著上升,包括心脏病、中风、肾病、糖尿病等。
B:展示了在CKB样本中,根据ProtAgeGap将参与者分为高中低三群,对这三个群体与不同疾病或死亡进行Kaplan-Meier生存分析,显示三群体累积发生率随时间变化的不同。比如说随着ProtAgeGap值增加,疾病风险显著上升,包括心脏病、中风、肾病、糖尿病等。

图5. 显示ProtAgeGap与死亡率和常见疾病之间的关联强度,在经过不同协变量调整后,基本上保持不变,这意味着即便考虑其他影响因素,ProtAgeGap作为预测指标的效力依然稳定。

 

A:模型1对年龄和性别两个因素进行调整,显示ProtAgeGap与多种疾病和死亡率之间存在显著关联,其中阿尔茨海默病(AD)、痴呆、慢性肾病(CKD)等疾病的危险比(HR)尤为突出。这表明即使只控制基本人口统计学特征,ProtAgeGap仍然是一个重要的预测因子。其中红色代表基于204种蛋白的预测模型,蓝色代表基于20种蛋白的精简模型。
B:模型2考虑了社会经济和生活方式因素,比如说种族、体力活动、吸烟状态等,结果显示大多数疾病的HR值仍保持显著水平,特别是对于那些具有较强生物学基础的老年病,如AD、CKD等,其效应估计几乎未受影响,说明ProtAgeGap与这些疾病之间的关系较为稳定且独立于传统风险因素。其中红色代表基于204种蛋白的预测模型,蓝色代表基于20种蛋白的精简模型。
C:模型3加入了身体质量指数(BMI)和高血压状况作为额外的协变量,结果显示ProtAgeGap与各结果变量之间的关联依然稳健,尤其是对于AD、痴呆和CKD,其风险比仍明显上升。其中红色代表基于204种蛋白的预测模型,蓝色代表基于20种蛋白的精简模型。

 

参考文献

Argentieri MA, Xiao S, Bennett D, Winchester L, Nevado-Holgado AJ, Ghose U, Albukhari A, Yao P, Mazidi M, Lv J, Millwood I, Fry H, Rodosthenous RS, Partanen J, Zheng Z, Kurki M, Daly MJ, Palotie A, Adams CJ, Li L, Clarke R, Amin N, Chen Z, van Duijn CM. Proteomic aging clock predicts mortality and risk of common age-related diseases in diverse populations. Nat Med. 2024 Sep;30(9):2450-2460. doi: 10.1038/s41591-024-03164-7. Epub 2024 Aug 8. PMID: 39117878; PMCID: PMC11405266.

免费获取更多专业咨询
我已阅读并同意 《CTI华测检测隐私政策》 《会员注册协议》

*新号码将自动注册

立即咨询
相关资讯
热门服务 更多 >
  • 热线电话
  • 业务咨询
  • 快速询价
  • 在线客服
  • 报告验证