职场文秘网

首页 > 心得体会 > 学习材料 / 正文

XGBoost算法在轻度认知障碍人群阿尔兹海默病发病预测中的应用

2023-03-11 13:55:12

丛慧文,徐雅琪,王爱民,王廉源,杨 毅,王凤琳,黄一铭,石福艳,王素珍

潍坊医学院公共卫生学院卫生统计学系 山东潍坊 261053

阿尔茨海默病(Alzheimer′s disease,AD)是一种神经系统性疾病,是痴呆症的主要原因[1],其特征是大脑中淀粉样斑块的细胞外沉积和细胞内神经原纤维缠结[2]。近期研究[3]结果显示,中国AD总体发病率约为3.9%,并且未来将会持续增长。AD发病隐匿,且缺乏治疗或有效逆转疾病进程的特效药物,因此AD的早期识别和及时诊断尤为重要[4]。轻度认知障碍(mild cognitive impairment,MCI)是认知正常和AD之间的一个过渡阶段,MCI患者已逐渐成为AD预后评估和早期治疗的目标人群[5]。

机器学习技术作为一种计算机自我学习方法,具有能够处理多个变量、描述复杂的非线性相互作用和预测准确的特点[6],在疾病风险预测领域应用广泛[7-10]。极限梯度增强(extreme gradient boosting,XGBoost)算法因具有更强的预测能力、基于集成算法的高效性和模型可解释性,解决了传统机器学习算法的黑箱问题,近年来在多项机器学习和数据挖掘中得到了广泛认可[11]。本研究拟基于AD神经影像学计划(Alzheimer′s disease neuroimaging initiative,ADNI)数据库,采用XGBoost算法构建MCI人群AD发病预测模型,为AD的早期干预提供理论依据。

1.1 数据来源从ADNI数据库中选择符合MCI诊断标准、在2005至2016年至少完成两次随访且结局为MCI或AD发病的患者;
排除患有精神类疾病或实质性神经系统疾病,以及用于精神疾病类药物或对MRI检查有禁忌证者,最终共纳入370例MCI患者。MCI诊断标准:简易精神状态检查量表(mini-mental state examination,MMSE)得分在24~30;
记忆力障碍;
经教育评分校正后的韦氏记忆量表逻辑记忆Ⅱ评价证实存在客观记忆力减退;
临床痴呆评定量表(clinical dementia rating,CDR)得分为0.5;
在其他认知领域没有显著水平的损伤,基本上可进行日常生活活动,无痴呆。AD诊断标准:MMSE评分在20~26;
CDR得分为0.5或1.0,符合美国国立神经病语言障碍卒中研究所AD及相关疾病协会(NINCDS/ADRDA)关于可能AD的标准。ANDI数据库由美国国立卫生研究院批准,所有研究对象均在入组前签署知情同意书。

1.2 预测模型变量选择和赋值因变量为MCI患者从首次随访10 a内是否发展为AD。参考国内外文献[12-14],结合临床专家意见,基于预测变量的易获得性,从ADNI数据库中挑选出16个临床指标,包括一般情况(性别、年龄、教育水平得分、婚姻状况、BMI、舒张压、收缩压),临床认知评分指标[临床痴呆评分总和量表(clinical dementia rating scale sum of boxes,CDR-SB)得分、MMSE得分、听觉语言学习测试(Rey auditory-verbal learning test,RAVLT)得分、社会活动功能量表(functional activities questionnaire,FAQ)得分],血清脂蛋白及其代谢指标[糖蛋白-N-乙酰(glycoprotein N-acetyl,GlycA)、缬氨酸、白蛋白、葡萄糖、多不饱和脂肪酸与总脂肪酸的比值]。采用LASSO法对变量进行筛选。

通过多重填补法填补连续型变量中的缺失值,并进行0~1标准化处理;
对分类变量赋值,将55岁≤年龄<65岁、65岁≤年龄<75岁、75岁≤年龄<85岁、年龄≥85岁,分别赋值1、2、3、4;
依据是否独居将研究对象分为两类,丧偶、未婚、离婚的个体赋值为0,已婚者赋值为1。

1.3 模型的构建及评价XGBoost算法将决策树作为基学习器,通过集成算法,在模型训练时利用所有CPU内核并行建树。输入自变量计算每棵树的预测值,并对上一棵树的预测残差求泰勒展开式的二阶导数,以达到模型复杂度的最小化,同时将树复杂度作为正则项加入到目标函数中,最后加权平均多个决策树的预测结果[15]。

本研究通过无放回随机抽样将样本分割成包含70%样本量的训练集和包含30%样本量的测试集,训练集用于建模,测试集用于模型性能的评价。绘制ROC曲线[16]衡量模型的预测性能,通过Hosmer-Lemeshow检验和预测模型校准曲线评估模型拟合性能。

1.4 统计学处理采用两独立样本t检验或χ2检验比较MCI组和AD组间基线资料的差异,检验水准α=0.05。采用R4.1.2软件中的xgboost包构建XGBoost模型,rpart包构建Logistic回归模型,e1071包构建支持向量机模型,nnet包构建BP神经网络模型,trainControl函数选择模型最优超参数;
通过caret包计算模型的敏感度、特异度、准确率和Kappa值,reportROC包计算模型AUC值,ResourceSelection包进行Hosmer-Lemeshow检验,caTools包绘制预测模型校准曲线。

2.1 研究对象的基线资料370例共随访1 013次。根据最后一次随访的发病状态分为MCI组256例和AD组114例。2组间基线资料的比较结果见表1,表1显示2组患者CDR-SB得分、MMSE得分、RAVLT得分、FAQ得分、BMI、年龄、婚姻状况差异有统计学意义,见表1。

表1 2组患者基线资料比较

2.2 预测模型构建结果经XGBoost算法计算,逐步剔除重要性最弱变量直至特征变量数为12时,基于XGBoost算法的AD预测模型AUC值最高。预测模型变量选择结果见图1。

图1 预测模型变量选择结果

将12个变量标准化后纳入XGBoost模型。超参数设置情况如下:nrounds=30,max_depth=40,eta=0.1,colsample_bytree=0.4,min_child_weight=5。模型特征重要性排序结果从大到小依次为:CDR-SB得分(40.42%)、FAQ得分(34.49%)、MMSE得分(12.65%)、RAVLT得分(5.27%)、GlycA(1.48%)、BMI(1.29%)、葡萄糖(1.22%)、缬氨酸(1.00%)、年龄(0.83%)、舒张压(0.63%)、教育水平得分(0.63%)、白蛋白(0.09%)。

2.3 预测模型的比较及评价除BP神经网络模型外,所构建的XGBoost模型、Logistic回归模型、支持向量机模型均通过Hosmer-Lemeshow检验,表明模型拟合较好。与Logistic回归模型、BP神经网络模型、支持向量机模型相比,XGBoost模型具有更高的准确率、敏感度、特异度、Kappa值、AUC值(表2)。4种预测模型校准曲线图见图2,图2显示,XGBoost模型拟合较好。

表2 4种模型的评价结果

图2 4种预测模型的校准曲线

临床研究[17]表明,从MCI发展为AD的进程缓慢,仅部分MCI患者会进展为AD,另一部分个体则会保持稳定,甚至恢复到正常的认知状态。因此,提前预测并识别MCI向AD转化的危险因素对于AD的预防和精准治疗至关重要。近年来,许多研究者将机器学习应用到AD预测模型构建中,研究[14,18-21]结果表明,Logistic回归、随机森林、人工神经网络、决策树、支持向量机等多种机器学习算法可有效提高AD预测模型的预测精度。

Kuang等[14]构建Logistic回归、人工神经网络和决策树模型,对MCI进展为AD进行预测,3个模型预测稳定性均较好,但人工神经网络模型具有最佳的预测价值。Wang等[18]对临床问卷变量进行LASSO法筛选,确定了性别、年龄、经济状况、健康状况、生活方式和遗传风险共6个预测因子,并利用这6个变量构建Logistic回归预测模型,该模型对AD有较好的预测能力。Bari Antor等[19]比较了4种机器学习算法(支持向量机、Logistic回归、决策树和随机森林)构建的模型在AD发病预测中的表现,发现支持向量机模型准确性最高。Velazquez等[20]基于ADNI数据库中的383例MCI的资料构建包含9个临床特征的随机森林模型,结果表明,该模型预测AD转化的准确率高达93.6%。Tang等[21]将ADNI数据库中的560名受试者分为认知正常组、早期MCI组、晚期MCI组和AD组,分别构建随机森林、决策树、支持向量机预测模型,结果显示随机森林预测模型可对AD不同阶段进行准确分类。这些模型在不同数据集表现不同,提示在建立AD预测模型领域有更大的探索空间。

近年来,XGBoost算法在糖尿病[22]、脑卒中[23]、肾病[24]等疾病发病预测领域应用广泛,而在预测AD等神经系统疾病方面应用较少。为探索XGBoost算法的优势,本研究基于一般资料、临床认知评分指标、脂蛋白及其代谢指标筛选出12个变量构建AD预测模型,研究结果显示,基于XGBoost算法构建的预测模型相比其他3种模型(Logistic回归模型、BP神经网络模型和支持向量机模型),预测效能更好。

此外,本研究模型特征变量选择结果提示,临床认知评分指标对AD预测的贡献最高,占比92.83%;
临床认知评分指标中CDR-SB得分、FAQ得分重要程度分别占40.42%和34.49%,这表明临床认知评分指标可能是预测AD发病的重要因素,医疗决策人员在MCI人群AD筛查中应加强对CDR-SB得分和FAQ得分的监测管理。

综上所述,基于ADNI数据库所建立的XGBoost模型可用于MCI人群中AD高风险人群筛查,进而为AD的有效防控提供依据。然而,本研究也具有一定的局限性如未考虑随访数据之间的时间关联性,这也是大部分机器学习算法的劣势,另外,未对模型预测性能进行外部验证。后期研究中如条件许可,将进一步考虑数据之间的时间联系,同时进行模型的外部验证。

猜你喜欢 决策树向量变量 向量的分解新高考·高一数学(2022年3期)2022-04-28抓住不变量解题小学生学习指导(高年级)(2021年4期)2021-04-29聚焦“向量与三角”创新题中学生数理化(高中版.高考数学)(2021年1期)2021-03-19也谈分离变量河北理科教学研究(2020年2期)2020-09-11决策树和随机森林方法在管理决策中的应用电子制作(2018年16期)2018-09-26基于决策树的出租车乘客出行目的识别中央民族大学学报(自然科学版)(2016年4期)2016-06-27向量垂直在解析几何中的应用高中生学习·高三版(2016年9期)2016-05-14基于模糊关联规则和决策树的图像自动标注智能系统学报(2015年4期)2015-12-27向量五种“变身” 玩转圆锥曲线新高考·高二数学(2015年11期)2015-12-23基于肺癌CT的决策树模型在肺癌诊断中的应用郑州大学学报(医学版)(2015年1期)2015-02-27

Tags: 阿尔   发病   算法  

搜索
网站分类
标签列表