背景 颈动脉粥样硬化(CAS)常被视为心血管疾病(CVD)的预警信号,其诊断技术颈动脉多普勒超声检查没有被纳入公共卫生服务项目,同时弗雷明汉风险评分(FRS)存在着评估CAS风险准确性不足的情况,不利于基层医疗人员识别CAS。目前,关于机器学习方法识别FRS中高风险人群CAS的研究依然缺乏。
目的 运用机器学习方法构建FRS中高风险人群CAS的预测模型,比较其判别效能,筛选出性能最优的模型,以期辅助基层医疗人员更简便更准确地识别CAS。
方法 采用方便抽样法,选取2019—2021年和2023年在广西壮族自治区柳州市两乡镇的674例当地居民作为研究对象。收集相关信息,并采集空腹血样、尿样检测生化指标。采用FRS评估CVD发生风险;运用颈动脉超声诊断CAS。将2019—2021年517例研究对象按照8∶2的比例随机分为训练集和验证集,训练集用于构建Logistic回归、随机森林(RF)、支持向量机(SVM)、极端梯度增强(XGBoost)模型和梯度增强决策树(GBDT)模型,验证集用于内部验证;2023年157例研究对象作为测试集,用于外部验证。通过Lasso回归分析筛选特征变量,运用灵敏度、特异度、准确度、F1值和曲线下面积(AUC)评价判别效能,外部验证采用AUC值评价最优模型泛化能力,并通过Shapley Additive exPlanation(SHAP)方法探讨影响最优模型识别CAS的重要变量。
结果 通过Lasso回归,筛选出15个非零特征变量:年龄、BMI、收缩压(SBP)、吸烟、饮酒、高血压、总胆固醇、高密度脂蛋白胆固醇、C-反应蛋白(CRP)、空腹血糖、载脂蛋白B(ApoB)、脂蛋白a(LPA)、天冬氨酸氨基转移酶(AST)、AST/丙氨酸氨基转移酶、尿微量白蛋白肌酐比值。构建的Logistic回归、RF、SVM、XGBoost模型和GBDT模型的AUC值均较高,其中GBDT模型的判别性能最优,其灵敏度、特异度、准确度、F1值和AUC分别是0.755 1、0.836 4、0.798 1、0.778 9、0.834 9,外部验证AUC为0.794 0。SHAP方法发现年龄、SBP、CRP、LPA、ApoB是影响GBDT模型识别CAS排名前5的因素。
结论 基于机器学习识别CAS的Logistic回归、RF、SVM、XGBoost模型和GBDT模型均显示出较高的判别性能,其中GBDT模型综合判别效能最佳,同时具有较强的泛化能力。