中国全科医学 ›› 2024, Vol. 27 ›› Issue (10): 1271-1276.DOI: 10.12114/j.issn.1007-9572.2023.0561
所属专题: 家庭医学的方法学精华特刊; 数智医疗最新文章合辑
• 数智医疗与信息化研究 • 上一篇
ZHONG Jinjia, LI Wentao, HUANG Yafang*(), WU Hao
摘要: 背景 近年来初级保健领域基于机器学习预测模型研究发展迅速,但关于其设计特征与方法学质量的研究报道较少。 目的 系统总结、分析初级保健领域基于机器学习预测模型研究的设计特征与方法学质量。 方法 采用计算机检索PubMed、Embase、中国知网、万方数据知识服务平台建库至2023-02-21发布的初级保健领域基于机器学习预测模型研究,采用叙述性总结和描述方法分析纳入文献的基本特征、预测模型类型、样本量、缺失值处理方法、机器学习算法类型、模型性能评价指标及预测效能、模型验证方法等。 结果 最终纳入30篇文献,涉及106个预测模型,其中发表时间为2021~2023年17篇;研究主题涉及呼吸系统疾病6篇,肿瘤4篇,门诊预约3篇;26篇文献样本量>1 000(占86.67%,95%CI=68.36%~95.64%);使用机器学习方法处理缺失值者7篇;65个预测模型使用基于树的机器学习算法,其中随机森林使用频率最高(占32.08%,95%CI=23.53%~41.95%);61个预测模型使用受试者工作特征(ROC)曲线下面积(AUC)或一致性(C统计量)作为区分度评价指标(占57.55%,95%CI=47.57%~66.97%),但仅14个预测模型报告了校准度指标(占13.21%,95%CI=7.67%~21.50%);106个预测模型多数区分度良好,但92个预测模型偏倚风险评估结果为高风险(占86.79%,95%CI=78.50%~92.33%);仅7篇文献所涉预测模型进行了外部验证。 结论 近3年来初级保健领域基于机器学习预测模型研究逐渐增多,研究主题主要涉及呼吸系统疾病、肿瘤、门诊预约等;预测模型在样本量、缺失值处理方法等方面存在较大差异,多数预测模型区分度良好,但大部分预测模型未进行外部验证,总体偏倚风险较高。