Page 95 - 中国全科医学2022-01

P. 95

·220· http://www.chinagp.net E-mail:zgqkyx@chinagp.net.cn

填充和改良的随机森林填充 4 种方法行缺失值填充。极端梯度提升（XGBoost）。集成模型的结果由最佳的
1.5.3 特征筛选本研究使用不筛选、Lasso 筛选、前 5 个模型投票产生。
Boruta 筛选 3 种特征筛选方法进行数据集的特征提取。 1.7 模型评价以 ROC 曲线下面积（AUC）、准确率、
使用 Lasso 筛选、Boruta 筛选生成特征重要数据，该数精确率、召回率、F1 值作为模型评估的指标，在各指
据反映各输入变量对结果预测的重要性。经过 4 种缺失标结果不一致时，以 AUC 作为主要参考。在训练集中，
值处理和 3 种特征筛选方法，共获得 12 个处理后的数使用十折交叉验证法进行模型评估。在测试集中，采用
据集。 Bootstrapping 算法重抽样 200 次进行外部验证。采用测
1.6 模型建立使用 Python Scikit-Learn 库中 train_ 试集数据的评价指标作为最佳模型选择依据。
test_split 包将数据分为 80% 训练集和 20% 测试集。训 1.8 样本量验证使用筛选的最佳模型，随机使用训
练集数据用于模型训练，测试集数据用于评价和选择模练集 10%、20%……100% 的数据训练模型，使用测试
型。使用 17 种机器学习和 1 种集成学习算法（Ensemble 集数据对训练的模型预测性能进行评价。该方法重复
Learning）对经过预处理的 12 个数据集分别建模。17 种 100 次，观察训练样本量的变化对模型预测性能的影响。
机器学习算法包括：逻辑回归（Logistic Regression）、模型建立和图形可视化采用 Python3.7.3+Pycharm 搭建
随机梯度下降（SGD）、K最近邻（KNN）、决策树（Decision 开发环境，使用 Scikit-Learn 库和 Xgboost 库建立机器
Tree）、高斯朴素贝叶斯（Gaussian Naïve Bayes）、伯学习模型。模型数据预处理、模型建立、评价及选择流
努利朴素贝叶斯（Bernoulli Naive Bayes）、多项式朴素程见图 1。
贝叶斯（Multinomial Naive Bayes）、支持矢量机（SVM）、 1.9 统计学方法使用 R 4.0.3 软件对数据进行分析。
二次判别分析（QDA）、随机森林（Random Forest）、计量资料以（ ±s）表示，在不同数据预处理方法比较
极端随机树（Extra Tree）、线性判别分析（LDA）、被中，若数据正态分布及方差齐性，多组间比较采用方差
动攻击（Passive Aggressive）、自适应增强（AdaBoost）、分析；若数据为非正态分布或方差不齐，多组间比较采
引导聚集（Bagging）、梯度提升（Gradient Boosting）、用 Kruskal-Wallis 检验。计数资料以频数、百分比表示。

图 1 基于机器学习 COPD 患者气流受限程度风险预警模型建立流程
Figure 1 Flowchart of risk prediction model for COPD patients with airflow limitation based on machine learning

90 91 92 93 94 95 96 97 98 99 100