Page 74 - 2022-35-中国全科医学
P. 74

http://www.chinagp.net   E-mail:zgqkyx@chinagp.net.cn  ·4423·


            表 7 随机森林模型、XG Boost 模型和 BP 神经网络模型 AUC 比较           碍 [23] 。从事石油开采的工人还会接触到甲苯和二甲苯,
           Table 7  Comparison of the AUC of the random forest,XG Boost,and   这是已知的耳毒性溶剂,暴露耳毒性物质引起听力受损
           BP neural network models in assessing hearing loss risk in oil workers
                                                               可能与破坏耳蜗及前庭功能有关              [24] 。有研究者对听力
                   模型          AUC 差值 标准差   95%CI  Z 值  P 值
                                                               受损和失眠之间的关系进行了评估,指出失眠、听力受
           随机森林模型与 XG Boost 模型   0.02  0.010 (0.003,0.041)2.282 0.023
           随机森林模型 与 BP 神经网络模型    0.12  0.012 (0.066,0.113)7.432 <0.001  损均可能与氧化应激有关,活性氧水平升高可能导致毛
           XG Boost 模型与 BP 神经网络模型  0.10  0.012 (0.045,0.090)5.780 <0.001  细胞死亡和听力受损 [25] ;因此,失眠可能会增加听力
                                                               受损的风险。有研究者认为倒班作业引起的与慢性病相
                1.0    随机森林模型                                  关的氧化应激和由此产生的听觉上皮细胞损伤可能是导
                            XG Boost 模型                        致听力受损的原因之一,但其具体的潜在机制需要未来
                0.8             BP 神经网络模型                      的研究继续探索       [26] 。听力受损是职业性噪声暴露最常
                                                               见的结局,噪声性听力受损主要是由于耳蜗毛细胞受损
                                                               导致的   [27] 。以上危险因素均会导致职业性听力受损发
                0.6                        参考线                 生风险增加。
               灵敏度                                                 在现有的风险研究中大多数机器学习技术只是利


                0.4
                                                               用单一类型的特征或仅对不同类型特征的融合进行简单
                                                               的内交互预测。本研究采用的随机森林模型是一种基于
                0.2                                            决策树的集成学习方法,该方法可利用大型数据库来识
                                                               别新的风险预测因子以及更复杂的交互作用来提高进行
                                                               疾病风险评估的性能         [28-29] 。本研究采用十折交叉的方
                 0       0.2    0.4    0.6    0.8    1.0       法进行样本集的划分及模型的内部验证,保证了样本数
                                 1- 特异度                        据的利用度,提高了模型的稳健性和说服力。通过对模
           图 1 随机森林模型、XG Boost 模型和 BP 神经网络模型评估石油工
           人听力受损的 ROC 曲线                                       型与数据的拟合程度进行测试,结果显示随机森林模型
           Figure 1 ROC curves of the random forest,XG Boost,and BP neural   的拟合优度最佳,表现出较好的拟合效果,说明随机森
           network models in assessing hearing loss risk in oil workers
                                                               林模型的运算结果与实际情况的吻合程度较高。进一步
                1.0                                            对模型性能进行评价,从判别度来看,3 种模型比较的
                           XG Boost 模型
                                                               结果显示随机森林模型的准确率、灵敏度、特异度、约
                     BP 神经网络模型                   随机森林          登指数、F1 分数均为最高,分别为 95.99%、91.43%、
                0.8                               模型
                                                               97.69%、0.89、0.74。判别度角度表现出的良好性能说明
                                             参考线
                                                               随机森林模型相比于其他两种模型而言将听力受损的工
                0.6                                            人与非听力受损的工人区分的能力更好,随机森林模型
              实际概率                                             具有较高的判别能力,能够及早识别职业性听力受损的

                0.4                                            高危人群,并且排除听力受损发生风险较低的石油工人,
                                                               可以极大程度地避免假阳性和假阴性的情况。绘制 ROC
                0.2                                            曲线得出随机森林模型的 AUC 值最大达到 0.95,说明随
                                                               机森林模型在石油工人听力受损风险评估中体现出了较
                                                               高的预测价值。目前大多研究在模型性能评价方面只关
                 0       0.2    0.4    0.6    0.8     1.0      注到了判别度,但是一个良好的风险评估模型只有较好
                                  预测概率
           图 2 随机森林模型、XG Boost 模型和 BP 神经网络模型评估石油工              的判别度不一定能保证模型的质量,因此,对模型校准
           人听力受损的校准曲线                                          度的衡量也是必不可少的。本研究随机森林模型的 Brier
           Figure 2 Calibration curves of the random forest,XG Boost,and BP   得分、O/E ratio、校准曲线的截距分别为 0.04、1.02、0.029,
           neural network models in assessing hearing loss risk in oil workers
                                                               且校准曲线较其他两种模型更接近于参考线。通过上述
           年职业安全卫生意识薄弱及各种风险因素的效应持续累                            相关校准指标显示出的校准效果说明随机森林模型对于
           积,成为职业性听力受损的高危人群。患有糖尿病的石                            石油工人听力受损评估的风险与实际风险的一致程度较
           油工人其内耳因噪声受到的损害程度大小会发生改变,                            高。由此,可以得出在进行石油工人听力受损风险评估
           从而增加其罹患听力受损的风险              [23] 。同时,有研究表           中,随机森林模型是最优模型选择,且模型中的评估指
           明,糖尿病患者可由微血管并发症引起糖尿病性听力障                            标在职业监测中较易获取,具有帮助石油工人评估发生
   69   70   71   72   73   74   75   76   77   78   79