Page 91 - 中国全科医学2022-14
P. 91

·1752· http://www.chinagp.net   E-mail:zgqkyx@chinagp.net.cn


               d(y i, y j )=│y i- y j │ (4)                    表示 GCN 的增强超分类损失。t i 和 t i 分别表示两种分
                                                                                               a
                                                                                           p
           2.3.2 超分 类图 卷积算 法 设 Y={y 1 , …,y i , …,             类层输出的第 i 个标签。为了更好地控制样本间的距离,
           y n } ∈ R n×d  是 n 个 d 维的特征向量的集合,并且利用邻              本文对 GCN 增加了对比损失,即:
                                                      0
           接矩阵 A 表示病毒样本之间的关系。给定特征 Z =Y 和                                d(z i, z j ),t i =t j p
                                                                                   p
                                                                                                p
           图结构 A,GCN    [21] 可以表示为:                                L co n=  max〔η-d(z i, z j ),0〕,t i ≠t j p  (12)
                                                                   其中 η 是一个可调参数,用于控制不同类别样本
               M=δ(G(Y)) (5)
                                                               的约束程度。最后,通过如下损失函数优化:
               其中 M 表示属于每种类别的概率,G(Y)表示
                                                                   L=L cp +λ 1 L ca + λ 2 L gc +λ 3 L com  (13)
           GCN,δ(·)表示激活函数,如 ReLU(·)=max(0,·)。
                                                                   其中 λ 1 ,λ 2 和 λ 3 表示不同损失之间的平衡系数。
           针对每个隐含层,GCN 可以用以下公式表示:
                l+1
                              l
                                l
               Z =(D  -1/2 AD -1/2 Z W ) (6)                   此为构建的 EGCN。
                                                               3 实验验证
               其中 l{0,1,…L} 并且 W 表示第 l 层 GCN 的可训
                                     l
                    l
           练参数。Z 和 Z     l+1  分别表示第 l 层和第 l+1 层输出的             3.1 数据来源 本文的研究数据是基于 15 类病毒的
           GCN 特征。D=diag(d 1 ,d 2 ,…,d n )是一个对角矩阵,             TEM 图像集   [21] ,其使用两种不同的电子显微镜进行拍
                 n                                             摄,包括一台 Tecnai10 和一台 MegaViewIII 相机,以及
           且 d i = ∑A ij 。为了确定概率分布,将 GCN 层的输出输入
                j=1                                            一台 LEO 和一台 Morada 相机。该数据集使用文献[22]
           到 softmax 函数中:
                                                               中描述的方法从分割的对象中自动提取样本,每类有
                    L
                   Z ic
               M i =  c  L  (7)                                100 个图像(总共 1 500 个样本)。每张图片均是无损
                  ∑Z ic
                  c-1                                          压缩为 16 位 PNG 格式,大小为 41×41。此外,从每类
                                                  L
               其中 M i 表示第 i 个 GCN 特征的概率分布,Z ic 表示矩阵
                                                               中随机选择数据作为测试集,所选图像不用于训练,训
           中的第 i 行第 c 列,C 表示类别数。为此,本研究建立了两个
                                                               练集与测试集的比例为 3∶1。表 2 显示了每个病毒类中
           分类器,同时优化两个并列的 GCN:
                      p
                          L
                p
               M =δ(G (Z ))                                    的图像数量以及相应的训练和测试部分的图像数量。
                      a
                a
                          L
               M =δ(G (Z ))     (8)
               其中 Gp 表示病毒形态类别预测层,Ga 表示超分类                                      表 2 TEM 病毒数据集
                                                                              Table 2 TEM virus dataset.
           病毒形态预测层,即将每个病毒类别再次随机划分为
                                                                    病毒类别          训练图像      测试图像        总数
           两类辅助网络进一步提取特征。Mp={mp 1 ,…,mp i ,…                         腺病毒            75         25        100
           mp n }和 Ma={ma 1 ,…,ma i ,…ma n } 分别代表 Gp 和 Ga           星状病毒            75         25        100
           的输出。其中超分类网络通过将一类病毒分为两类来提                               刚果出血热病毒           75         25        100
           高 EGCN 模型提取全局特征的能力。                                      牛痘病毒            75         25        100
           2.4 算法优化 假设 CNN 模型的可训练参数为 W v ,超                        登革热病毒            75         25        100
           分类 GCN 的参数为 W g 。本文通过以下损失函数优化权                          埃博拉病毒            75         25        100
           重集合 W={W v ,W g }。首先,考虑到病毒图像样本相关                       流行性感冒病毒           75         25        100
                                                                    拉沙病毒            75         25        100
           关系建立方法没有使用真实标签,所以 GCN 中的邻接
                                                                   马尔堡病毒            75         25        100
           矩阵中可能会有很多噪声。由此,本文提出一个图校正
                                                                   诺沃克病毒            75         25        100
           损失来抑制图中的噪声:
                                                                    口疮病毒            75         25        100
                   n  n
                  ∑ ∑(A ij =H ij )                                 乳头状瘤病毒           75         25        100
               L gc = i=1  j=1   (9)
                      n 2                                          裂谷热病毒            75         25        100
               其中 H=(H ij )∈ R  n×n  表示一个分类矩阵,由下式                   轮状病毒            75         25        100
           决定:                                                     西尼罗河病毒           75         25        100
                       p  p                                           总计           1 125      375       1 500
               H ij =  1,t i =t j p (10)
                       p
                   0,t i ≠t j
                    p   p                                      3.2 实验设计和评价指标 为了进行公平的病毒分类
               其中, t i  和 t i 分别表示主任务中第 i 个和第 j 个真实标签。
           然后,通过交叉熵损失来优化 GCN 模型:                               效果对比,本文使用 PyTorch 框架在 GTX2080GPU 上实
                   n                                           现了 EGCN 算法和其他相关模型。在训练前,EGCN 将
               L cp =- ∑t i log(m i )
                      p
                            p
                   i=1          (11)                           训练样本的大小统一为 70×70 像素,然后将其随机裁
                    n
                      a
                            a
               L ca =- ∑t i log(m i )
                   i=1                                         剪为 64×64 像素,并进行随机旋转。测试集的大小统
               其中 L cp 表示 GCN 的病毒形态交叉熵分类损失,L ca                一为 64×64 像素。在训练时,EGCN 模型通过自适应
   86   87   88   89   90   91   92   93   94   95   96