Page 91 - 中国全科医学2022-14

P. 91

·1752· http://www.chinagp.net E-mail:zgqkyx@chinagp.net.cn

d（y i， y j ）=│y i- y j │ （4）表示 GCN 的增强超分类损失。t i 和 t i 分别表示两种分
a
p
2.3.2 超分类图卷积算法设 Y={y 1 ， …，y i ， …，类层输出的第 i 个标签。为了更好地控制样本间的距离，
y n } ∈ R n×d 是 n 个 d 维的特征向量的集合，并且利用邻本文对 GCN 增加了对比损失，即：
0
接矩阵 A 表示病毒样本之间的关系。给定特征 Z =Y 和 d（z i， z j ），t i =t j p
p
p
图结构 A，GCN ［21］可以表示为： L co n= max〔η-d（z i， z j ），0〕，t i ≠t j p （12）
其中 η 是一个可调参数，用于控制不同类别样本
M=δ（G（Y））（5）
的约束程度。最后，通过如下损失函数优化：
其中 M 表示属于每种类别的概率，G（Y）表示
L=L cp +λ 1 L ca + λ 2 L gc +λ 3 L com （13）
GCN，δ（·）表示激活函数，如 ReLU（·）=max（0，·）。
其中 λ 1 ，λ 2 和 λ 3 表示不同损失之间的平衡系数。
针对每个隐含层，GCN 可以用以下公式表示：
l+1
l
l
Z =（D -1/2 AD -1/2 Z W ）（6）此为构建的 EGCN。
3 实验验证
其中 l{0，1，…L} 并且 W 表示第 l 层 GCN 的可训
l
l
练参数。Z 和 Z l+1 分别表示第 l 层和第 l+1 层输出的 3.1 数据来源本文的研究数据是基于 15 类病毒的
GCN 特征。D=diag（d 1 ，d 2 ，…，d n ）是一个对角矩阵， TEM 图像集［21］，其使用两种不同的电子显微镜进行拍
n 摄，包括一台 Tecnai10 和一台 MegaViewIII 相机，以及
且 d i = ∑A ij 。为了确定概率分布，将 GCN 层的输出输入
j=1 一台 LEO 和一台 Morada 相机。该数据集使用文献［22］
到 softmax 函数中：
中描述的方法从分割的对象中自动提取样本，每类有
L
Z ic
M i = c L （7） 100 个图像（总共 1 500 个样本）。每张图片均是无损
∑Z ic
c-1 压缩为 16 位 PNG 格式，大小为 41×41。此外，从每类
L
其中 M i 表示第 i 个 GCN 特征的概率分布，Z ic 表示矩阵
中随机选择数据作为测试集，所选图像不用于训练，训
中的第 i 行第 c 列，C 表示类别数。为此，本研究建立了两个
练集与测试集的比例为 3∶1。表 2 显示了每个病毒类中
分类器，同时优化两个并列的 GCN：
p
L
p
M =δ（G （Z ））的图像数量以及相应的训练和测试部分的图像数量。
a
a
L
M =δ（G （Z ））（8）
其中 Gp 表示病毒形态类别预测层，Ga 表示超分类表 2 TEM 病毒数据集
Table 2 TEM virus dataset.
病毒形态预测层，即将每个病毒类别再次随机划分为
病毒类别训练图像测试图像总数
两类辅助网络进一步提取特征。Mp={mp 1 ，…，mp i ，… 腺病毒 75 25 100
mp n }和 Ma={ma 1 ，…，ma i ，…ma n } 分别代表 Gp 和 Ga 星状病毒 75 25 100
的输出。其中超分类网络通过将一类病毒分为两类来提刚果出血热病毒 75 25 100
高 EGCN 模型提取全局特征的能力。牛痘病毒 75 25 100
2.4 算法优化假设 CNN 模型的可训练参数为 W v ，超登革热病毒 75 25 100
分类 GCN 的参数为 W g 。本文通过以下损失函数优化权埃博拉病毒 75 25 100
重集合 W={W v ，W g }。首先，考虑到病毒图像样本相关流行性感冒病毒 75 25 100
拉沙病毒 75 25 100
关系建立方法没有使用真实标签，所以 GCN 中的邻接
马尔堡病毒 75 25 100
矩阵中可能会有很多噪声。由此，本文提出一个图校正
诺沃克病毒 75 25 100
损失来抑制图中的噪声：
口疮病毒 75 25 100
n n
∑ ∑（A ij =H ij ）乳头状瘤病毒 75 25 100
L gc = i=1 j=1 （9）
n 2 裂谷热病毒 75 25 100
其中 H=（H ij ）∈ R n×n 表示一个分类矩阵，由下式轮状病毒 75 25 100
决定：西尼罗河病毒 75 25 100
p p 总计 1 125 375 1 500
H ij = 1，t i =t j p （10）
p
0，t i ≠t j
p p 3.2 实验设计和评价指标为了进行公平的病毒分类
其中， t i 和 t i 分别表示主任务中第 i 个和第 j 个真实标签。
然后，通过交叉熵损失来优化 GCN 模型：效果对比，本文使用 PyTorch 框架在 GTX2080GPU 上实
n 现了 EGCN 算法和其他相关模型。在训练前，EGCN 将
L cp =- ∑t i log（m i ）
p
p
i=1 （11）训练样本的大小统一为 70×70 像素，然后将其随机裁
n
a
a
L ca =- ∑t i log（m i ）
i=1 剪为 64×64 像素，并进行随机旋转。测试集的大小统
其中 L cp 表示 GCN 的病毒形态交叉熵分类损失，L ca 一为 64×64 像素。在训练时，EGCN 模型通过自适应

86 87 88 89 90 91 92 93 94 95 96