Page 91 - 中国全科医学2022-14
P. 91
·1752· http://www.chinagp.net E-mail:zgqkyx@chinagp.net.cn
d(y i, y j )=│y i- y j │ (4) 表示 GCN 的增强超分类损失。t i 和 t i 分别表示两种分
a
p
2.3.2 超分 类图 卷积算 法 设 Y={y 1 , …,y i , …, 类层输出的第 i 个标签。为了更好地控制样本间的距离,
y n } ∈ R n×d 是 n 个 d 维的特征向量的集合,并且利用邻 本文对 GCN 增加了对比损失,即:
0
接矩阵 A 表示病毒样本之间的关系。给定特征 Z =Y 和 d(z i, z j ),t i =t j p
p
p
图结构 A,GCN [21] 可以表示为: L co n= max〔η-d(z i, z j ),0〕,t i ≠t j p (12)
其中 η 是一个可调参数,用于控制不同类别样本
M=δ(G(Y)) (5)
的约束程度。最后,通过如下损失函数优化:
其中 M 表示属于每种类别的概率,G(Y)表示
L=L cp +λ 1 L ca + λ 2 L gc +λ 3 L com (13)
GCN,δ(·)表示激活函数,如 ReLU(·)=max(0,·)。
其中 λ 1 ,λ 2 和 λ 3 表示不同损失之间的平衡系数。
针对每个隐含层,GCN 可以用以下公式表示:
l+1
l
l
Z =(D -1/2 AD -1/2 Z W ) (6) 此为构建的 EGCN。
3 实验验证
其中 l{0,1,…L} 并且 W 表示第 l 层 GCN 的可训
l
l
练参数。Z 和 Z l+1 分别表示第 l 层和第 l+1 层输出的 3.1 数据来源 本文的研究数据是基于 15 类病毒的
GCN 特征。D=diag(d 1 ,d 2 ,…,d n )是一个对角矩阵, TEM 图像集 [21] ,其使用两种不同的电子显微镜进行拍
n 摄,包括一台 Tecnai10 和一台 MegaViewIII 相机,以及
且 d i = ∑A ij 。为了确定概率分布,将 GCN 层的输出输入
j=1 一台 LEO 和一台 Morada 相机。该数据集使用文献[22]
到 softmax 函数中:
中描述的方法从分割的对象中自动提取样本,每类有
L
Z ic
M i = c L (7) 100 个图像(总共 1 500 个样本)。每张图片均是无损
∑Z ic
c-1 压缩为 16 位 PNG 格式,大小为 41×41。此外,从每类
L
其中 M i 表示第 i 个 GCN 特征的概率分布,Z ic 表示矩阵
中随机选择数据作为测试集,所选图像不用于训练,训
中的第 i 行第 c 列,C 表示类别数。为此,本研究建立了两个
练集与测试集的比例为 3∶1。表 2 显示了每个病毒类中
分类器,同时优化两个并列的 GCN:
p
L
p
M =δ(G (Z )) 的图像数量以及相应的训练和测试部分的图像数量。
a
a
L
M =δ(G (Z )) (8)
其中 Gp 表示病毒形态类别预测层,Ga 表示超分类 表 2 TEM 病毒数据集
Table 2 TEM virus dataset.
病毒形态预测层,即将每个病毒类别再次随机划分为
病毒类别 训练图像 测试图像 总数
两类辅助网络进一步提取特征。Mp={mp 1 ,…,mp i ,… 腺病毒 75 25 100
mp n }和 Ma={ma 1 ,…,ma i ,…ma n } 分别代表 Gp 和 Ga 星状病毒 75 25 100
的输出。其中超分类网络通过将一类病毒分为两类来提 刚果出血热病毒 75 25 100
高 EGCN 模型提取全局特征的能力。 牛痘病毒 75 25 100
2.4 算法优化 假设 CNN 模型的可训练参数为 W v ,超 登革热病毒 75 25 100
分类 GCN 的参数为 W g 。本文通过以下损失函数优化权 埃博拉病毒 75 25 100
重集合 W={W v ,W g }。首先,考虑到病毒图像样本相关 流行性感冒病毒 75 25 100
拉沙病毒 75 25 100
关系建立方法没有使用真实标签,所以 GCN 中的邻接
马尔堡病毒 75 25 100
矩阵中可能会有很多噪声。由此,本文提出一个图校正
诺沃克病毒 75 25 100
损失来抑制图中的噪声:
口疮病毒 75 25 100
n n
∑ ∑(A ij =H ij ) 乳头状瘤病毒 75 25 100
L gc = i=1 j=1 (9)
n 2 裂谷热病毒 75 25 100
其中 H=(H ij )∈ R n×n 表示一个分类矩阵,由下式 轮状病毒 75 25 100
决定: 西尼罗河病毒 75 25 100
p p 总计 1 125 375 1 500
H ij = 1,t i =t j p (10)
p
0,t i ≠t j
p p 3.2 实验设计和评价指标 为了进行公平的病毒分类
其中, t i 和 t i 分别表示主任务中第 i 个和第 j 个真实标签。
然后,通过交叉熵损失来优化 GCN 模型: 效果对比,本文使用 PyTorch 框架在 GTX2080GPU 上实
n 现了 EGCN 算法和其他相关模型。在训练前,EGCN 将
L cp =- ∑t i log(m i )
p
p
i=1 (11) 训练样本的大小统一为 70×70 像素,然后将其随机裁
n
a
a
L ca =- ∑t i log(m i )
i=1 剪为 64×64 像素,并进行随机旋转。测试集的大小统
其中 L cp 表示 GCN 的病毒形态交叉熵分类损失,L ca 一为 64×64 像素。在训练时,EGCN 模型通过自适应