黎平门户网
科技前沿 当前位置:首页 > 科技前沿 > 正文

图灵奖得主LeCun用来怼Google的乳腺癌AI论文,有何过人之处?

首先,创新性地将网络分为架构和培训过程的两个不同阶段。当我们使用大容量补丁级网络来学习像素级标签时,我们建立了另一个网络来从整体上学习乳房级标签。

2。基于ResNet的定制网络被用作我们模型的构建模块。深度和宽度之间的平衡针对高分辨率医学图像进行了优化。

3。对网络进行BI-RADS分类预训练,这是一项高标签噪声的相关任务。

4。在许多可能的选择中,以最佳方式组合多个输入视图。为了验证我们的模型,我们组织了14名放射科医生来看电影,每个医生看了720张乳房x线照相筛查图像。结果表明,我们的模型与经验丰富的放射科医生的判断结果一样准确。

首先,创新性地将网络分为架构和培训过程的两个不同阶段。当我们使用大容量补丁级网络来学习像素级标签时,我们建立了另一个网络来从整体上学习乳房级标签。

2。基于ResNet的定制网络被用作我们模型的构建模块。深度和宽度之间的平衡针对高分辨率医学图像进行了优化。

3。对网络进行BI-RADS分类预训练,这是一项高标签噪声的相关任务。

4。在许多可能的选择中,以最佳方式组合多个输入视图。为了验证我们的模型,我们组织了14名放射科医生来看电影,每个医生看了720张乳房x线照相筛查图像。结果表明,我们的模型与经验丰富的放射科医生的判断结果一样准确。

此外,将放射学家对恶性肿瘤的判断结果与我们的神经网络预测结果进行平均的混合模型更加准确。我们将在简介”中公开发布这一模型。乳腺癌是美国女性癌症相关死亡的第二大原因。2014年,美国进行了3900多万次筛查和乳房x光检查。据估计,2015年有232 000名妇女被诊断患有乳腺癌,约40 000人死于乳腺癌。

虽然乳房x线照相术是唯一可以降低乳腺癌死亡率的影像检查方法,但每个人都在讨论这种筛查的潜在危险,包括假阳性和假阳性引起的活检。10-15%的妇女需要接受另一次检查和/或超声波检查,以便在接受未确定的乳房x光检查后进一步澄清。经过额外的影像检查,许多妇女被确定为良性的,只有10-20%被推荐用于针活检。他们中只有20-40%被诊断患有癌症。

显然,我们还需要使常规乳腺癌筛查更加准确,减少对女性身体的伤害。

尽管多中心研究表明传统的计算机辅助诊断程序不能改善诊断结果,放射科医生仍然使用它们来帮助解释图像。深度学习的发展,特别是深度卷积神经网络的发展,为创造新一代的计算机辅助设计工具提供了可能。

本文的目标是开发一个神经网络来帮助放射科医生解释乳腺癌筛查图像。

(1)我们提出了一种新的两阶段神经网络,它结合了全局和局部信息,并采用了适当的训练方法。这使我们能够使用非常高容量的补丁级网络来学习像素级标签,同时使用另一个网络来整体学习乳房级标签。通过这种策略,我们的模型不仅可以获得与人类相当的竞争结果,还可以生成可解释的热图,显示可疑发现的位置。此外,我们还证明了像素级标签的实用性,即使我们有许多图像级标签。

(二)我们已经通过使用超过1,000,000张高分辨率乳房x光照片证明了培训和评估网络的可行性(这是医学成像中非常大的数据集,不仅用于乳腺癌筛查)。这对于今后的研究和设计以及展示这种方法的概念和价值都有很大的价值。

(三)我们已经提出了一种专门为医学成像设计的ResNet的新变体,它被用作我们网络的构建模块。它平衡了深度和宽度,允许模型处理非常大的图像,同时保持合理的内存消耗。

(iv)我们评估了使用噪声较高的相关任务对网络进行预训练的有效性(BI-RADS分类),发现它是管道的一个非常重要的部分,显着提高了我们模型的性能。这在大多数数据集都很小的医学成像研究中尤其重要。

(五)我们评估了在单个神经网络中组合不同乳房x线摄影视图的各种方法。我们以前没有发现这样的分析,尽管医学成像任务通常有多个输入。

数据

我们的回顾性研究已获机构审查委员会批准,符合《医疗保险可携带性和责任法案》。这个数据集是我们早期工作中使用的数据集的更大更详细的版本。

数据集包括来自14,473名患者的229,426个数字乳腺摄影筛查(100,1093张图像)。每次检查至少包含4幅图像,对应于乳房x线照相术中使用的4种标准视图:乳房x线照相术、乳房x线照相术、乳房x线照相术和乳房x线照相术。数据集中的图像来自四种类型的扫描仪:mamomat检查(22.81%)、mamomat创新dr (12.65%)、Lorad Selenia(40.92%)和Selenia Dimensions (23.62%)。图1显示了一些检查示例。

我们依靠活检的病理报告来标记病人的每个乳房是恶性的还是良性的。我们进行了5832次检查,并在乳腺x光筛查后的120天内至少完成了一次活检。活检显示985例(8.4%)为恶性,5556例(47.6%)为良性,234例(2.0%)有乳腺良恶性征象。

对于所有与活检相匹配的检查,我们要求一组放射科医生在像素级回顾性指出活检病变的位置(提供相应的病理报告)。

我们发现约32.8%的检查是隐匿的,即活检的病变在乳房x线照相术中是不可见的,并且通过其他成像方法(超声波或磁共振成像)来识别。详情见表1。

肿瘤分类深度有线电视新闻网

一些乳腺同时包含恶性和良性病变。我们使用多任务分类模型对乳腺癌筛查进行分类。换句话说,对于每个乳房,我们分配两个二元标记:有/没有恶性发现的乳房(用yR,M和yL,M表示),有/没有良性发现的乳房(用yR,B和yL,B表示)。将左右乳腺相加,每次检查有4个标签。我们的目标是为每个标签生成四个预测。yR,m,yL,m,YR,b和?YL,b)

虽然我们主要对预测恶性病变的存在与否感兴趣,但是预测良性病变的存在与否在帮助模型学习任务的调整中起着重要的作用。我们将对应于四个标准乳房x线摄影视图的四幅高分辨率图像作为输入(由xR-CC、xL-CC、xR-MLO和xL-MLO表示)。

对于CC视图,我们将每个图像裁剪为固定大小的2677×1942像素,对于MLO视图裁剪为2974×1748像素。示意图见图3。

模型结构和训练

受革剌斯等人先前工作的启发,我们用图5所示的四种不同结构训练了多视角有线电视新闻网。所有这些网络都由两个核心模块组成:(I)四个视图特定的列,每个列都基于ResNet架构,该架构为每个乳房x线摄影视图输出固定维的隐藏层矢量表示;(ii)两个完全连接的层,将计算的隐藏层向量映射到输出预测。这些模型的不同之处在于如何聚集所有视图的中间层来生成最终预测。

我们考虑了以下四种方式。

1“按视图”模式(图5(a))分别连接左-中立方和右-中立方、左-中立方和右-中立方。它分别预测CC和MLO视图,最后对相应的预测进行平均。

1)“图像模式”模型(图5(b))独立预测四个视图中的每一个。相应的预测最终被平均。

2)“侧向”模型(图5(c))首先连接左心耳和左心耳,以及右心耳和右心耳,然后分别预测每个乳房。

3)“关节”模型(图5(d))连接所有四个视图,共同预测两个乳房的恶性和良性概率。

在所有模型中,我们使用四个基于ResNet的22层网络(ResNet-22)作为中间层,为每个视图计算256维隐藏层向量。与标准资源网(ResNets)相比,该网络具有不同的深度和宽度比,可以用于非常高分辨率的图像。

我们发现“视图”模型是验证集中预测恶性/非恶性的最准确模型。除非另有说明,我们接下来要说的是这个模型的结果。

a. single ResNet-22

ResNet-22的完整架构如图4所示。“左-中-右”资源网、左-中-左资源网和右-中-右资源网共享权重。在输入模型之前,我们翻转了左-中-右和左-中-左图像,因此所有乳房图像都是向右的,允许共享的重网权重在相同的方向上对图像进行操作。每个ResNet的中间输出是一个高×宽×256维张量,其中从原始输入大小下采样高和宽,CC视图高=42,W=31,MLO视图高=47,W=28。我们对空间维度中的向量进行平均,以获得每个视图的256维隐藏向量。

作为参考,我们在表2中显示了每层ResNet-22之后的中间向量的维数。将标准Resnets应用于乳房x线照相术的主要原因是它需要以非常高的分辨率处理图像,并且它不需要在GPU的限制下执行下采样来适应正向处理和梯度计算。

b .辅助面片级分类模型和热图

图像的高分辨率以及GPU有限的内存限制了我们在使用全分辨率图像作为输入时在模型中使用相对较浅的resnet。为了进一步利用乳腺x光图像中的细粒度细节,我们训练了一个辅助模型对256×256像素的乳腺x光图像进行分类,并预测给定斑块中是否存在恶性和良性病变。

这些贴片的标签由临床医生手动绘制。我们称这种模型为面片级模型,它不同于前一节中描述的对整个乳房图像进行操作的乳房级模型。

我们用辅助网络以滑动窗口的方式扫描全分辨率乳腺x光图像,以创建每个图像的两个热图(图6是一个例子),一个代表每个像素的恶性病变概率,另一个代表每个像素的良性病变概率。总共,我们获得了八个额外的图像:Xm R-CC,xmr-cc,xmr-cc,Xm R-MLO,xmr-mlo,xmr-mlo,xmr-mlo,xmr-mlo,Xmr-MLO。这些斑块分类热图可用作乳腺水平模型的附加输入通道,以提供补充的细粒度信息。

B. BI-RADS分类预训练

由于我们的数据集中活检相对较少,我们应用迁移学习来提高模型的鲁棒性和性能。转移学习将在另一项任务中预先训练的模型的一部分作为训练目标模型的起点。

对于我们的模型,我们从BI-RADS分类任务的预培训网络中迁移和学习。我们正在考虑的三个BI-RADS类别是:0类(“异常”)、1类(“正常”)和2类(“良性”)。一些研究解释了提取这些标签的算法。尽管这些标记比活检结果更有噪声(这是临床医生基于乳房x线照片的评估,而不是通过活检获得的信息),但我们有超过个BI-RADS标记的训练示例,而训练集中确认了4844个活检。

神经网络已被证明能够达到合理的性能水平,即使在使用噪声标签进行训练时。使用这个特性,我们将把从BI-RADS标签中学习到的信息移植到癌症分类模型中。我们的实验表明BI-RADS分类预训练网络对我们的模型性能有重要贡献(见第五章)。BI-RADS预训练网络结构如图7所示。

实验过程

在所有实验中,我们使用训练集来调整模型参数和验证集,以优化模型和训练过程的超级参数。除非另有说明,结果是通过筛选人群来计算的。为了进一步改进我们的结果,我们使用模型集成技术对几个不同模型的预测进行平均,以生成集成的整体预测。

在我们的实验中,我们为每个模型训练了五个副本,并随机初始化了整个连接层中的权重,而剩余的权重是使用BI-RADS分类中预先训练的模型的权重初始化的。

a .测试总体

在下面的实验中,我们在几个不同的总体上评估了我们的模型,以测试不同的假设:(1)筛选总体,包括测试集中的所有检查,不进行二次抽样;㈡活组织检查分组,它是筛查人群的一个子集,仅包括接受活组织检查的乳腺筛查人群的检查;㈢读取研究亚群,包括活检亚群和从筛查人群中随机取样的亚群,但未发现任何病变。

b .评价指标

我们主要评估了基于曲线下面积的乳腺恶性/非恶性和良性/非良性分类任务模型的性能。图像的阅读研究模型和读者分类结果根据评价放射科医师结果的常用指标AUC和PRAUC进行评价。ROC和PRAUC代表预测模型不同方面的性能。

c .筛查人群

本部分是筛查人群的结果。不同模型的结果如表3所示。总的来说,四种模型的AUC都很高,并且基本相等。“视图式”图像和热图集成模型在结构上与预训练阶段使用的BI-RADS模型最相似,在预测恶性/非恶性方面表现最佳,筛查人群的AUC为0.895,活检人群的AUC为0.850。

然而,就良性/非良性预测而言,其他模型确实优于“视图式”集成模型。只有图像输入的四种模型的性能大致相同,低于图像和热图模型。在恶性/非恶性分类中,图像和热图模型优于良性/非良性分类。

我们还发现整合在所有模型中都是有益的,这使得AUC小而稳定。在整合了

image-and-heatmaps模型的四个变量模型后,筛查人群中良性/非良性预测任务的AUC为0.778,恶性/非恶性预测的AUC为0.899。尽管这种性能优于任何单一模型,但在实践中运行由20个独立模型组成的大规模集成将非常昂贵。

D活检亚组

我们在表3右半部分显示了活检人群中模型的评估结果。我们的测试组有401个乳腺,其中339个乳腺有良性发现,45个乳腺有恶性发现,17个乳腺两者都有。活检亚群不同于一般筛查人群,后者主要是健康个体。他们每年都必须接受常规筛查,不需要任何其他成像或活检。与筛查人群的结果相比,活检人群中所有模型的AUC明显较低。

在活检分组中,我们观察到纯图像模型和图像和热图模型之间的一致性差异。图像和热图集成模型在恶性/非恶性分类中表现最佳,AUC达到0.850,在良性/非良性分类中也表现最佳,AUC达到0.696。与筛查人群相比,活检亚组获得的AUC明显较低,这可以解释为需要进一步影像检查和活检的乳腺图像对放射科医生和我们的模型都具有挑战性。

e . BI-RADS预训练的重要性

我们通过比较我们的模型与未使用BI-RADS预训练模型的权重而训练的癌症分类模型的性能来评估BI-RADS预训练的益处。结果如表3所示(标有*)。

Film Reading Research

为了比较我们的图像和热图集成模型(以下简称模型)与放射科医师的性能,我们对14名医师进行了一项胶片阅读研究,其中包括12名具有不同经验水平(2至25年)的放射科医师、一名住院医师和一名医科学生,他们从测试集(1480个乳腺)中读取了740项检查:从活检亚群中随机选择了368项检查,从与活检不匹配的检查中随机选择了372项检查。医生被要求以0%-100%的比率提供每个乳房恶性肿瘤的概率估计。

由于一些乳腺包含多个可疑的发现,医生需要评估他们认为最可疑的病变。我们模型的AUC为0.876,PRAUC为0.318。医生的AUC范围从0.705到0.860(平均值:0.778,标准值:0.0435),PRAUCs范围从0.244到0.453(平均值:0.364,标准偏差:0.0496)。图8(a)和8(c)显示了单个ROC和精确回忆曲线及其平均值。

我们还评估了人机混合模型的准确性,它的预测是基于放射学家和模型预测的线性组合。混合模型的平均AUC为0.891(标准偏差:0.0109),平均PRAUC为0.431(标准偏差:0.0332)(见图8(b),图8(d))。

这些结果表明,我们的模型可以用作帮助放射科医生阅读乳腺癌筛查测试的工具,并且与有经验的乳腺放射科医生相比,它提供了关于任务不同方面的信息。在补充材料的第一章第一节中,可以找到一个定性分析来比较模型和放射科医师的模型

通过使用带有乳腺水平和像素水平标签的大型训练集,我们构建了一个能够准确地对乳腺癌乳房x线照相术进行分类的神经网络。我们将这一成功归因于封装在补丁级模型中的大量计算,这些计算被应用于输入图像以形成热图作为乳房级模型的附加输入通道。不可能使用当前可用的硬件以端到端的方式训练该模型。

虽然我们的结果令人满意,但我们实验中使用的测试集相对较小,结果需要进一步的临床验证。

此外,尽管我们的模型在电影阅读和研究的特定任务上比放射科医生表现得更好,放射科医生做得更多。在正常情况下,乳房x线照相术只是诊断过程的第一步,放射科医师只有在与其他成像部门结合后才能做出最终决定。

然而,在我们的研究中,神经网络和放射科医师的混合模型分别优于两种模型,这表明使用这种模型可以提高放射科医师对乳腺癌检测的灵敏度。

另一方面,我们的模型设计相对简单,我们希望进一步研究更加复杂和准确的模型。除了在临床试验中测试该模型在阅读乳房x线照相术中的有效性之外,下一个明确的目标是甚至在放射科医师能够看到病变之前预测乳腺癌的发展。雷锋网雷锋网重返搜狐看更多



黎平门户网 版权所有© www.burgers-online.com 技术支持:黎平门户网 | 网站地图