2020年的第一天,谷歌就在医疗领域曝出了一个大新闻:谷歌康健部门联手DeepMind在顶尖学术期刊《Nature》上发布人工智能乳腺癌检测系统。
这个别系的核心亮点是,与之前的模型比较,该模型有效减少了乳腺癌被缺点识别或遗漏的情形,将乳腺癌检测的假阳性率降落了5.7%,假阴性率也降落了9.4%。
作者称,该系统检测乳腺癌的能力超过专业放射科年夜夫,或有助提高乳腺癌筛查的准确性和效率。
但是过了一天之后,深度学习“三巨子”之一的LeCun就对这项成果开炮。雷锋网AI掘金志对此事也进行了宣布:《刚过一天就被拆台?LeCun公开质疑谷歌《Nature》的乳腺癌AI研究成果》
他表示,谷歌这篇论文的结果,纽约大学的团队在2019年10月就已经做过了,谷歌应该引用纽约大学的研究,由于这个研究效果还更好。
效果有多好?谷歌论文AI系统中的AUC是0.889(UK)和0.8107(US),纽约大学的AUC达到了0.895。
其余一位学者Hugh Harvey也为LeCun打call。他表示,谷歌的研究中包含了6名放射科年夜夫,而NYU的研究则用了14名。
环绕这一次小小的学术“风波”,雷锋网AI掘金志学术组对纽约大学的这篇论文进行了编译和编辑,看看这篇“先人一步”的论文有何可取之处?
以下为论文详细内容,关注AI掘金志公众年夜众号,在对话框回答关键词“纽约大学”,即可获取原文PDF。
择要
我们提出了一个用于乳腺癌筛查检讨分类的深度卷积神经网络,基于超过200000个乳腺检讨(超过1000000个图像)上进行演习和评估。对人群进行筛查检测时,我们的网络在预测乳腺癌存在方面的AUC达到0.895。
我们把高准确率归因于以下技能进步:
一、网络创新性地分为两个不同阶段的架构和演习过程,我们在利用高容量patch-level网络从pixel-level标签学习的同时,设置另一个网络从整体长进修乳房级标签。
二、基于ResNet的自定义网络,用作我们模型的构建块,其深度和宽度方面的平衡针对高分辨率医学图像进行了优化。
三、在BI-RADS分类上对网络进行预演习,这是一项标签噪音较大的干系任务。
四、在许多可能的选择中以最佳办法组合多个输入视图。为了验证我们的模型,我们组织14位放射科医师进行了阅片,每位医师查看720份乳腺钼靶筛查图像。结果表明,我们的模型与有履历的放射科年夜夫的判断结果一样准确。
此外,将放射科年夜夫对恶性肿瘤的判断结果和我们神经网络的预测结果均匀起来的稠浊模型更加准确。我们将模型在以下网址公开拓布:
https://github.com/nyukat/breast_cancer_classifier
先容
乳腺癌是美国女性第二大癌症干系去世亡缘故原由。2014年,美国进行了3900多万次筛查和乳腺钼靶诊断检讨。据估计,在2015有232000名妇女被诊断为乳腺癌,约有40000人去世于乳腺癌。
只管乳腺钼靶是唯一一种可以降落乳腺癌去世亡率的影像学检讨方法,但大家一贯在谈论该筛查的潜在危害,包括假阳性和假阳性导致的活检。10-15%的女性在做了未确定的乳房X光检讨后被哀求再次接管检讨和/或超声波检讨以进一步明确。经由额外的影像检讨后,许多女性被确定为良性,只有10-20%被推举接管针活检。个中,只有20-40%的人诊断出癌症。
显然,我们还须要让常规乳腺癌筛查更加准确,并减少对女性身体的侵害。
只管多中央研究表明,传统打算机赞助诊断程序并不能提高诊断效果,但放射科年夜夫还是会利用它来帮助图像判读。深度学习的发展,特殊是深卷积神经网络(CNN)为创建新一代类似CAD的工具供应了可能性。
本文的目标是研发神经网络以帮助放射科年夜夫判读乳腺癌筛查图像。
(i) 我们提出了一种新的两阶段神经网络,将全局和局部信息结合起来,并采取适当的演习方法。这使得我们可以利用一个非常高容量的patch-level网络来学习pixel-level标签,同时利用另一个网络来从整体长进修乳房级标签。
通过这种策略,我们的模型不仅实现了与人类相称的竞争成绩,同时产生可阐明的热图,显示可疑创造的位置。此外,我们还证明了像素级标签的实用性,纵然在我们有很多图像级标签的情形下也是如此。
(ii)我们证明了利用超过1000000张高分辨率乳腺X线拍照图像(这是医学成像中的一个非常大的数据集,不仅仅是用于乳腺癌筛查)来演习和评估该网络的可行性。这对付未来的研究设计以及展示这种方法的观点和代价都具有主要代价。
(iii)我们提出了专门为医学成像设计的ResNet的新变体,用作我们网络的构建块,它在深度和宽度上做了平衡,许可模型处理非常大的图像,同时保持合理的内存花费。
(iv)我们评估了利用具有更高噪声的干系任务( BI-RADS分类)对网络进行预演习的效用,并创造它是管道中一个非常主要的部分,显著提高了我们模型的性能。这在大多数数据集都很小的医学影像研究中特殊主要。
(v) 我们评估了在单一的神经网络中结合来自不同乳腺拍照视图的多种方法。我们未创造以前有过这样的剖析,只管医学成像任务常日有多个输入。
数据
我们的回顾性研究得到了机构审查委员会的批准,符合《医疗保险可携带性和任务法案》。这个数据集是我们早期事情中利用的数据集的更大、更仔细的版本。
数据集包括来自141473名患者的229426份数字乳腺拍照筛查(1001093张图像)。每次检讨至少包含4张图像,与乳房X光拍照中利用的4个标准视图相对应:R-CC、L-CC、R-MLO和L-MLO。数据集中的图像来自四种类型扫描器:Mammomat Inspiration(22.81%)、Mammomat Novation DR (12.65%)、Lorad Selenia(40.92%)和Selenia Dimensions (23.62%),图1显示了一些检讨示例。
【图一】
我们依赖活检的病理报告,来标记患者的每个乳房是否有恶性或良性创造。我们有5832个检讨在进行乳腺X片筛查的120天内至少完成一次活检。个中活检证明985例(8.4%)为恶性,5556例(47.6%)为良性,234例(2.0%)乳腺同时有良恶性征象。
对付所有与活检相匹配的检讨,我们哀求一组放射科年夜夫回顾性地指出活检病灶在像素级别的位置(供应相应的病理报告)。
我们创造大约32.8%的检讨是隐匿性的,也便是说,活检的病灶在乳腺钼靶拍照中是不可见的,利用其他成像办法识别(超声或MRI)被识别。详见表一。
【表一】
肿瘤分类深度CNN网络
一些乳腺同时包含恶性和良性病灶,我们利用多任务分类模型将乳腺癌筛查分类。也便是说,对付每一个乳腺,我们分配两个二元标签:乳房中有/没有恶性创造(表示为yR,m和yL,m),乳房中有/没有良性创造(表示为yR,b和yL,b)。旁边乳腺加起来,每个检讨共有4个标签。我们的目标是天生四个对应于每个标签的预测(用ˆyR,m,ˆyL,m,ˆyR,b和ˆyL,b表示)。
虽然我们紧张对预测恶性病灶的存在与否感兴趣,但预测良性病灶的存在与否对付赞助调度模型学习任务起着重要的浸染。我们将四个高分辨率图像,对应于四个标准乳腺钼靶拍照视图作为输入(由xR-CC、xL-CC、xR-MLO和xL-MLO表示)。
对付CC视图,我们将每个图像裁剪为固定大小的2677×1942像素,对付MLO视图,裁剪为2974×1748像素。有关示意图,请拜会图3。
【图三】
模型构造和演习
我们受Geras等人先前事情的启示,对图5所示的四种不同构造的多视图CNN进行了演习。所有这些网络都由两个核心模块组成:(i)四个特定于视图的列,每个列基于ResNet体系构造,该构造为每个乳腺拍照视图输出固定维度的隐蔽层向量表示;(ii)两个全连接层,将打算出的隐蔽层向量映射到输出预测。这些模型在如何聚合来自所有视图的中间层以天生终极预测的办法有所不同。
我们考虑了以下4种办法。
【图5】
1) ‘view-wise’模型(图5(a))分别将L-CC和R-CC、L-MLO和R-MLO连接起来。它对CC和MLO视图进行单独的预测,末了将相应的预测取均匀值。
2) ‘image-wise’模型(图5(b))独立地对四个视图中的每一个进行预测。相应的预测末了取均匀值。
3) ‘side-wise’模型(图5(c))首先连接L-CC和L-MLO,以及R-CC和R-MLO,然后分别对每侧乳腺进行预测。
4) ‘joint’模型(图5(d))连接所有四个视图,共同预测两个乳房的恶性和良性概率。
在所有模型中,我们利用四个基于ResNet的22层网络(ResNet-22)作为中间层,打算每个视图的256维隐蔽层向量。与标准ResNets比较,该网络具有不同的深度和宽度比例,可用于分辨率非常高的图像。
我们创造“view”模型在验证集上预测恶性/非恶性是最精确的。除非另有解释,否则我们接下来说的都是该模型的结果。
【图4】
A.单个ResNet-22
ResNet-22的完全架构如图4所示。L-CC和R-CC ResNets、L-MLO和R-MLO ResNets共享权重。我们在输入模型之前翻转了L-CC和L-MLO图像,因此所有乳房图像都是右向的,许可共享的ResNet权重在相同方向的图像上操作。每个ResNet的中间输出是H×W×256维张量,个中H和W从原始输入大小下采样,CC视图H=42,W=31,MLO视图的H=47,W=28。我们在空间维度上对向量进行均匀,以得到每个视图的256维隐蔽向量。
作为参考,我们在表2中显示了ResNet-22的每一层后中间向量的维度。将标准Resnets运用于乳房X光拍照的紧张缘故原由是须要处理分辨率非常高的图像,而不须要在GPU限定下进行下采样来拟合前向过程及梯度打算。
【表2】
B. 赞助patch-level 分类模型及热图
图像的高分辨率和GPU的有限内存,限定了我们在利用全分辨率图像作为输入时在模型中利用相对较浅的resnet。为了进一步利用乳腺X线照片中细粒度的细节,我们演习了一个赞助模型来对256×256像素的乳腺X线图片进行分类,预测在给定的patch中是否存在恶性和良性的病灶。
这些patch的标签是由临床年夜夫手动勾画的。我们将此模型称为patch-level模型,与上面一节中描述的对全体乳房图像进行操作的breast-level模型不同。
我们将该赞助网络以滑动窗口办法扫描全分辨率乳房X片图像,以创建每张图像的两张热图(图6为一个示例),一张代表每个像素恶性病变概率,另一张代表每个像素良性病变概率。统共,我们得到了八个附加图像:Xm R-CC、Xb R-CC、Xm L-CC、Xb L-CC、Xm R-MLO、Xb R-MLO、Xm L-MLO、Xb L-MLO。这些补丁分类热图可以用作乳腺级别模型的附加输入通道,以供应补充的细粒度信息。
【图6】
C. BI-RADS分类预演习
由于我们数据集中有活检的检讨相对较少,我们运用迁移学习来提高模型的稳健性和性能。迁移学习重用在另一个任务上预先演习的模型的一部分作为演习目标模型的出发点。
对付我们的模型,我们从BI-RADS分类任务的预演习网络中迁移学习。我们考虑的三个BI-RADS类是:种别0(“不正常”),种别1(“正常”)和种别2(“良性”)。一些研究阐明了用于提取这些标签的算法。只管这些标签比活检结果噪声更多(是临床年夜夫根据乳房X光片进行的评估,而不是通过活检得到信息),但与演习集中经活检证明的4844次检讨比较,我们有99528多个BI-RADS标签的演习示例。
神经网络已经被证明,纵然是在利用噪声标签进行演习时,也能够达到合理的性能水平。我们利用这个特点将用BI-RADS标签学习到的信息迁移到癌症分类模型。我们的实验表明,BI-RADS分类预演习网络对我们模型性能有显著的贡献(见第V-E节)。BI-RADS预演习网络构造如图7所示。
【图7】
实验过程
在所有的实验中,我们利用演习集来调度我们的模型参数,利用验证集来优化模型和演习过程的超参数。除非另有解释,否则均是筛选人群的打算结果。为了进一步改进我们的结果,我们采取了模型集成技能,对几个不同模型的预测进行均匀,以产生集成的总体预测。
在我们的实验中,我们针对每个模型演习了五个副本,在全连接层中对权重进行了不同的随机初始化,而剩余的权重则利用BI-RADS分类中预先演习的模型的权重进行初始化。
A. 测试人群
不才面的实验中,我们在几个不同群体上评估我们的模型,以测试不同的假设:
(i)筛查人群,包括来自测试集的所有检讨,不进行亚抽样
(ii)活检亚群,这是筛查人群的子集,仅包括接管活检的乳腺筛查人群的检讨
(iii)阅片研究亚群,包括活检亚群和未创造任何病灶的筛查人群随机抽样的子集
B. 评价指标
我们紧张根据AUC(ROC曲线下的面积)评估我们的模型对乳腺恶性/非恶性和良性/非良性分类任务的性能。阅片研究模型和阅片者对图像的分类成绩是根据AUC和PRAUC来评估的,这两个是评估放射科年夜夫成绩的常用指标,ROC和PRAUC代表预测模型不同方面的性能。
C. 筛查人群
本节为筛选人群的结果,不同模型的结果如表3所示。总体而言,四个模型的AUC都较高且基本持平。‘view-wise’image-and-heatmaps集成模型在构造上与预演习阶段利用的BI-RADS模型最为相似,在预测恶性/非恶性方面表现最佳,在筛查人群的AUC为0.895,活检人群的AUC为0.850。
然而在良性/非良性预测方面,其他一些模型确实优于‘view-wise’集成模型。仅有图像输入的四种模型表现大致相称,低于image-and-heatmaps模型。在恶性/非恶性分类中,image-and-heatmaps模型比良性/非良性分类有更强的改进。
我们还创造,ensembling在所有模型中都是有益的,这使得AUC的小而稳定的提升。
image-and-heatmaps模型的四个变体模型集成后,在筛查人群中对良性/非良性预测任务的AUC为0.778,恶性/非恶性预测的AUC为0.899。只管这种性能优于任何单独的模型,但在实践中运行这样一个由20个独立模型组成的大型集成体将非常昂贵。
D. 活检亚群
我们在表3的右半部分显示了模型在活检人群中的评估结果。我们的测试集有401个乳腺,个中339个有良性创造,45个有恶性创造,17个两者均有。活检亚群与总体筛查人群不同,总体筛查人群紧张是康健个体,他们每年都要进行常规筛查,而没有其他的影像学或活检。与筛查人群的结果比较,所有模型在活检人群的AUC明显较低。
在活检亚群中,我们不雅观察到image-only模型与image-and-heatmaps 模型之间的同等性差异。image-and-heatmaps集成模型在恶性/非恶性分类上表现最好,AUC达到0.850,在良性/非良性分类上表现同样最好,AUC达到0.696。与筛查人群比较,活检亚群得到的AUC明显较低,这可以阐明为,须要进一步影像学检讨和活检的乳腺图像对付放射科年夜夫和我们的模型均具有寻衅性。
E. BI-RADS预演习的主要性
我们通过将我们的模型与未利用BI-RADS预演习模型的权重而演习的癌症分类模型的性能比较较,来评价BI-RADS预演习的益处,结果见表三(用标记)。
【表三】
阅片研究
为了将我们的image-and-heatmaps集成模型(以下简称模型)的性能与放射科年夜夫进行比较,我们对14名医师进行了一项阅片研究,个中有12名具有不同履历水平的放射科年夜夫(2至25年),一名住院年夜夫和一名医科学生,分别从测试集(1480个乳腺)中阅读740份检讨:368份从活检亚群中随机选择的检讨,372份从与活检不匹配的检讨中随机选择的检讨。医师被哀求以0%-100%的比例为每个乳房供应恶性肿瘤的概率估计。
由于一些乳腺含有多个可疑的创造,医师被哀求对他们认为最可疑的病灶进行评估。我们模型的AUC为0.876,PRAUC为0.318。医师的AUC从0.705到0.860不等(均匀值:0.778,标准值:0.0435),PRAUCs从0.244到0.453不等(均匀值:0.364,标准差:0.0496)。图8(a)和图8(c)示出了单个ROC和precision-recall 曲线及其均匀值。
我们还评估了人机稠浊模型的准确性,其预测是基于放射科年夜夫和模型预测的线性组合。稠浊模型均匀AUC为0.891(标准差:0.0109),均匀PRAUC为0.431(标准差:0.0332)(拜会图8(b),图8(d))。
这些结果表明,我们的模型可以作为一个工具来帮助放射科年夜夫阅读乳腺癌筛查检讨,并且与有履历的乳腺放射科年夜夫比较,它供应了任务不同方面的信息。在补充材料的I-G-1节中可以找到一个定性剖析,比较模型和放射科年夜夫对特定检讨的预测结果。
【图8(b)】
【图8(d)】
结论和谈论
通过利用一个带有breast-level和 pixel-level标签的大型演习集,我们构建了一个能够准确分类乳腺癌钼靶检讨的神经网络。我们将这一成功归因于patch-level 模型中封装的大量打算,该模型被运用于输入图像,以形成热图作为breast-level 模型的附加输入通道。利用当前可用的硬件完备以端到真个办法演习此模型是不可能的。
虽然我们的结果令人满意,但我们实验中利用的测试集相对较小,结果须要进一步的临床验证。
此外,只管我们的模型在阅片研究特界说务上的性能比放射科年夜夫的强,但是放射科年夜夫实行的任务不仅仅于此。常日情形下,乳房X光拍照只是诊断流程中的第一步,放射科年夜夫结合其他影像科检讨后,才能做出终极的决定。
然而,在我们的研究中神经网络和放射科年夜夫的稠浊模型分别优于这两个模型,这表明利用这种模型可以提高放射科年夜夫对乳腺癌检测的敏感性。
另一方面,我们的模型设计相对大略,有希望进一步研究更繁芜和精确的模型。除了测试该模型在临床试验中阅读乳房钼靶的效用外,下一个明确的目标是预测乳腺癌的发展——乃至在放射科医师可以看到病灶之前。