对付年夜夫是如何培养出来的,我们都有些大致的观点:多年的教室学习,堆积如山的教科书和学术期刊,还有无数个小时的演习经历。

AI学医的办法则不是那么直不雅观。

环绕算法是如何学习这些模式的,以及这种技能中可能存在的陷阱,我们联手医学AI初创企业MD.ai联合创始人利奥·陈(Leo Chen),以及放射科年夜夫卢克·奥克登-雷纳(Luke Oakden-Rayner)演习了两个算法,让它跟医学专业人士一较高下。
个中一个算法检测肿瘤性结节,另一个则评估其为恶性肿瘤的可能性。

医用AI的开拓常日是繁芜的模式匹配:一个算法浏览无数器官扫描图像,包括有肿瘤的和没有肿瘤的,学着区分这两个种别。

20分钟浏览5万张图2小时学会若何检测癌症AI是这样学医的

我们给算法馈送了近20万张CT扫描图像,包括2D和3D图像,个中有恶性肿瘤、良性肿瘤,也有不存在肿瘤的图像。
为丈量算法的准确程度,我们采取了“召回率”指标,跟年夜夫们所用的办法相同。
它丈量的是给定虚警数量的情形下,算法对结节的检出率。
比如,“60%召回@1”的意思是:在每张图像许可一个虚警的情形下,它能精确检出60%的肿瘤。
对付另一个检测恶性肿瘤的算法,表示准确率的指标相对大略:精确检出的恶性结节的百分比。

从理论上讲,这个虚警数字的高低是可以调节的,但会影响到结节的检出率。
比如,若每准确检出一个结节,我们都许可涌现4个虚警,那么,结节的检出率就会增加。
在现实利用中,虚警率越高,病人接管的不必要检讨就越多。
但对付算法的敏感度,每个年夜夫所能接管的水平不尽相同,有的看重准确率,有的着重降落虚警率,详细视年夜家的事情流程而定。

红圈中的白点是一个小的结节。
别的白点都不是结节。

演习完成度:0%;

阅览图片数:0;

耗时:00:00:00

机器

结节检出率:0.00% @Recall

恶性检出率:0.00% @Recall

放射科年夜夫:AI系统要学会两种技能——检测肺部结节,并判断哪些可能为恶性。

检测:结节是一种很小的组织,正常情形下一样平常不存在于肺部。
探求结节是经典的“大海捞针”型问题。
这是由于,结节常日很小,乍一看去,很多构造都与之类似,比如血管和疤痕。
恶性肿瘤检测:放射科年夜夫借助一系列特点,判断哪些结节可能为恶性肿瘤。
最常用的是弗莱施纳判断标准,只考虑结节的大小和数量,以及吸烟等风险成分。
其他系统更加繁芜,包括了形状和结节涌现的位置。

演习完成度:25%;

阅览图片数:0;

耗时:00:00:00

机器

结节检出率:46.40% @Recall1

恶性检出率:46.32% @Recall1

放射科年夜夫:这个时候,AI对结节一无所知。
常日,它会标记一个血管,不能肯定其是否为结节,但疑惑可能是恶性肿瘤。
但实际上,恶性肿瘤只涌现于结节中,以是上述结果自相抵牾。

而人类就会知道,这既然不是结节,自然也不会是恶性肿瘤,由于它存在分岔,明显属于血管。

演习进行到一半,AI系统认为,大肠肠壁上的这一褶皱可能为肺部结节。

演习完成度:50%;

阅览图片数:95,166;

耗时:00:36:39

机器

结节检出率:59.80% @Recall1

恶性检出率:68.71% @Recall1

放射科年夜夫:到这个时候,AI在检测大型结节(直径超过1cm的结节)时,已经能相称肯定。
但它仍没有学到一些大略的教训。
比如,在完备正常的肺部,乃至在肠道部位,它都会比较肯定地检测出“肺部”结节。
这揭示呈现代AI的一个特点:知识的彻底缺失落。
三岁小孩都知道胸和腹的差异,但AI就只会探求“类似结节”的模式,而不知腹部为何物。

AI系统开始知道,在肺部的边缘,这种小疙瘩险些可以肯定不是恶性肿瘤。

演习完成度:75%;

阅览图片数:142,749;

耗时:00:55:29

机器

结节检出率:64.30% @Recall1

恶性检出率:76.38% @Recall1

放射科年夜夫:到这时,AI逐渐摸着了门道。
它高度肯定为结节的点,险些全部都为结节。
纵然它不太肯定的点也都是“类似结节”。
有一项任务纵然对人类而言也较为困难,那便是区分结节和先前传染留下的疤。
一样平常而言,肺部最边缘的眇小结节总是良性的,可以忽略。
这个时候,AI系统已经很善于于此。
它并不愿定这些东西是结节(实际并不是),并能肯定它们不是恶性肿瘤。

AI认为,红圈内的点是一个结节,但不属于恶性肿瘤;而白圈内的大型结节肯定为恶性肿瘤。

演习完成度:100%;

阅览图片数:190,332;

耗时:00:55:29

机器

结节检出率:67.90% @Recall1

恶性检出率:82.82% @Recall1

放射科年夜夫:演习完成后,模型的表现已经相称不错。
只就极其肯定的预测而言,大部分可疑的大型结节都被检测了出来。

正如我们所希望的那样,模型险些100%肯定:这些大型结节是恶性肿瘤。
放射科年夜夫绝对会把它们当恶性肿瘤看待,直到该可能性被打消。
AI系统也同样“操心”。

而在AI不太肯定的预测中,一种有趣的模式开始呈现:对付肺部“类似结节”的点,AI系统不愿定其为结节,但肯定它们不是恶性肿瘤。
在很多情形下,AI比较肯定那是结节,但100%肯定它是良性的。
虽然,人类从一开始就不会管那些构造叫做“结节”,但对病人来说,终极答案是一样的。

AI系统十分肯定地认为,红圈内的点是一个结节,但险些可以肯定它并非恶性肿瘤。
放射科年夜夫赞许这一判断;详细而言,它处在肺部边缘,且位于大动脉后面,比较让人放心。
另一方面,图片顶部的大型结节(白圈内)险些肯定是恶性肿瘤;AI系统得出了相同的判断。

AI系统还学会了一个比较棘手的问题:钙化结节险些肯定是良性的,但在数据集中,这类结节并不多见,因此,AI系统很难节制这个知识点。
对人类而言,这太随意马虎了,只要认得“钙化”就行了。
一旦知道要找什么,我们乃至都不用练习,一上手就能找到精确答案。

AI系统无法理解“钙化”的观点,只能通过学习,判断某种图像模式属于良性。
比如在这个项目中,钙化结节的密度比非钙化结节的密度大(在图中显得更亮)。
见多了这种结节,并知道它们从来不是恶性肿瘤,AI就节制了这种模式。

有一种特定的结节较难判断,由于它是钙化的,同时又很大(体积较大是恶性肿瘤的有力指标)。
起初,AI认为,它们绝对是恶性肿瘤,在接管了5万张图的演习之后,它依然这样认为。
但演习到10万张图的时候,它已经能100%确定,这种结节是良性的,由于它创造,关键要看密度。

红圈内的结节密度很大(在图中显得很亮),白圈内的结节密度较小(呈灰色)。
前者是良性钙化结节,而后者险些肯定是恶性肿瘤。

结论

AI表现非常之好,不过尚未企及放射科年夜夫的水平。

这紧张是由于数据集不足大,CT扫描图像不敷1000张。
科技公司或医院开拓的类似系统会利用几千乃至几万张图像。
我们采取的是一个免费数据集,而IBM等公司不惜斥资几十亿美元,收购企业及其演习数据,便是为了这些。
更加多样化的演习绝对对它有利。
有了足够多的数据,它将能媲美人类表现。

该项目凸显了人类与当代AI系统的紧张差异。
人类很善于学习,由于已有的知识充当了脚手架。
以钙化结节为例。
人类一学就会,由于相对付非钙化结节,钙化结节密度更大(在图片中显得更亮)。
“密度很大的结节是钙化结节,因而是良性的。
”只要这么一说,你就明白了,乃至不用练习,你就能得出精确答案。

然而,AI系统没有吸纳知识的路子;它无法理解“钙化”这一观点,也不知道钙化结节是良性的,因此,就须要通过无数例子,构建出这种认知。
在本项目中,它就借助5万张图片,学会了一条人类一点就通的知识。

但另一方面,AI系统获取履历的速率也很快。
它浏览5万张图只用了不到20分钟,而人类可能要花数年。
因此,对付更加繁芜的决定,当履历比知识更加宝贵时,AI系统就有望胜人一筹。

翻译:雁行

编辑:李莉

来源:QUARTZ

造就:剧院式演讲,创造创造力

更多精彩内容,敬请点击蓝字“理解更多”。