加州大学伯克利分校打算机科学博士生、论文作者Dan Hendrycks供应了一组连最强大的视觉AI也无法准确识别的图片。这些照片都经由精心挑选,专门用来“欺骗”图像识别技能,来自一套专门的数据集,个中的7000张照片由加州大学伯克利分校、华盛顿大学以及芝加哥大学的研究职员们共同整理完成。
这解释目前的(机器学习)模型还不足完善。虽然已经有不少研究考试测验利用人工数据提升模型的能力,但我们创造,这些模型在面对某些真实数据(来自真实照片)时每每会涌现严重且高度同等的缺点判断。
过去几年以来,图像识别工具已经变得越来越好,识别速率也越来越快。这在很大程度上要归功于斯坦福大学创建的,并且其规模仍在持续拓展的开放数据集ImageNet。这个弘大的数据库成为人工智能主要的演习素材凑集,也可以作为新AI系统的参考基准,用于演习系统进行图像识别。
然而,办理这末了5%的准确度缺口是个巨大的寻衅。正由于如此,研究职员们才考试测验探索个中的缘故原由——即打算机为什么无法解析某些特定图像。通过这套新的图像凑集,研究职员们以手工办法搜索Flickr,探求可能会令AI软件陷入混乱的照片,将其添加到这套名为ImageNet-A的新数据集内。这个数据集中,天下上最前辈的视觉AI模型确实无法精确识别个中98%的照片。
构建ImageNet-A数据集,正是为了“欺骗”AI。利用ImageNet-A,研究职员们成功从视觉AI当中找到7000个盲点。但大略将更多照片添加到机器学习数据集当中,无法办理AI模型在逻辑层面的核心毛病。如何办理这末了5%的准确性空缺?则须要在当代机器学习范围之外开拓出新的方法,从而创建起更加繁芜的AI系统。而这将会是一个艰辛而漫长的过程。