目前,该 AI 系统已被用于更新微软为视障人士设计的助手运用程序“Seeing AI”,并将很快被整合到 Word、Outlook 和 PowerPoint 等微软其他产品中。届时,它将用于为图像创建替代文本(alt-text)之类的任务。这个功能对付提高可访问性特殊主要。
图|开拓职员 Florian beijingers 正在利用“Seeing AI”,微软图片注释算法将被用于改进该类运用。(来源: 微软 / Maurice Jager)
微软人工智能团队的软件工程经理 Saqib Shaikh 在一份新闻声明中说:“空想情形下,所有人都该当为文件、网络和社交媒体中的图片添加替代文本,只有这样,才能使盲人能够理解详细内容并参与对话。但是,现在人们并没有做到这一点。以是,我们急迫须要一些运用程序来为图片添加替代文本。”
新算法性能是之前的两倍这些运用程序包括微软在 2017 岁首年月次发布的 Seeing AI。它利用打算机视觉技能,通过智好手机摄像头为视障人士描述天下。它不仅能识别家用物品、描述场景,还能扫描文本或帮助阅读,乃至能识别朋友。它还可以用于描述其他运用程序中的图片,例如电子邮件、社交媒体等。
微软没有透露利用 Seeing AI 的用户数量,但 Azure AI 公司副总裁埃里克 · 博伊德(Eric Boyd)在采访中表示,这款软件是“为盲人或弱视人士供应的前辈运用之一”。Seeing AI 已经连续三年被盲人和弱视人士 iOS 用户社区 AppleVis 评为最佳赞助运用。
微软的新图像注释算法将显著提高 Seeing AI 的性能,由于它不仅能够识别物体,还能更精确地描述它们之间的关系。因此,算法可以在处理图片时,不仅知道个中包含哪些物品和工具(例如,一个人,一把椅子,一个手风琴”),还能知道它们是如何交互的(例如,“一个人坐在椅子上弹奏手风琴”)。微软表示,该算法性能比 2015 年开始利用的上一代算法好两倍。
微软团队在在 9 月份揭橥的一篇预印本论文中对该算法进行了描述,它在一项名为 “nocaps” 的图像注释基准测试中得到了有史以来的最高分数。“nocaps”是业内领先的图片注释测试,当然,它有自己的限定条件。
nocaps 基准测试由超过 16600 条人工天生的图片注释组成,这些注释描述了来自开放图像数据库的大约 15100 张图片。这些图片涵盖了一系列场景,从运动到度假,再到美食拍照等等。
研究职员测试了该算法为这些图片创建注释的能力,并与人工天生的图片注释做了比拟。
图 | 新算法创建的替代文本示例。(来源:微软)
但是,须要把稳的是,这次 nocaps 基准测试只涉及了繁芜图像注释一样平常任务中的一小部分图片。微软在一份新闻稿中声称,它的新算法“能像人一样描述图片”,事实上,只有在处理 nocaps 中一小部分图片时,它才达到了这些效果。
“性能在 nocaps 上超越人类,并不虞味着图像注释难题已经办理了”
正如 nocaps 基准测试的创建者之一 Harsh Agrawal 说的那样:“该算法性能在 nocaps 上超越人类,并不虞味着图片注释难题已经办理。”Argawal 指出,在 nocaps 上测试性能的指标“仅与人类大致干系”,而基准测试本身“仅涵盖所有可视化观点的一小部分”。
Argawal 认为,与大多数基准测试一样,nocaps 基准只能表示算法在任务中的性能的一个粗略指标,在 nocaps 上有超越人类的表现,并不虞味着 AI 系统在图像理解上超越人类。
浮夸 AI 的能力是现阶段科技公司的一个常见问题,由于在特定基准上的性能不敷以推断出在更普遍的根本任务上的性能。事实上,微软在过去也曾因对其算法理解笔墨的能力做出类似声明而受到研究职员的批评。
不过,近年来,由于人工智能的涌现,图片注释的任务已经有了巨大的改进,微软的算法无疑是最前辈的。除了被集成到 Word、Outlook 和 PowerPoint 中,这款配有图片注释的人工智能还将通过微软的云打算和人工智能平台 Azure 作为独立模型供应。