微软开源AI基准测试涵盖154项责任20分钟周全评估

编译 | 尹明顺编辑 | 漠影

智东西9月14日，据VentureBeat昨日宣布，微软公布了一项名为“Windows Agent Arena（WAA）”的首创性基准测试。
该测试用于在Windows操作环境中对AI Agent性能进行评估，旨在为AI Agent开拓提速。

该论文揭橥在arXiv.org上。
研究职员写道：“大措辞模型在AI Agent领域显示出巨大的潜力，能够在须要方案和推理的多模态任务中提升人类生产力和软件的可用性。
”同时还补充道：“然而，在真实环境中衡量AI Agent性能依然是一个寻衅。
”

论文链接：https://arxiv.org/pdf/2409.08264

微软开源AI基准测试涵盖154项责任20分钟周全评估

WAA的创新点在于，它能够在微软Azure云科技中的多个虚拟机上进行并行测试，在短短20分钟内就可完成全面的基准评估。

此外，微软还将多模态AI Agent Navi引入测试，以展示WAA的能力。
经考验，Navi在WAA测试中任务完成的成功率为19.5%，而人类的成功率是74.5%。

▲Windows Agent Arena（来源：Windows Agent Arena页面）

一、涵盖154项任务测试，全面基准评估时长缩短至20分钟

Windows Agent Arena供应了一个可复现测试环境，个中AI Agent与常见的Windows运用程序、网络浏览器和系统工具进行交互，仿照人类用户体验，继而帮助开拓者评估和优化AI Agent的能力。

微软的研究职员写道，在真实环境中测试Agent性能仍旧是一个寻衅，这是由于大多数基准测试仅限于特定模式或领域（例如，纯文本、Web导航、问答、编码）；其余鉴于任务的多步骤顺序性子，完全的基准评估很慢（大约几天韶光）。

WAA的一个关键创新是能够在微软Azure云科技中的多个虚拟机上进行并行测试。
论文阐明称：“我们的基准测试是可扩展的，可以在Azure中无缝并行处理，在短短20分钟内就可完成全面的基准评估。
”与传统可能须要数天的顺序测试比较，这极大地加快了AI Agent开拓周期。

该测试包含了154个不同任务，涵盖编辑文档和电子表格（LibreOffice Calc/Writer）、浏览互联网（微软Edge、Google Chrome）、Windows系统任务（文件资源管理器、设置）、编码（Visual Studio Code）、不雅观看视频（VLC播放器）和实用功能（记事本、时钟、画图）。

▲涵盖的测试详细任务显示（图源：Windows Agent Arena页面）

二、测试AI Agent任务成功率仅19.5%，远低于人类操作能力

Windows Agent Arena项目页面显示：“为了展示WAA的能力，我们还引入了一种新的多模态AI Agent Navi。
”

视频加载中...

▲Navi在Windows Agent Arena中面对一个范例的Windows任务：在Visual Studio Code中安装Pylance扩展。
这展示了如何演习AI Agent人在普通软件环境中导航（来源：微软研究院）

测试结果显示，Navi在WAA中的成功率为19.5%，而人类的成功率是74.5%。
这解释想开拓出能与人类打算机操作能力相仿的AI，还存在很大寻衅。

▲Navi在任务期间的推理过程和屏幕解析的分步示例（图源：Windows Agent Arena页面）

这项研究的紧张作者Rogerio Bonatti说：“Windows Agent Arena为实现AI Agent的打破，供应了一个现实而全面的环境。
同时，我们也希望通过AWW开源，来推进全体AI社区在这一关键领域的研究。
”

此外，微软对几种最前辈的视觉措辞模型Agent配置都进行了基准测试，创造与人类行为比较所有现有模型的性能都较低，并且模型之间性能也存在很大差异。

WAA的发布正值科技巨子之间竞争加剧之际，他们正在开拓功能更强大的AI Agent，以应对繁芜的打算机任务。

微软对Windows环境的关注可能会使其在企业场景中保持主导上风。

三、开拓AI Agent时需平衡创新和伦理

像Navi这样的AI Agent带来的潜在好处是显著的，但开拓此类技能也引发了主要的伦理考量。

随着AI Agent变得越来越繁芜，它们将更全面地访问用户的数字生活，可能会在各种运用程序中与用户的敏感个人信息、专业信息产生打仗。

AI Agent在Windows环境中具有自由操作的能力，比如访问文件、发送电子邮件或修正系统设置等等，这都显示出采纳强大的隐私保护方法的必要性。

在授予AI有效帮忙用户的能力与掩护用户隐私、掌握用户数字领域之间，须要找到一个奇妙的平衡点。

此外，随着AI Agent越来越能够模拟人类与打算机系统的交互，还涌现了有关透明度和问责制的问题。

当用户与AI交互时，特殊是在专业或者高风险场景中，可能须要被明确奉告，因此明确用户赞许协议也至关主要。

结语：开源WAA也需提升风险防控意识

微软开源了Windows Agent Arena，朝着提升协作开拓和审查技能迈出积极一步。

但与此同时，可能会有人利用该测试去开拓具有恶意的AI Agent，这意味着人们须要对此领域保持必要当心和监管。

随着WAA为开拓功能更强大的AI Agent加速，研究职员、伦理学家、政策制订者和"大众就这些技能的影响进行持续谈论，将至关主要。

来源：VentureBeat、Windows Agent Arena页面

每期AI知识网

微软开源AI基准测试涵盖154项责任20分钟周全评估

AI婚配会更幸福吗

瑞士信息与通信科技Nimagna开拓AI视频制作软件只需一个摄像头就能自动录制剪辑和衬着多机位视频瑞士立异100强

每期AI知识网

微软开源AI基准测试涵盖154项责任20分钟周全评估

AI婚配会更幸福吗

瑞士信息与通信科技Nimagna开拓AI视频制作软件只需一个摄像头就能自动录制剪辑和衬着多机位视频 瑞士立异100强

瑞士信息与通信科技Nimagna开拓AI视频制作软件只需一个摄像头就能自动录制剪辑和衬着多机位视频瑞士立异100强