能够指导你打游戏的视觉GUIAI智能体来了

本日，我要向你先容的便是这样的AI智能助手，它的名字叫做CogAgent

CogAgent是一个基于180亿参数规模的视觉措辞模型（VLM），专注于GUI图形交互界面的理解和导航，最大可处理1120×1120像素的分辨率图像。

CogAgent不仅可以理解图像中的笔墨、图标、按钮等元素，还可以根据用户的指令，实行相应的GUI操作，比如点击、滑动、输入等。

下图是用户输入“你能辅导我搜索“CVPR2023最佳论文”的步骤吗?” 然后AI智能体给出的方案。

下图是用户输入“切换为白天模式”AI智能体给出的方案

下图是对图片内容的识别和对路线的方案

乃至能够理解游戏页面信息，然后知道如何去操作。
下图是用户讯问如何“如何前往传送点”AI智能体给出的辅导建议

CogAgent的特点

CogAgent是由清华大学的研究团队开拓的，基于他们之前的CogVLM模型进行改进。

CogVLM是一个强大的开源视觉措辞模型，拥有100亿的视觉参数和70亿的措辞参数，支持490×490像素的分辨率图像的理解和多轮对话。

CogVLM在10个经典的跨模态基准上取得了最前辈的性能，包括NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA和TDIUC。

CogAgent在CogVLM的根本上，增加了11亿的视觉参数，提高了图像的输入分辨率，从而能够识别更小的页面元素和文本。
CogAgent还增加了GUI图形交互界面的Agent能力，可以根据用户的自然措辞指令，天生相应的GUI操作序列。

CogAgent在9个经典的跨模态基准上，也取得了最前辈的通用性能，包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。
CogAgent在GUI操作数据集上，包括AITW和Mind2Web，也显著超越了现有的模型。

官方供应了一个演示地址，可以体验。

CogAgent展望

CogAgent的运用处景非常广泛，可以涵盖各种GUI图形交互界面，比如网页、手机、电脑、平板等。
这也给我们带来一个启迪，未来AI智能体是个主要的发展方向，智能体帮忙人类进行操作能够大大提高效率！
这在产品解释，商品先容，设备操作，给老人讲解等方面有很大的前景。

代码地址：

https://github.com/THUDM/CogVLM?tab=readme-ov-file
论文地址：
https://arxiv.org/pdf/2312.08914.pdf
体验网址：
http://36.103.203.44:7861/

每期AI知识网