本日,我要向你先容的便是这样的AI智能助手,它的名字叫做CogAgent
CogAgent是一个基于180亿参数规模的视觉措辞模型(VLM),专注于GUI图形交互界面的理解和导航,最大可处理1120×1120像素的分辨率图像。
CogAgent不仅可以理解图像中的笔墨、图标、按钮等元素,还可以根据用户的指令,实行相应的GUI操作,比如点击、滑动、输入等。
下图是用户输入“你能辅导我搜索“CVPR2023最佳论文”的步骤吗?” 然后AI智能体给出的方案。
下图是用户输入“切换为白天模式”AI智能体给出的方案
下图是对图片内容的识别和对路线的方案
乃至能够理解游戏页面信息,然后知道如何去操作。下图是用户讯问如何“如何前往传送点”AI智能体给出的辅导建议
CogAgent的特点
CogAgent是由清华大学的研究团队开拓的,基于他们之前的CogVLM模型进行改进。
CogVLM是一个强大的开源视觉措辞模型,拥有100亿的视觉参数和70亿的措辞参数,支持490×490像素的分辨率图像的理解和多轮对话。
CogVLM在10个经典的跨模态基准上取得了最前辈的性能,包括NoCaps、Flicker30k captioning、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA和TDIUC。
CogAgent在CogVLM的根本上,增加了11亿的视觉参数,提高了图像的输入分辨率,从而能够识别更小的页面元素和文本。CogAgent还增加了GUI图形交互界面的Agent能力,可以根据用户的自然措辞指令,天生相应的GUI操作序列。
CogAgent在9个经典的跨模态基准上,也取得了最前辈的通用性能,包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE。CogAgent在GUI操作数据集上,包括AITW和Mind2Web,也显著超越了现有的模型。
官方供应了一个演示地址,可以体验。
CogAgent展望
CogAgent的运用处景非常广泛,可以涵盖各种GUI图形交互界面,比如网页、手机、电脑、平板等。这也给我们带来一个启迪,未来AI智能体是个主要的发展方向,智能体帮忙人类进行操作能够大大提高效率!
这在产品解释,商品先容,设备操作,给老人讲解等方面有很大的前景。
代码地址:
https://github.com/THUDM/CogVLM?tab=readme-ov-file
论文地址:
https://arxiv.org/pdf/2312.08914.pdf
体验网址:
http://36.103.203.44:7861/