它还支持高分辨率的视觉输入和对话问答,并且可以针对任意 GUI 截图进行问答。

模型可以通过上传截图来进行任务推理,并返回操持、下一个动作以及详细操作的坐标信息。

CogAgent 还支持 OCR 干系任务,通过预演习和微调,其能力得到了显著提升。

Github:

智谱 AI 开源视觉措辞模型 CogAgent 支持GUI图形界面问答

https://github.com/CogNLP/CogAGENT

cogagent-chat:

https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary

cogagent-vqa:

https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summary