智谱 AI 开源视觉措辞模型 CogAgent 支持GUI图形界面问答

duote123 2025-02-16 0

AI智能摘要

AI正在生成摘要

它还支持高分辨率的视觉输入和对话问答，并且可以针对任意 GUI 截图进行问答。

模型可以通过上传截图来进行任务推理，并返回操持、下一个动作以及详细操作的坐标信息。

CogAgent 还支持 OCR 干系任务，通过预演习和微调，其能力得到了显著提升。

Github:

智谱 AI 开源视觉措辞模型 CogAgent 支持GUI图形界面问答

https://github.com/CogNLP/CogAGENT

cogagent-chat:

https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary

cogagent-vqa:

https://www.modelscope.cn/models/ZhipuAI/cogagent-vqa/summary

本文系 @duote123 在 2025-02-16 原创发布至每期AI知识网，内容来自网络，如有侵犯您得权益联系（删）。
文章链接：http://www.meiqiai.cn/article/eFuPGw_LsPxCDztIOkW

每期AI知识网