
CogAgent
开源的端到端视觉语言模型(VLM)基础的GUI代理
0
- 支持双语(中文和英文)交云,通过屏幕截图和自然语言进行交互。
- 在GUI感知、推理预测准确性、操作空间完整性和任务泛化方面具有显著优势。
- CogAgent-9B-20241220模型基于GLM-4V-9B,一个双语开源VLM基础模型。
- 支持多阶段训练和策略改进,实现GUI感知和推理预测的准确性。
- 模型输出遵循严格格式,以字符串格式返回,不支持JSON输出。
- 不支持连续对话,但支持连续执行历史。
- 需要图像作为输入,纯文本对话无法实现GUI代理任务。
产品详情
CogAgent是一个基于视觉语言模型(VLM)的GUI代理,它通过屏幕截图和自然语言实现双语(中文和英文)交云。CogAgent在GUI感知、推理预测准确性、操作空间完整性和任务泛化方面取得了显著进步。该模型已经在ZhipuAI的GLM-PC产品中得到应用,旨在帮助研究人员和开发者推进基于视觉语言模型的GUI代理的研究和应用。