CogAgent

CogAgent

开源的端到端视觉语言模型(VLM)基础的GUI代理

0
  • 支持双语(中文和英文)交云,通过屏幕截图和自然语言进行交互。
  • 在GUI感知、推理预测准确性、操作空间完整性和任务泛化方面具有显著优势。
  • CogAgent-9B-20241220模型基于GLM-4V-9B,一个双语开源VLM基础模型。
  • 支持多阶段训练和策略改进,实现GUI感知和推理预测的准确性。
  • 模型输出遵循严格格式,以字符串格式返回,不支持JSON输出。
  • 不支持连续对话,但支持连续执行历史。
  • 需要图像作为输入,纯文本对话无法实现GUI代理任务。

产品详情

CogAgent是一个基于视觉语言模型(VLM)的GUI代理,它通过屏幕截图和自然语言实现双语(中文和英文)交云。CogAgent在GUI感知、推理预测准确性、操作空间完整性和任务泛化方面取得了显著进步。该模型已经在ZhipuAI的GLM-PC产品中得到应用,旨在帮助研究人员和开发者推进基于视觉语言模型的GUI代理的研究和应用。