CogAgent

开源的端到端视觉语言模型（VLM）基础的GUI代理

支持双语（中文和英文）交云，通过屏幕截图和自然语言进行交互。
在GUI感知、推理预测准确性、操作空间完整性和任务泛化方面具有显著优势。
CogAgent-9B-20241220模型基于GLM-4V-9B，一个双语开源VLM基础模型。
支持多阶段训练和策略改进，实现GUI感知和推理预测的准确性。
模型输出遵循严格格式，以字符串格式返回，不支持JSON输出。
不支持连续对话，但支持连续执行历史。
需要图像作为输入，纯文本对话无法实现GUI代理任务。

产品详情

CogAgent是一个基于视觉语言模型（VLM）的GUI代理，它通过屏幕截图和自然语言实现双语（中文和英文）交云。CogAgent在GUI感知、推理预测准确性、操作空间完整性和任务泛化方面取得了显著进步。该模型已经在ZhipuAI的GLM-PC产品中得到应用，旨在帮助研究人员和开发者推进基于视觉语言模型的GUI代理的研究和应用。

CogAgent

产品详情

相关项目

知了zKnown

MBox AI Meet

Klee

CrossPrism for MacOS