作者 | Asif Razzaq译者 | 刘雅梦策划 | 褚杏娟图形用户界面(GUI)是用户如何与软件交互的核心。然而,构建能够有效导航 GUI 的智能代理一直是一个持久的挑战。这些困难源于需要理解视觉环境,需要适应动态和多样化的 GUI ...
CogAgent 的核心是利用 VLM 来解释 GUI 组件及其功能。通过处理视觉布局和语义信息,它可以精确可靠地执行按钮单击、文本输入和菜单导航等任务。
IT之家 12 月 27 日消息,智谱技术团队公众号昨日(12 月 26 日)发布博文,宣布开源 GLM-PC 的基座模型 CogAgent-9B-20241220,基于 GLM-4V-9B 训练,专用于智能体(Agent)任务。