很抱歉,当前没有启用javascript,网站无法正常访问。请开启以便继续访问。智谱携“沉思”加入Agent“混战” 记者实测结果来了!
智谱携“沉思”加入Agent“混战” 记者实测结果来了!
2025.04.03 07:28 科创板日报记者 李明明

《科创板日报》4月3日讯(记者 李明明)继与多地国资合作之后,大模型独角兽智谱又在产品方面迎来新进展。

近日,智谱推出具有深度思考和操作执行能力的Agent 产品“AutoGLM 沉思”(以下简称“沉思”),并已经免费上线。据介绍,“沉思”能查看如知网、小红书、公众号、巨潮资讯等不对外开放API的信源,同时具有多模态理解能力,能够理解网页上的图文信息。

在介绍“沉思”时,智谱CEO张鹏略带调侃地表示,“这个Agent不用39美元,免费而且不用邀请码。”此前,国产智能体Manus曾掀起一股关于AI Agent的讨论热潮,但因为需要邀请码发放有限,绝大部分用户只能观望,无法真正体验。

《科创板日报》记者在实测中发现,“沉思”在思考过程中展现出从理解并拆解问题入手,结合信息检索快速构建解决方案框架的能力。

记者实测“ 沉思”

《科创板日报》记者使用“ 沉思”实测了七个任务,它均能较好地完成,举其中三个例子来展示其推理过程。

任务一:我需要一份 4 月 20-27日从北京出发的 7 天欧洲行程,预算为 3 -8万元,适合我和闺蜜。我们喜欢名胜古迹、隐藏的宝藏和欧洲文化,并需要一个特别的历史地点推荐。请提供一份详细的旅行手册,其中包含地图、景点介绍、必要的外语短语和旅行小贴士,供我们在旅途中参考。

任务二:月坛附近肯德基外卖推荐。

任务三:我之前总是被提醒着装打扮有点学生气,现在我准备进入职场,也开始研究穿搭改变自己,顺便开个抖音账号记录自己改变的过程,做一个养成系博主,第一期标题我打算叫《听劝第1天》,请你帮我写个视频脚本。

任务一让 Agent 完成高度定制化的旅行方案规划,以往都需要专业的旅行规划师才能完成。可以看到,“沉思”迅速打开了相关购票、预定酒店的网站并进行一系列解析后,给出了一份数千字的详细报告。

任务二中,“沉思”对月坛附近主要门店位置、门店特色、不同平台外卖服务的配送、价格等多维度对比,并生成详细表格和报告。

任务三中,“沉思”不停搜索知乎、新浪、搜狐等众多网站,并迅速生成抖音视频脚本,其文采水平和完成度均较高。

总体感受是,“沉思”的执行非常迅速,甚至可以打开很多用户自己的盲区网站,可以大幅度节省时间和决策成本。

但亦有一些用户告诉《科创板日报》记者,比起边想边搜,深度思考类模型产品更应该实现的功能是边聊边想,在思考的每一个节点,用户都能参与进来进行交互,并及时纠正模型动作,以防模型进行一些不必要甚至是错误的思考行为和操作。

智能体的应用形态,还将回归到模型上

而随着Agent爆发的持续迫近,有关Agent的实现方式和最终形态,也成为当前AI从业者的争论焦点。此前,Pleias的联合创始人Alexander Doria曾提到,未来AI智能体的发展方向是模型本身,而不是工作流,并列举了Manus的例子,认为其提示驱动无法完成复杂的任务。

张鹏对《科创板日报》记者表示,其观点与Alexander Doria基本一致。“未来的新应用形态,尤其是智能体的应用形态,还是会回归到模型上。这也是我们一直所倡导的模型即场景的概念,未来很多的应用会以模型为核心,包上一个很浅的或者很薄的产品化、应用性的壳就会变成一个产品。模型能力一旦提升,产品能力就会得到提升,这是很典型的新应用范式的变化。”

“但是,当下AGI之路刚刚开始,模型的能力还无法达到完全类比人的水平,模型能力有限,需工程化解决实际应用问题。永远是模型进,工程退。其技术越先进,需要工程化的事情越简单。所以,终极的目标是当造出一个像人一样聪明的脑子之后,工程上的事情就比较少,只需要给它装上手和眼睛就可以像人一样完成很多工作,这也是AGI的终极目标。” 张鹏说。

另有大模型企业人士告诉《科创板日报》记者,Manus更倾向于以AI技术优化具体场景中的流程与体验,而非聚焦于底层技术突破。“然而,Manus本身未能形成有效的产品壁垒,后续大量开源版本Manus的出现,让其稀有性被打破,‘沉思’的出现就是一个例子。”

目前来说,Agent要达到可用,需要打通一些公域和私域之间的数据壁垒,以及打通不同平台之间的壁垒。

比如,Manus此前短暂爆火,但随后在复杂任务中的表现屡出状况。有实测案例显示,解析文件时,Manus对非标准格式的兼容性较差,部分数据直接丢失;网页爬取环节频繁遭遇验证码拦截,任务中断。

提到解决办法,张鹏告诉《科创板日报》记者,公司在公开演示 “沉思”时选择了大众易理解的通用场景。但针对专业领域、企业用户或存在特定限制条件的用户,智谱已构建了一套功能化的解决方案。这套方案将通过公司未来的 MaaS 平台(模型即服务)及智能体开发平台进行沉淀,开发者和企业用户可基于这两大基础平台便捷调用资源,实现快速适配与功能扩展。张鹏特别强调,这些均属于产品层面的优化,而非模型层面的问题。

“比如说登录网盘等这些额外的操作,本质上还是智能体聪明程度不如人类,如果其可以通过图灵测试,能力与人类非常接近了,那现在的封禁和拦截策略也很难做的到。”

他进一步解释,通用Agent不能有短板,包括文本、思考、操作、环境感知和理解的能力、调用工具、反复尝试的能力等,都不能有明显的短板。一旦有明显短板存在,就会导致应用成功率急剧下降。

“我们始终坚持为所有模型注入语言多模态能力,源于对人类认知本质的理解。"”张鹏指出,人类作为具备综合认知能力的生命体,其智能评判体系具有整体性特征。当公众审视 AI 系统时,往往不会局限于单一维度的能力对比,而是通过多模态交互体验形成整体认知。即使某模型在逻辑推理、自然语言生成等单项指标上超越人类,但若多模态交互能力存在短板,仍会被感知为 "智能缺陷"。这一现象揭示出,技术研发者不应简单归咎于外部环境,而需从模型架构层面重新审视技术演进路径。

随着Agent能力的不断演进,未来其在硬件端的入口也会更加丰富,包括机器人、眼镜等设备都将成为新的接入点。而这又带来了新的问题:调用这些入口还面临哪些挑战?

张鹏对此表示,AutoGLM更早是应用在手机端,本次“沉思”只不过是把它移到了PC上。而其他智能硬件,比如眼镜、车载以及平板等端侧亦类似,都可以接入。“但是里面确实有一些问题,比如,不同类型的设备,最终的交互方式不一样,比如说眼镜不可能有键盘,就要用语音交互,语音就引入了全新的模态。”

“所以,当前阶段,接入Agent远非简单地‘插入芯片、接入现成的SDK’那么容易,这种'即插即用'的便捷性仍是未来愿景,当下还无法实现。”

1.45W+特别声明:文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。