OpenAI“下一个重大突破” 首个AI助理产品或明年1月发布人机交互变革已至？

《科创板日报》11月14日讯（编辑宋子乔） 据媒体报道，OpenAI正准备推出一款代号为“Operator”的全新AI助理产品，可以自动执行各种复杂操作，包括编写代码、预订旅行、自动电商购物等。根据内部员工爆料，OpenAI领导层预计将在2025年1月发布该产品，首先作为研究预览版和开发工具推出，届时将为开发人员开放API接口。

报道称，OpenAI一直在进行几个与智能体相关的研究项目。其中一位人士表示，最接近完成的将是一个在网络浏览器中执行任务的通用工具。

AI助理（AI Agent）是一种能够感知环境、进行决策和执行动作的智能实体，具备通过独立思考、调用工具去逐步完成给定目标的能力，既能为C端提供个性化应用，也能为B端提供降本增效方案。对于普通用户而言，AI助理最核心的功能是AI自主操作手机，辅助完成复杂推理任务。

OpenAI首席执行官阿尔特曼早已透露下场意愿。几周前，他在Reddit的“问我任何问题”（Ask Me Anything）论坛上表示，“我们将拥有越来越好的模型，但我认为下一个重大突破将是AI助手。”在上个月公司年度开发日之前的OpenAI新闻发布会上，该公司首席产品官Kevin Weil称：“我认为2025年将是Agent系统最终进入主流的一年。”

站在OpenAI的角度，其在商业化进程中面临着越来越大的压力， ChatGPT渐进式的改进可能无法吸引用户支付更高的价格。高管急切需要一款突破性产品，以证明对AI开发的巨额投资是值得的。

目前，OpenAI已开源了多功能协同AI Agent——Swarm，可创建多个智能体协同工作，以更高效地完成任务。其GPT o1模型增强了推理能力，使其在复杂问题的解决和用户交互的自然性方面均有显著进步，亦使其更加适用于AI Agent场景。

AI助理被视作通往AGI的核心基础，在硬件厂商言必称AI的时代，AI助理或成为终端智能化的突破口。甬兴证券表示，AI Agent或将掌握移动互联新入口，流量分发格局有望重塑AI Agent智能体因具备较强交互性以及便利性，或可打通原先同个终端不同App之间的天然壁垒。

据《科创板日报》不完全梳理，国内外头部厂商正争先推出AI助理产品——

微软近期低调开源了AI工具OmniParser，其可帮助用户创建个性化智能体，以操作个人计算机；10月22日，微软宣布在Dynamics 365中集成10个自主AI Agent，支持OpenAI最新模型o1，具备自主学习能力，可自动执行跨平台复杂业务；9月，微软推出了一款名为Windows Agent Arena的基准框架，同样属于AI助理开发范畴。

据The Information报道，谷歌计划在12月预览其大型动作模型“Project Jarvis”，该项目将帮助用户执行诸如“收集研究、购买产品或预订航班”等任务。

10月22日，Anthropic为大模型Claude迭代了新功能——Computer Use，让AI可以像人一样操控电脑。Claude3.5 Sonnet是首个支持计算机控制的模型，能够模拟人类操作计算机，包括移动光标、点击按钮和输入文本。

苹果选择将Siri与ChatGPT集成，实现更智能的人机交互，另有网友发现苹果已经默默发布了Ferret-UI的两个实现版本（分别基于Gemma 2B和Llama 8B），这是苹果今年5月发布的一个可让AI理解手机屏幕的技术。

华为则公布了一项可让AI像人类一样操作手机的新研究成果，相关团队提出了一个手机控制架构：Lightweight Multi-modal App Control（轻量级多模态应用控制，简称LiMAC）。

中国独角兽企业智谱AI已上线AI助理工具AutoGLM，无需手动操作，用户对着手机说话（发出指令），便可让其自动打开手机上的各类App，进行网购、点外卖、订高铁票，甚至发微信、抢红包、评论朋友圈、整理笔记并生成攻略、总结论文。

中信证券表示，AutoGLM等终端AI助理技术将带来更短路径的交互形式，接受语音指令并自动完成复杂操作的能力将为消费者带来极大便利，其有望成为AI终端的亮点功能并吸引消费者升级换代。

华泰证券也表示，AI助理落地将带来多个层次的产业机遇，其中，Agent+终端有望推动人机交互变革，除了在终端销售量价方面的变化外，可能对终端应用的商业模式产生更加深远的影响。