2025 年 7 月 18 日 下午 5:11

ChatGPT Agent 正式发布了,看看实力如何

【TechWeb】7 月 18 日消息,OpenAI CEO 奥特曼 (Sam Altman) 带队直播 25 分钟发布 「ChatGPT Agent」,首个统一智能体,大大提升了 ChatGPT 处理现实世界任务需求的能力。

例如,通过 ChatGPT Agent,可以让 ChatGPT 处理以下请求:「查看我的日历,并根据最新消息简要介绍即将召开的客户会议」、「计划和购买食材,为四人做日式早餐」 以及 「分析三个竞争对手并创建幻灯片」。ChatGPT 将智能地浏览网站、过滤结果、在需要时提示你安全登录、运行代码、进行分析,甚至提供可编辑的 PPT、Excel,总结其分析结果。

奥特曼称:「ChatGPT Agent 使用计算机执行复杂任务,对自己来说是一个真正感受 AGI 的时刻。」

即日起,专业版 (Pro)、增强版 (Plus) 和团队版 (Team)ChatGPT 用户都可使用 ChatGPT Agent。

ChatGPT Agent 的使用入口没变,还是在 ChatGPT 原页面,「工具」 下拉选择 「Agent mode」 即可。

融合三大能力,PPT 比人做得好

今年 1 月,OpenAI 发布了首个智能体 Operator,让 AI 像人类一样直接与 GUI 交互,可以自主上网、点击和输入。

Operator 推出 2 周后,OpenAI 又推出了首个 Deep Research,推理模型直接可以使用工具,开展研究,擅长分析和总结信息。

现在,ChatGPT Agent 融合了此前三大技术突破的优势:Operator 与网站交互的能力,Deep Research 整合信息的技巧,以及 ChatGPT 智能对话优势。

「Agent mode」 下的 ChatGPT 可以直接使用用户的计算机资源,包括智能浏览网页、筛选结果,在需要时提醒安全登录、运行代码、进行分析,还能直出 PPT 和 Excel 汇总发现结果。

为了展示 ChatGPT Agent 能力,团队演示了一个真实场景:上传一张团队吉祥物图片,ChatGPT 可以制作公司吉祥物漫画风贴纸,然后再订购 500 张并送到某个地址。

在理解提示词后,ChatGPT 先整合搜索-再推理创作-再执行任务,调用用工具 Imagen 生成动漫版图片,设计贴纸,最后从 StickerMule 订购 500 份寄到的用户指定的地址。

另外,团队还演示了 ChatGPT Agent 做 PPT 的能力。

要求 ChatGPT 从 Google 云中提取分析评估数据并制作成 PPT,直接用图表展示结果。

ChatGPT Agent 链接 Google 云 API 进行搜索,并读取相关内容信息,并编写一些代码。

模型使用图像生成功能,为 PPT 图表做一些装饰和优化。

制作出第一张 PPT(如上图),还不够精致。

强化学习的一个关键特性是模型会审视自己的结果,并加以完善,以交付出色的最终结果。

最终,ChatGPT Agent 调用模型生成了如下 PPT 图表。

ChatGPT Agent 「跑分」 情况

在网页浏览、现实任务完成能力的评估中,ChatGPT Agent 全部刷新了 SOTA。

在人类最后考试 (HLE) 中,ChatGPT Agent 以 41.6% 的得分,刷新了最高纪录。当研究团队采用并行策略后,即同时运行最多 8 次并选取自信度最高结果,HLE 得分直接刷到了 44.4%。

在最难的数学基准测试 FrontierMath 中,通过使用工具,如访问终端执行代码,ChatGPT Agent 的准确率达到 27.4%,远远优于之前的 o3 和 o4-mini 两种模型。

在旨在评估模型在复杂、经济上有价值的知识工作任务上的性能的内部基准上,ChatGPT Agent 的输出大约有一半的情况下与人类相当或更好,同时明显优于 o3 和 o4 mini。

在评估数据科学生产力任务的 DSBench 中,ChatGPT Agent 显著超越了人类表现。

在 Excel 编辑能力的 SpreadsheetBench 测试中,当能够直接编辑电子表格时,ChatGPT Agent 的得分甚至更高,为 45.5%,而 Excel 中的 Copilot 为 20.0%。

在投行分析师 1-3 年级建模任务的内部评估中,ChatGPT Agent 表现优于 Deep Research 和 o3 模型。

在 OpenAI 发布的 BrowseComp 基准测试 (衡量浏览代理在网络上定位难以找到的信息的能力),ChatGPT Agent 以 68.9% 的准确率成为新 SOTA,比 Deep Research 高出 17.4%。

最后,关于 WebArena⁠(在新窗口中打开),这是一个旨在评估网络浏览代理在完成现实世界网络任务方面的性能的基准测试,ChatGPT Agent 比基于 o3 的 CUA(为 Operator 提供动力的模型) 有所改进。

AI Agent 三维竞争格局形成

2025 年是全球 AI Agent 技术爆发元年,行业从基础大模型竞争全面转向智能体落地,竞争格局呈现多层级分化。

在通用领域,今年年初,中国团队开发的全球首个通用 Agent「Manus」 发布即引发震撼,6 月访问量达 1616 万次。

在垂直领域,就在 OpenAI ChatGPT Agent 发布前一天,亚马逊云科技发布了企业级 Agent 部署平台 Amazon Bedrock AgentCore,提供七大核心服务 (如运行时隔离、代码沙盒、浏览器工具),支持 8 小时异步任务,帮助开发者打通 AI agent 从概念验证到生产部署之间的关键环节。

随着 OpenAI ChatGPT Agent 的强势加入,当前 AI Agent 已形成 「通用 vs 垂直」、「端到端 vs 多模型」、「C 端工具 vs B 端平台」 的三维竞争格局。

 

- Advertisement -spot_img

推荐阅读