• 最新
  • 热门
  • 所有
  • 期货
  • 外汇
  • 股票
AI Agent爆发前的黎明:Manus不够好,但天快亮了

AI Agent 爆发前的黎明:Manus 不够好,但天快亮了

2025 年 3 月 30 日
​​美俄通牒激化冲突伦敦金蓄势待变​

​​美俄通牒激化冲突伦敦金蓄势待变​

2025 年 8 月 1 日
开家实体小店,还能撑起年轻人的「创业梦」吗?

实验猴的 「老龄化」 困扰

2025 年 8 月 1 日
龙头企业宣布加入停产检修行列,这一小金属价格在大厂挺价下高位止跌企稳

Figma 敲钟,创投圈年度 IPO 出现了

2025 年 8 月 1 日
我国光伏发电累计装机突破10亿千瓦,关注新能源ETF易方达(516090)、光伏ETF易方达(562970)等布局机会

7 月 31 日沪铜期货主力收报 78040 元 前 20 席位持仓呈现多空双增态势

2025 年 8 月 1 日
【环球财经】墨总统:反对美方加征关税

【环球财经】 特朗普签署行政令上调近 70 个贸易伙伴关税税率

2025 年 8 月 1 日
现货黄金震荡调整 美联储主席候选人仍然未定

人工智能+来袭!游戏 ETF(516010) 集齐 A 股游戏龙头及 AI 下游应用,持续吸金中

2025 年 8 月 1 日
张兴海与朱华荣,竞争重庆汽车第一人

张兴海与朱华荣,竞争重庆汽车第一人

2025 年 8 月 1 日
央企科技概念股走强,相关ETF涨超2%

未能扭转 Q1 业绩颓势 迈克生物上半年净利润大幅下滑|财报解读

2025 年 8 月 1 日
金店回收黄金多少钱一克(2025年6月27日)

现货黄金正处关键节点 警惕美联储 「放鸽」

2025 年 8 月 1 日
6月30日国际铜期货仓单较上日增持1004吨

期货掉期交易是什么意思

2025 年 8 月 1 日
得物与小红书,互相抄作业

风电吹响复苏 「冲锋号」,三重逻辑支撑上市公司业绩回暖

2025 年 8 月 1 日
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
2025 年 8 月 2 日 星期六
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票
  • 黄金
  • 期货
  • 外汇
  • 基金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票
  • 黄金
  • 期货
  • 外汇
  • 基金
2025 年 8 月 2 日 星期六
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
广告
首页 行业新闻

AI Agent 爆发前的黎明:Manus 不够好,但天快亮了

来自 禾湖财经
2025 年 3 月 30 日
在 行业新闻
0
AI Agent爆发前的黎明:Manus不够好,但天快亮了
33
SHARES
93
VIEWS
分享至微信分享至微博

[ad_1]

文 | 硅谷 101

今年 3 月初,一款名为 「Manus」 的通用 AI agent 产品发布之后爆火。到了 3 月底,Manus 的母公司 Butterfly Effec 被爆正寻求新一轮融资,目标估值将超过 5 亿美元。

由于 Manus 处于内测阶段,仅以邀请码形式开放使用,一度让邀请码在二手平台上被炒到数万人民币,无数开发者、投资人和从业人员排着队等测评。

与此同时,业内对 Manus 的评价从最开始一边倒的追捧,开始有了越来越多质疑和批评的声音。

对 Manus 的争议一方面来自于这个团队并没有非常强的技术能力,大模型用的 Antrhopic 的 Claude、之后与阿里通义千问合作,被质疑是 「套壳」 产品,没啥门槛。公司打出的营销话术 「世界上第一个通用 AI agent」 明显不属实,国际开发者社区早就有这样的 general AI agent 产品,加上各种媒体和自媒体早期夸张的修饰用词,反而引发了不少人对 Manus 激进营销的反感。

但是在另一方面,一些投资人和从业者却看到了非常积极的一面,认为 Manus 在产品交互上确实做得可圈可点。他们指出这个年头做 demo 容易,做出一款好产品却很难,创业公司做推广的时候大胆一点没什么不好。

而更加让人振奋的是,Manus 虽然不够好,但却让人看到了 AI 应用爆发前夕的黎明曙光。

这篇文章我们就来聊聊 Manus 引发的热捧与争议、AI agent 的技术发展路线、目前面临的技术瓶颈、什么是一款好的 AI agent 产品,以及通用 AI agent 何时才能来临。

01 测评 Manus

  • Chapter 1.1 开发者测评 Manus

硅谷 101 也拿到了几个邀请码,团队的小伙伴们都测试了一遍,但效果确实比期待中差了不少。

Jacob

硅谷 101 后期负责人:

我用 Manus 找一下稿件中的信息来源,我觉得对于 GPT 是更加聪明了一点,但是很简单多任务它花了半个小时才跑完。

陈茜

硅谷 101 联合创始人兼视频主理人:

我让它帮我整理分镜稿,感觉它的审美像实习生,而且做文章的分镜图时卡了 21 个小时,现在还卡着。

泓君

硅谷 101 联合创始人兼视频主理人:

让 Manus 整理微信文字稿时出现了幻觉问题。

王可倚

硅谷 101 特约研究员,《创客人生》 主理人:

它最开始听懂了我的需求,但是执行中途就跑偏了。

我们也邀请了 AI agent 开发者 Nathan Wang 来系统性地评测下 Manus。Nathan 在过去两年有着丰富的 AI agent 及 AI 应用开发经验,他希望能量化地表示模型的能力,所以建立了一个测评的机制,并且这个系统也可以去测评其他应用或是模型。以下为 Nathan 评测的部分内容:

我主要有三个衡量指标:「准确度」、「可用度」、「完成度」,同时以 「研究」、「教育」、「生活」、「数据分析」、「创意性工作」 这五项任务归类。

我根据每个指标的表现从 1 到 5 打分,表现越好得分越高,表现越差得分越低,最后取三个维度的平均分。

先说它做得好的部分:研究方面为 4 分,教育方面为 4.5 分。这两块的能力是非常强的,正确性、完成度都很高。

但这两个领域的结果其实是符合我们预期的,因为 ChatGPT、 Claude 还有 Gemini 都是有深度研究的功能,它其实就是在互联网上帮你查找各种各样的信息,根据需求让大模型解释,或者做出一些行动。

Manus AI 构架背后用的是其他模型,据传言说是 Claude、DeepSeek-R1,Manus 会利用这两个模型,根据用户需求生成一个任务列表,然后 Manus 可以通过编程、互联网搜索,像人一样查阅浏览器上的内容,来抓取信息。

总体来说,Manus 更多是通过工具、函数、API 来获得信息并总结,或者通过渲染的形式给用户表现出来,比如做成一个表格、执行一些程序等。

但除了研究和教育外,Manus 在生活、数据分析、趣味性方面的得分却比较低,「生活」 为 3.5 分,「数据分析」 为 2.5 分,「趣味性」2.5 分。

在我们的测试中,Manus 遇到的比较大的问题是,它将不同信源信息整合在一起的能力不是特别强;模型本身的逻辑能力、信息综合能力还不够,尚不足以在用户的实际体验中提供有效的帮助。

以上是 Nathan 评测的一部分节选,想看完整版的观众可以收看硅谷 101 视频或 Nathan 的微信视频号 「硅谷 AI 领航」。

简单总结下 Manus 的能力:在简单一些的任务上,它给到了很丝滑的通用 AI Agent 的交互产品形态,虽然 Nathan 认为这个产品在硅谷开发者社区中很早就有公司有人在做了,但是对非开发者 2C 用户来说,当看到 Manus 页面上展示出它真的在加速看视频、读取文档、访问不同的网站搜索信息时,确实让用户第一次感受到了 「AI agent」 在虚拟世界充当机器人、帮用户完成一系列任务的潜力,还是非常惊艳的。

当然对于稍微有难度的任务它完成得不太好,甚至出现了卡壳几十个小时的现象,说明它还处于非常早期的产品阶段,之后还需要很多的迭代。

  • Chapter 1.2 2C 产品的用户阈值与 「叫醒铃」

也有嘉宾认为,我们应该对 AI 初代产品有所谓的 「阈值」 概念。在到达 AGI 之前,也许不会有准确度 100%、完全准确不出错的通用 AI agent。大家需要给 AI agent 一些时间和耐心,不同人群的需求,会从简单到复杂逐渐迭代地被实现。

周炜

创世伙伴资本 (CCV) 创始主管合伙人

前 KPCB 中国基金主管合伙人:

我认为 Manus 这个产品超过了用户的阈值。用户要把一个产品作为生产力工具,它必须要超过达到某个满意度以上才可以完整的使用。

ToB 端其实有很多 AI 产品已经有很好的收入了,但是 C 端来说,大家以前没有感觉到有个产品改善了生活,我认为 Manus 做到了这点,它把用户体验做得很不错。虽然目前它的能力比较普通,最终也不可能面面俱到,但至少从目前来看,它的一些功能都做得很完善,未来还有继续提升空间。

我们看到一些争议,说它只是 AI 操纵大师,指挥另外两个 AI 底层模型来完成任务,这种讨论说明了一个问题,那就是目前 AI 从业者群体里面有一个很大的误区:在技术上自嗨。

我印象很深的是,乔布斯被踢出苹果又回去后,在一个公开大会上有 1000 多个工程师,其中一个工程师站起来挑战他说:你又不懂技术,凭什么指导我们、做这个公司的领导者?乔布斯的回答是:我知道如何满足用户需求、用户需要什么样的产品、并且我可以把它卖出去。

我觉得这就很好地回答了现在对 Manus 的质疑,在指责它仅仅是一个 AI 指挥大师的时候,为什么你不去做一个完美的用户界面来实现用户真正的需求?这才是现在 AI 从业者需要思考的问题,怎么让产品体验超越用户的阈值、能够变成生产力工具,如果做到了这一点,市场认可度就会很高。

Deepseek 对全球来说一个 Wake-up call(叫醒铃),它告诉大家:原来大模型还可以用这种路径来实现,而不是通过暴力堆叠的路径。而 Manus 我觉得也是一个叫醒铃,它告诉所有的 AI 从业者,不要痴迷于技术底层,你要做的是提供一个完整度高的产品,让大家都用起来,最终实现技术平权、技术普惠,如果连老爷爷、老奶奶都开始用它并且觉得好用,这才是目前 ToC 端产品的大成就。

Manus 给了一个非常清晰的信号:大模型底座已经准备就绪了,足够做一个完成度高的产品。所以我觉得现在是非常好的发力时机。

TensorOpera AI 联合创始人何朝阳认为,要做好 AI agent 产品,有四个纬度:「模型」、「工具」、「数据」、「基础设施」。产品或公司至少要在其中两项占绝对优势,才能保持领先。他认为,Manus 占据了 「工具」 和 「数据」 这两个优势。

何朝阳

TensorOpera AI

ChainOpera AI 联合创始人:

Manus 占到了工具的优势,因为他把多个工具缝合到了一起,他可能也有一些独特方式,比如指挥多个 agent 相互合作。我觉得把各种工具缝合本身就是一个特点,它确实可能用的是其他的底层模型,但它可以收集用户发送的 prompt(提示词),对比哪些提示词输出的结果更好,这样就可以帮助它迭代升级。

因为 Manus 有先发优势,可以早点拿到用户数据,可能会发现哪些 agent 更重要,然后更快速的迭代它,所以它其实已经在不断升级数据和工具的路上了,这刚好是应用创业者要去做的。

至于模型和基础设施,我觉得跟大厂合作就好了,就不要去四两拨千斤了。

「技术已经 Ready 了」,这是我们和很多 AI 从业者和投资人交流的时候,他们透露出的信号和见解。

02 AI Agent 技术发展史

过去一段时间 「agent」 这个词稍微有点被 「太泛化」 了,门槛有点过低,所以我们先明确下 AI Agent 的定义。

技术人员通常将 AI Agent 定义为:具有 「逻辑推理能力和决策能力」(Reasoning)、「记忆能力和上下文理解」(Memory)、「工具使用能力」(Tools) 这三种能力,甚至更进一步说,还需要具备学习使用不同新工具的能力。

Keith Zhai

Tiny Fish 联合创始人:

我们自己定义的 agent,它应该在某种意义上像人一样,可以使用各种网页工具,也同时还可以学习怎么使用不同的东西,但这点对 Agent 来说是非常难的挑战。

我们来看看过去几年,AI 生态圈是怎么发展推理 (Reasoning)、记忆 (Memory) 和工具 (Tools) 这三种主要能力的。

  • Chapter 2.1 推理能力

Nathan Wang

硅谷 101 特邀研究员

AI Agent 开发者:

AI Agent 需要有很强的逻辑能力,因为它最终帮用户执行任务的时候,需要理清楚这个任务该如何决策?用哪些工具?得到信息之后应该做哪些动作?所以推理 (Reasoning) 是最重要的能力之一。

2022 年 10 月,就在 ChatGPT 上线的一个多月前,ReAct 框架被普林斯顿和 Google Brain 合作的团队提出。

ReAct 是一个将推理和行为与 LLMs(大语言模型) 相结合通用的范例,这让大模型不仅能回答问题,还能推理并采取行动。简单来说,就是让 AI 在回答问题的同时,能够执行一些动作,不只是 「动动嘴皮子」。

Nathan Wang

硅谷 101 特邀研究员

AI Agent 开发者:

ReAct 所做的事情更加偏向于 prompt engineering(提示词工程),他其实是通过设定一些不同的提示词,能让大语言模型按照一定的格式去输出。

比如说第一步是先理解用户想要的是什么,然后再思考下一步要去做什么,同时也告诉模型,有哪些工具可供选择。当模型有逻辑能力之后,它会选择一种工具,比如用户要订机票,那就要去搜索机票相关的信息,然后 agent 就会通过调用某个工具或 API,也可以是模型自己写的功能,来完成这一系列的动作。得到这些信息后,agent 还要思考,下一步是要帮用户定这个机票,还是告诉用户这个信息,再让用户来决定。所以所有 AI Agent 的构架其实都是从这篇论文开始的。

但当时的最先进模型 GPT-3.5 的能力相对有限,使得 AI Agent 的逻辑推理能力并不出彩,错误率很高。

而后来发布的 GPT-4 在理解能力、推理能力、回答质量都大幅提升。同时 2023 年 3 月 23 日,ChatGPT 插件功能 Plugin 发布,允许大语言模型调用外部工具并开发 APT,支持开发者将 LLM 与数据库、工具和互联网连接。这些都让 AI agent 的开发者们兴奋不已。

Nathan Wang

硅谷 101 特邀研究员

AI Agent 开发者:

刚开始 ChatGPT 只能做一些对话、生成文本,但后来它就可以搜索互联网上的内容了,还可以让它接入不同的数据库去提取信息,或者使用一些工具。

那时开发者社区沸腾了,因为整个模型有了推理能力,也可以接入各式各样的工具来完成一系列复杂的操作。当时有个公司比较有意思,叫做 Zapier,这个公司是 2011 年成立的,但它们主要做一些自动化工具。但大语言模型发布后,他们就第一时间去帮大语言模型去做这系列工具,很多早期的开发者应该都用过 Zapier,比如它可以让大语言模型接入谷歌邮箱,或许其他的应用,让大语言模型可以完成更复杂的工作。

所以在 2023 年初,AI Agent 技术三大要素的第一步已经搭建好了,逻辑推理能力提到了显著提升,也可以接各种外部 API、调用外部工具来完成任务。

接下来,开发者生态进入到了技术发展的第二章:记忆能力与上下文理解。

  • Chapter 2.2 记忆能力

Nathan Wang

硅谷 101 特邀研究员

AI Agent 开发者:

刚开始 GPT 大概只有 4096 个 token,其实是非常少的,大概只能输入 3000 多个英文单词,那时大家非常苦恼没有办法输入更多信息让模型去执行地更好。

但到 5 月份的时候,OpenAI 最大的竞争对手 Anthropic,发布 Claude 模型。这个模型一开始得到开发者的关注,主要原因就在于,跟 ChatGPT 相比,Anthropic 可接受的 token 大概提升了 100 多倍,意味着它可以获得更多的信息去思考和决策。所以 Anthropic 的发布也是技术史上非常关键的一笔。

2023 年 5 月 11 日,Anthropic 推出的 Claude 模型可以支持 10 万 token 的上下文窗口,使得 LLM 能够处理更大规模的信息,并增强基于大量信息的推理和决策能力。

不久之后的 2023 年 6 月 13 日,OpenAI 也在这一方向做出了技术迭代,发布函数调用 (Function Calling),引入 JSON 模式和 1.6 万 token 的上下文窗口。这让 AI 可以更可靠地调用外部 API,比如说查天气、自动填表等等任务。

紧接着在 2023 年 11 月 21 日,Anthropic 的 Claude 2.1 版本又进一步,把上下文窗口扩展到 20 万个 token,相当于 AI 一次性可以记住一整本教科书的内容,思考能力大大提升。也意味着能进一步扩大大模型的记忆能力,优化推理和决策过程。

再之后在 2024 年 2 月,谷歌发布 Gemini 1.5 的时候,将上下文窗口的 token 数扩展到了百万级别,至此,「记忆」 这个 AI Agent 发展必备中的第二个技术壁垒也完全被打破,对于开发者们来说不再是大问题。

  • Chapter 2.3 工具使用

2023 年底,前两个技术壁垒的突破,让大语言模型能充当虚拟世界的机器人这件事情变得更加可行,这时一些初创公司开始在硅谷生态圈活跃了起来。

Nathan Wang

硅谷 101 特邀研究员

AI Agent 开发者:

我知道的第一个让大语言模型去控制用户电脑的 AI Agent 应用公司是 Simular,它应该是 2023 年 12 月底的时候发布了第一版 Demo。大家看到 AI agent 的功能已经变得越来的强大了,从开始使用各种工具、接各种数据库、调用不同的应用,已经发展成可以操控电脑了。这一点让我觉得 AI Agent 的技术路线有了极大的飞跃。

2024 年 10 月底,Claude 发布了 「computer use」 功能,让 AI Agent 直接控制计算机的能力更进了一步,AI 变得更像真正的、可以行动起来的智能助手。

Nathan Wang

硅谷 101 特邀研究员

AI Agent 开发者:

你可以看到开发者社区或初创公司其实走的比大厂要早很多。

AI 圈备受关注的 Andrew Ng(吴恩达) 教授在 2024 年底关于 AI Agent 的演讲,彻底燃起了技术圈和非技术圈人们对于 AI Agent 的期待和热情,「2025 年将成为 AI Agent 应用元年」 的预测开始出现在各大媒体头版上。

虽然各种各样的 AI Agent 应用 demo 在全球开发者社群中早就屡见不鲜了,但在 Manus 出现之前,大部分 AI Agent 创业公司主要聚焦于企业级 (ToB) 应用,而非直接面向消费者 (ToC)。所以难点在哪里呢?

Keith Zhai

Tiny Fish 联合创始人:

其实自从有互联网开始,网络上所有工具的设计方式,主要目标都是为了让人类使用,在这样的逻辑下,机器想完成准确、大面积的交互是很难的,这是在大语言模型出现前人类无法解决的问题。

在 AI Agent 之前行业没有形成范式共识,所以现在距离 AI Agent 实现通用化还差一步,那就是整个产业的支持。

  • Chapter 2.4 一步之遥

我们前面提到的逻辑推理、上下文记忆、工具调用这些能力,在何朝阳看来,都属于 「single agent」(单独智能体) 的技术发展。

但要让 AI Agent 真正发展起来,做到主流化、规模化,那还需要实现 multi-agent(多个智能体) 之间的通信和互联,不同的 Agent 需要在不同设备、不同机房之间去做计算和联动,才能推动上亿级别用户机会的应用。这其中的难点在于通用的、标准化的协议适配范式。

何朝阳

TensorOpera AI

ChainOpera AI 联合创始人:

用大模型来驱动逻辑推理、上下文记忆、工具调用这些能力,所产生的 AI agent,被大家定义为单独智能体,这是第一个发展阶段。

第二阶段的标志,就在于 agent 之间能实现互相通信。

第三阶段是让 agent 在不同的设备、不同的机房之间计算、联动,我觉得它是未来支持亿级别用户必须要有的架构,这是一个单点是无法做到的。

目前,我们仍然处于第三阶段的竞争和尝试中,这个阶段要解决的问题是,很多网站或者工具不支持 AI agent 的调用。

比如说很多网站和服务都会有 「反机器人/anti-bot」 的设置,我们也看到 Manus 执行任务时也经常因为访问不了一些数据而导致任务失败,所以在这个阶段中,我们需要打造一个通用协议来解决这个问题,才能支持不同 AI agent 之间的联动。

包括 Anthropic 等在内的很多公司正在做协议适配上的尝试。2024 年 11 月初,Anthropic 推出 「模型上下文协议」(Model Context Protocol,简称 MCP),引进了 「应用如何为 LLM 提供上下文」 的规范。

Anthropic 将 MCP 协议称为 「AI 应用的 USB-C 端口」,支持将大模型直接连接到数据源。此前,企业和开发者要把不同的数据接入 AI 系统,都得单独开发对接方案,而 MCP 做的,就是提供一个 「通用」 协议来解决这个问题。

然而,MCP 解决了第三代技术的问题,还有最后一代问题,是目前 AI Agent 应用大规模爆发的壁垒,那就是:真正统一的 Agent-Agent 之间 Protocol 通信标准与分布式计算,就像如今的安卓与 iOS 一样,我们也需要一个全球承认且通用的 AI OS。

何朝阳

TensorOpera AI

ChainOpera AI 联合创始人:

举个例子,现在有两个独立的 agent,如果要让这两个 agent 之间互相协作,就需要造第三个 agent,这个 agent 来负责和前两个 agent 之间互相通信。

但 agent 之间的交互没有标准,可能一个协议是 A,另一个协议是 B,所以第三个 agent 就要把各自的协议给改一下,让两者之间能互相通信。

就好比 10 年、20 年前,有两种电脑,一个是 IBM 造的,另一个是 Intel 造的,它们之间底层的链路没有打通,就会导致软两个软件之间没有办法沟通,那时还没有 TCP/IP 的时候就比较麻烦。但到移动互联网的时候,比如说基站的通讯标准 TTL、 TEL 等等,如果所有设备软件都符合这个标准,大家是可以互相交流的。

所以今天单独智能体内部调用工具的问题,MCP 已经一定程度地解决了,但两个 agent 之间如何通信,是更高维的通信协议。我对未来 AI 的想象就是,有一个非常复杂的分布式网络,有大量的服务,用户的诉求分发到整个网络里面,然后得到一个反馈。

我已经看到安卓的创始人 (之一) 出来亲自做 AI OS 这件事情,我觉得安卓一定要被重构,可能这个系统你打开之后就是一个框,你可以问的一切问题,所有的信息或动作都会呈现在这个框的里。这个是我认为协议的核心。

2024 年 11 月底,一个由安卓系统前高管们创业的公司,/dev/agents 吸引了外界和媒体的注意,他们宣布获得了 5600 万美元的种子轮资金,联合创始人兼首席执行官 David Singleton 表示:「我们需要一个类似于安卓系统的人工智能时刻」。

他们想要打造的就和何朝阳的公司一样,希望开发一个通用操作系统,为 AI Agent 提供一个统一的平台。如果做到了,最后一个 AI Agent 的技术壁垒也就打通了,AI Agent 就达到了第四阶段。

何朝阳

TensorOpera AI

ChainOpera AI 联合创始人:

我们想做一个真正的 distributed multi-agent framework(分布式多代理框架),并且是 hybrid as cloud(混合云) 的架构,这样的话就需要 agent 之间的通信,并且不是一个单系统,它是公司之间的协作。

目前 Router 这种技术 (如何确定分发意图、打通不同的 agent 的协议),我们现在是一个一个地去找合作伙伴适配,我们正慢慢地尝试去推广这种通用的协议。

但根据 10 年前的教训,这件事最终应该是几个大厂、或者然后国家队联合起来一起推广,有点像通信领域的 5G、6G 标准。

总结一下何朝阳从整个 AI Agent 生态角度来看待的四代技术:

第一阶段是 planner 规划 (也就是逻辑推理)、记忆 memory、工具 tools,让单个智能体在技术上的成熟。

第二阶段是通过 planner 的发展,在单机上实现多个智能体之间的通信。

第三极端是 AI Agent 在不同设备和机房之间能联动,这将推动上亿级别的用户承载量。

第四阶段是 Agent-Agent 之间的通信标准与分布式计算,也就是一个全新的 AI OS。这也是我们现在正在突破的阶段。

何朝阳与很多 AI 从业者们都说,在黑夜中探索了这么久,现在天快亮了。

何朝阳

TensorOpera AI

ChainOpera AI 联合创始人:

如果是一个产品经理的视角,我觉得现在的阶段应该说是天亮了。

如今,随着 AI Agent 基建的进一步完善,包括底座大模型在内的各项技术进一步提升,以及科技巨头、初创企业、开发者生态中对协议和标准的进一步探索以及统一,我们似乎能感受到,AI Agent 的爆发只有一步之遥。

Manus 和类似的通用 AI Agent 公司只是给我们打了个样,之后的路还有很漫长。但这一步的距离其实还有挺多没有解决的问题。

Nathan Wang

硅谷 101 特邀研究员

AI Agent 开发者:

推理、记忆、工具调用这三个能力,只能让开发者做一个成熟的 demo 出来,但是如果想变成一个真正可用的产品,其实还需要解决两个技术瓶颈。

一个是可靠性,比如说至少有 90~95% 以上的情况能给用户正确且相关的信息。

二个是这个鲁棒性,怎么样让大模型或 AI agent 能够具有鲁棒性,在各种边缘情况下都能够满足用户需求,是非常有挑战性的。

Keith Zhai

Tiny Fish 联合创始人:

对企业来说有很多问题需要考虑,比如第一步出错的概率是 1%,第二步是 2%,第三步可能是 1%,但最糟糕的情况是,它会有一个叠加的错误效果,等它完成到第十步的时候,错误率就非常高了,很多企业办公流程达到了十几二十步,最后可能错误率会非常高。

Keith 表示他们公司 Tiny Fish 扒了一下网上的数据,全美国有 1.5 万家接受了融资的初创企业在做 AI agent 方向的创业,这显示出 AI agent 这个大赛道的生态火热。

03 硅谷 AI Agent 公司版图

接下来由硅谷 101 的特约评论员王可倚来归类下,AI Agent 公司的版图和大家在尝试的方向。

目前的 AI Agent 产品主要分为以下三类:

1. 以 Manus 为代表、直面用户的通用型 agent;

2. Agent 基础设施与框架层,也就是帮助搭建 agent 应用的地基和工具;

3. 面向特定行业的垂直化 agent,比如编程、客服、销售、科研、商业分析与调研、甚至供应链管理等领域。

通用型 agent 前面已经讨论很多了,接下来重点讲讲后面两类。

  • Chapter 3.1 Agent 基础设施与框架层

说到架构,不少开发者小伙伴一定会首先想到 LangChain。这个诞生几个月内就获得了超 5.5 万 GitHub 星标、和 3 千万美元融资的开源工具,迄今是 agent 开发者用来让大语言模型调用外部工具与数据库、拥有长程记忆、及完成多步骤工作流的首选工具包之一。

还有一些其他热门工具,比如 Pinecone 这类帮助 agent 高效检索外部知识的向量数据库,或让 agent 能更好处理私域数据的 LlamaIndex 等等,虽然并非仅针对 agent,但也都是目前 agent 应用开发必不可少的 「左膀右臂」。

同时各大云服务商也都争先恐后地推出了 agent 工具包,例如微软的 Semantic Kernel、AWS 的 Bedrock Agents 等,用来组合多种 AI 技能,主打对 agent 开发者体贴入微。

就像前面提到的,随着 AI Agent 基建和框架层的进一步探索和完善,这一块也是这两年 VC 风投资本们非常热门的投资方向,使得开发者们能用的工具和支持生态越来越成熟。

我们在过去几个月看到不同行业和场景中,不少创业公司们的 Agent 应用尝试。接下来我们聊聊具体的垂直赛道的明星公司们。

  • Chapter 3.2 AI 编程 Agent

如今,AI agent 应用被认为最早落地的是编程类的 agent:它们不仅能自动补全代码,还能协助程序员们编写、调试,甚至自主部署软件。

GitHub Copilot 在 2025 年 2 月推出的 agent 模式,想必码农小伙伴们都很熟悉。由初创公司推出的编程 agent 不仅多到让人眼花,还可以称得上 AI 届 「造星工厂」。

号称首位 「AI 软件工程师」 的 Devin,背后是 「生下来就在罗马」 的新贵初创公司 Cognition AI,成立不到半年,估值就跃升到 20 亿美金。Devin 宣称能替代初级码农独立阅读技术文档、编写。

Devin 的野心很宏大,每月高达 500 美金的订阅费也很美丽,但我身边的程序员朋友却吐槽: Devin 写代码一般般,做调研倒还不错。所以现实情况是,定位于企业级用户的 Devin 在庞大冗杂的代码库、欠缺的技术文档和模糊不清的背景信息 (context) 这三座大山前,有点力不从心。

Cursor 是另一个风头正劲的 AI 编程助手,诞生于四位 MIT 本科生于 2022 年创立的公司 Anysphere。Cursor 由于好用、速度快,对用户代码库理解能力出色,且成本远低于 Devin,迅速成为了很多码农的首选,包括 OpenAI、Shopify、Instacart 的团队都有使用。

据业内消息,不到三岁的 Anysphere 已实现 1.5 亿美金年化收入,且正在洽谈估值可能高达百亿美金的新一轮融资。

其他还有很多编程类 agent,比如拥有 2000 万开发者用户的 Replit,旗下的 AI Agent 可以根据自然语言指令生成完整的网页端应用。还有正在以近 30 亿美金估值融资的 Codeium,旗下的 Windsurf 已拿下包括戴尔在内的超一千家企业级用户;以及字节跳动针对中文开发者推出的编程助手 Trae 等等。

看来 AI 编程领域的 agent 赛马越来越精彩,不知各位码农朋友是欣喜还是担忧呢?

  • Chapter 3.3 客服与销售 Agent

客服与销售是两个劳动密集型岗位,但如今 AI agent 在这两个领域中凸显了效率优势,受到大量企业采纳的领域。

客服助理中表现突出的是 Decagon。这家炙手可热的 AI 初创公司已融资超 1 亿美元,客户包括大家熟悉的 Duolingo、Notion 和 Eventbrite 等。

Decagon 的 AI 客服能自动处理高达 70% 的客服工单,为企业节省每年数百万美元的人力开支。企业客户之一 Bilt 曾说:使用 Decagon 就像一夜之间多招聘了 65 名全职客服人员。

与此同时,销售领域则有快速崛起的 AI 独角兽 Clay,它利用 AI agent 自动抓取和扩充目标客户数据,批量与潜在客户进行量身定制地互动,并帮销售人员处理大量工作中的脏活,从而成倍放大销售团队的生产力,目前已积累了十万名用户。

  • Chapter 3.4 其他新兴应用场景

除了上面说到的几个领域之外,AI agent 还在以下许多领域扩大影响。

1. 商业调研:作为商业数据分析领域的头部 AI agent,Hebbia 服务于全球资管规模前 50 名基金中的近 1/3,以及多家大型律所、咨询公司、甚至美国空军。

2. 科研:学术界明星科研助手 Elicit 擅长自动生成论文部分内容并处理海量数据,目前全球已有超过 200 万科研人员使用;它极大提升了机器学习、制药与生物科技等领域的研究效率。

3. 供应链优化:被誉为美国最神秘的大数据公司 Palantir 近期在其人工智能平台 (AIP) 推出了 agent 功能,用于自动化管理物流与库存,已在 60 余家大型企业投入使用。

4. 医疗健康:美国最大的医疗信息公司 Epic 利用 AI agent,将大量繁琐重复的行政工作自动化,比如患者预约与分流、基本沟通、手续查验与项目批准等,有效减轻了医护人员的负担。

  • Chapter 3.5 AI Agent 应用小结

随着 AI agent 技术的发展,为什么一些应用场景会更快地落地应用呢?我们发现目前取得成功的 agent 大多具备以下几个特征:

1. 任务定义明确且高度重复,比如客服、销售等场景,AI 能显著提效且风险相对较低。

2. 工作流模块化且相对独立,比如经过良好切割的软件开发任务,agent 可以不需要大量背景知识,在封闭、可控环境中运行。

3. 注重信息检索、分析与推理,大量自然语言交互,且不需借助复杂外部工具的场景。比如各种形式的调研,利于 AI 扬长避短。

4. 聚焦于协助而非完全取代人类,让企业能够逐步、稳妥地将 AI 整合到现有工作流中。

总得来说,业界普遍认为大模型和 agentic AI 的底层技术,已发展到了足以支撑大量 2B 领域商业化的阶段,而 2C 领域 MVP(最小可行产品) 的雏形也已经显现。

当然,想让 AI agent 承担更复杂的角色,在长期记忆、多模态、API 整合、以及多 agent 协作等方面,还有很长的路要走。此外,企业也要做好内部流程、数据和文档标准化的工作,才能让 AI agent 更有用武之地,这或许会像 10 年前的企业上云,并非朝夕之功。

04 AI Agent 的未来

在 Manus 引发的热潮和争议不久,OpenAI 发布了新的 Agent 功能,推出专用于简化 agent 开发的 API 和工具,包括 Responses API、内置工具和 Agent SDK,帮助开发人员和企业构建有用且可靠的 AI Agent。

所以 Manus 可能只是一道前菜,而精彩的部分才刚刚开始,Agentic 这个词也注定会成为 2025 年 AI 赛道的关键词。

周炜

创世伙伴资本 (CCV) 创始主管合伙人

前 KPCB 中国基金主管合伙人:

ToB 端其实去年就有一些产品收入很高了,ToC 端的话,我认为今年会是 AI 应用的元年。

我觉得一个通用的 AI agent 想覆盖所有的应用场景是不可能的,所有在 AGI 达到之前,日常生活中应该需要多种 AI agent 互相配合,比如有买机票的 agent,买保险的 agent,买房的 agent 等等。

其实不用把 agent 想得太神秘,它就是相当于日常生活中,某个垂直领域的顾问或者是从业人员在帮你做这个事儿。所有在 AI agent 它应该也有很多个,针对不同的方向帮你解决不同的问题。

当然,我相信未来所有的 agent 会是大一统的状态,但道路还很漫长,所以我觉得没必要观点太终极。我觉得现在创业公司得先专注在垂直领域把它做到非常精细。

Perplexity 这个产品就给了大家一个非常明确的方向,你看它从一开始就是专心在 「研究」 这一块做得非常的专业,我觉得就走这条路,足够成就一家很好的公司。

当然,一个新技术和新范式的产生少不了失败,这个失败在于对创业路径的失败,也在于对时机判断的失败,还有对于烧钱速度的失败等等。

在 AI Agent 这条道路上,我们已经看到一个初创明星公司的倒下:这就是 Adept。

Adept 总融资额增至 4.15 亿美金、公司 B 轮估值超过 10 亿美金晋升独角兽之后,却因为技术研发受阻而自己又研发基础模型所以烧钱太狠,不得不最终在 2024 年年中 「卖身」 给亚马逊。当时,这给所有想要从事 AI Agent 赛道的初创公司都枪响了警钟。

如果 Adept 能撑过黑夜、撑到如今的黎明时刻,说不定能比 Manus 拿出更好的产品、公司的结局会不会不一样呢?

无论如何,如今天快亮了,但新的一天才刚刚开始。长路慢慢,还早着呢。

[ad_2]

ShareShareScan

禾湖财经

  • 热门
  • 评论
  • 最新
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
18K金价格多少钱一克(2025年06月27日)

【明日主题前瞻】 康养机器人产业正迎来技术融合与场景落地的爆发期

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

​​美俄通牒激化冲突伦敦金蓄势待变​

​​美俄通牒激化冲突伦敦金蓄势待变​

2025 年 8 月 1 日
开家实体小店,还能撑起年轻人的「创业梦」吗?

实验猴的 「老龄化」 困扰

2025 年 8 月 1 日
龙头企业宣布加入停产检修行列,这一小金属价格在大厂挺价下高位止跌企稳

Figma 敲钟,创投圈年度 IPO 出现了

2025 年 8 月 1 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

OR

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录