AI Agent 迈向中央舞台：深度解析 2025 年进化新格局

猜您喜欢

进入 2025 年以来， AI Agent 的发展明显提速。5 月 6 日，OpenAI 宣布以 30 亿美元收购 Windsurf；编程工具 Cursor 的母公司 Anysphere 也获得了 9 亿美元的融资，估值高达 90 亿美元；号称中国第一个通用 AI Agent 的 Manus 在五月也获得了硅谷老牌风险投资公司 Benchmark 领投的 7500 万美元的融资；OpenAI 在一月推出了具备自主使用浏览器能力的 Operator，并在二月发布了专注于复杂任务处理的 Deep Research，这两个产品上线后迅速获得关注，如今已有不少用户成为其深度使用者。

这期文章我们就来聊聊：究竟是哪些关键能力，支撑了 Agent 的技术跃迁？哪一类 Agent 最有可能成为未来的通用 Agent？而普通创业者目前在 Agent 赛道还有哪些机会？

我们邀请了 MindVerse 心识宇宙的创始人陶芳波以及 AI 产品经理 Kolento Hou，一起聊一聊 AI Agent 的核心技术、热门产品使用体验、创业机会与挑战，以及 AI Agent 的未来将走向何方？

以下是这次对话内容的精选:

01 RTF 推动的 Agent 热潮

泓君：首先请两位嘉宾来分享下自己最近使用 Agent 的频率是怎样的？自己造了多少个 Agent？

Kolento：我几乎每天都在用不同的 Agent。因为我自己会开发一些产品，所以会用到 Replit 这类 IDE（集成开发环境）Agent，以及 Cursor 这类编程 Agent。平时我也研究很多「Agent builder」平台，比如微软的 Copilot Studio，字节的 Coze 等，它们可以帮助用户搭建属于自己的 Agent。我现在大概做了 200 多个 AI Agent，基本上遇到了一个场景就会去试一试。我感觉时代变了，现在开发一个产品的成本变得越来越低，甚至有点恐怖了。

陶芳波：我也是每天都在用各种 Agent，尤其是编程 Agent。虽然我没有像 Kolento 那样做过那么多 Agent，但我在做「造 Agent 的平台」。最早我们做过一个平台叫 MindOS，用来构建具备通用能力的专业型 AI Agent。现在我们在做一个新的开源平台叫 Second Me（第二自我），也是前段时间刚刚发布。用户可以下载到本地，创造出代表自己的 Agent。我觉得 Agent 时代真的来了，底层基础设施也都在慢慢成熟，组合起来之后，我们马上就会见到一个新的世界了。

Second Me

泓君：你觉得什么是 Agent？

陶芳波：从机器学习的视角来看，我所理解的 Agent，与如今大众语境中的 Agent 存在一定差别。在我过往的学习和研究中，最早接触到的 Agent 概念来自强化学习。在强化学习框架下，Agent 能够基于环境反馈，不断自主学习并优化其行动策略，从而实现特定目标。以 AlphaGo 为例，它就是强化学习语境中一个经典的 Agent。

然而，随着大语言模型的兴起，Agent 这个词的含义也在大众语境中发生了泛化。如今我们对于 Agent 的定义，通常具备几个特征：首先，它能够像人一样独立完成某些任务；其次，它通常由大语言模型，或具备一定思考能力的推理模型所驱动；第三，它有自己的记忆体系；第四，它具备与用户交互的界面。

例如 Windsurf 和 Devin，都可以被视为典型的编程类 Agent，也都有各自的交互界面。它们之间的主要区别在于目标用户和交互方式：有的是嵌入在编程环境中的，面向开发者；有的则面向管理者或非技术用户，能够自动完成网络搜索、测试等任务。

过去这三个月，我观察到一个非常有趣的融合趋势。传统的强化学习 Agent 有两个核心特征：其一是以强化学习为主的技术路径；其二是具备在环境中学习的能力。而大语言模型背景下的 Agent 则大多不具备学习能力，它们对于行业与任务的认知，依赖人类工程师的配置，例如设定知识库或工作流。

但现在，随着 reasoning model（推理模型）的兴起，以及 RFT（Reinforcement Fine-Tuning，强化学习微调）技术的应用，越来越多基于大语言模型的 Agent 也可以在法律或电脑操作等特定领域中自主学习和探索。这是 Agent 发展中定义层面的升级。它结合了传统强化学习中 Agent 的自主学习、自主探索的能力，以及通用 Agent 在任务执行、用户交互和复杂问题解决中的综合能力。因此，自 2025 年初以来，业内对于 Agent 的发展非常兴奋。

早在 2023、2024 年，Agent 概念就已经出现，我们当时也做过如 MindOS 这类的平台，但那时的 Agent 更像是脚手架。而现在，Agent 真的具有智能，尤其是通过强化学习、思考能力的注入，达到了我们想要的技术范式的状态。

Devin

泓君：你认为 2025 年的 Agent 和之前相比，最本质的区别是什么？你提到的最早的强化学习中的 Agent，我的理解是，比如在一个游戏场景中，让两个小人推方块，想办法把自己围起来，避免被外界攻击。你会看到它们慢慢涌现出一些智能，甚至用我们人类没想到的方法去完成任务。

我记得在 2023、2024 年时，大家基本还是在游戏环境中测试 Agent 的协作表现。而 2025 年的 Agent，在强化学习和电脑操作结合之后，开始进入更多领域。比如我让语言模型帮我订一张机票，我告诉它我所偏好的时间、地点、航班类型等等，如果它能顺利完成一个完整流程，我就觉得是一个好的 Agent。

陶芳波：你刚才打的两个比方都非常好，你提到的 Agent 本质上都还是带有环境的。我说的变化，或者说让大家兴奋的地方，主要是底层能力的变化。

以前的大语言模型的训练存在很大的限制，无论是预训练还是后训练，包括 RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）等人类对齐技术，其训练过程本身是脱离环境互动的，目标只是优化与人对话的表现。虽然我们可以把它作为大脑，强行给它接工具、加记忆，让它在某种环境中完成任务，但由于训练过程本身没有和环境互动，所以它的行为始终显得很机械，无法真正适应环境的变化。

你提到的小人在环境中博弈的例子，正是典型的、在环境中学习的传统强化学习的 Agent。而 2023、2024 年虽然 Agent 很火，但始终难以落地，问题就在于环境的缺失。

但现在，我们在技术上拥有了新的能力。比如 DeepSeek R1 的文章就指出，它最后的推理能力，不是靠死记硬背的知识库训练出来的，而是通过模型在问题环境中自主学习实现的。AI 像人一样，在过程中自己思考、调整策略、探索解题路径，最后掌握了解决数学题或编程题的方法。这种自主寻找解决路径的过程，在以前的训练中是完全没有的，所以我们可以称之为这是大语言模型的「AlphaGo 时刻」。大语言模型真的学会基于一个环境给出的奖励来自主地找到解决方法了。

Cursor

泓君：我了解目前市场上做编程类 Agent 的公司有几十家，从最早直接使用大模型编程，到微软的 Copilot，再到 Cursor 和 Devin，行业在不断迭代。但为什么最终是 Cursor 和 Devin 跑了出来？它们比别人好在哪儿？是因为对环境的理解更深入？还是因为它们起步更早，抢占了市场？

陶芳波：我几乎每天都会用 Windsurf，相比 Cursor 我觉得它更好用一点。你提的问题非常精准，我认为，Windsurf、Cursor 甚至更进一步的 Devin，本质上是对于环境的理解更到位。

举几个例子，比如 Windsurf 不仅是一个简单的核对代码的插件，它内部还做了 context engine（上下文引擎），所以它非常清楚自己所能操作的代码空间，包括数据、测试、文件和配置的位置等。

再比如早期的 Cursor，它虽然能写代码，但无法执行命令行操作，也不能联网搜索。而 Windsurf 在近期的版本中已经不止是能写代码，还能执行命令、操作文件，甚至检索网络技术文档作为参考。把 Copilot 这类的编程工具的环境边界扩大了很多。

Devin 的野心更大，它从一开始就打算去掉 IDE（Integrated Development Environment，集成开发环境），不需要考虑 IDE 中环境的问题。Devin 设计了一个包含四个子界面的窗口：浏览器、IDE、用户交互区和测试环境。它所构建的环境比 IDE 更大且更细致。

它还有一个笔记系统的功能，我觉得很有意思。因为它想让 AI 能完成一个完整的软件工程闭环，这个过程可能非常长，而大模型无法理解过程的全部行为。所以就像人类在开发时会记笔记一样，Devin 也加入了一个笔记环境，类似于它的策略室、作战室。当模型有新的想法时就记录下来，之后可能有一段时间它不再写代码或者做检索，而是在修改笔记中的问题或者优化笔记中的系统设计架构。我觉得还是非常吓人的，就像人为自己创造了一个思考环境，并且学会在其中迭代。我觉得这个功能也是非常有意思，也可以加入 Agent 的武器库中。Devin 不仅是做了这个功能，而且它们对于 context、enviroment 的理解也更好。因此它们在 4.2 万亿美金的全球软件工程的大市场中能跑在前面。

Windsurf

泓君：你刚才提到一个观点我觉得挺有意思的：现在如果要做 AI Agent，环境已经比数据更重要了。那是否意味着只要对某个方向有足够深入的理解，几乎任何人都可以构建自己的 AI Agent？它已经从一种「高门槛」的大厂项目，变成了普通人也能参与的创业机会？

陶芳波：这件事情有两面性。一方面，借助 RFT 的方式，可以显著降低对大规模数据的依赖，从而减少资本和算力的投入。但另一方面，我对 Agent 创业的前景并没有那么乐观。如果每个人都能做 Agent，且做的都是服务型 Agent，在 C 端市场，真正还有多少空间留给新的 Agent 创业项目？

举个例子，Deep Research 上线之后，一些我们以前认为需要单独工具完成的任务，比如学术研究、市场调研，它几乎都能覆盖。而像 Operator 这样的平台，不仅能帮你订餐、买菜、订机票、做行程规划，还可能覆盖上百个场景，这些在过去或许代表着上百个不同的创业项目，现在却可能被一个通用 Agent 整合完成。

大厂和大模型公司在一些足够大的领域里占据位置。剩下的空间，只会是一些很小机会。相比移动互联网时代，创业者在这个时代的机会会少很多。

泓君：所以这是一个更适合做小而美的时代，因为大机会都会被巨头吃掉。

陶芳波：对，而且现在做一款产品或者一个 APP 时，边界比以前更容易扩大。一旦被大厂占住的机会，往往能覆盖用户更多的需求和注意力。普通人在这个时代中还有哪些机会？我想到一个挺有意思的案例：在移动互联网时代，微信推出了公众号平台，抖音推出了短视频平台。这些平台级机会几乎都被头部公司牢牢占住了。但为什么仍有很多普通人在这个时代里赚到了钱？关键就在于，他们利用这些平台做出了新的东西，在平台中表达了自己的个体性，比如做自媒体网红。

我还是认为，如果我们只从「AI 工具提升生产力」的角度来看，确实会有很多人原有的价值被剥夺。但我认为当 AI 形成网络之后，可能会有一波新的个体机会被释放出来。也许那时会有一波新的创业潮出现，比如，现在的网红也可能会变成创业者，他做了一个表达他自己的个性的 Agent，也会有独特的市场。但如果目标是做一个服务所有人的通用 Agent，我觉得机会是很小的。

02 Agent 爆火背后的密码

泓君：刚才你提到了三种核心能力：模型能力、工程能力，以及数据壁垒的能力。你认为未来在真实用户的实验中，数据壁垒可能是最重要的核心竞争力。但我也听到另一种声音，比如 Manus 的创始人张涛就分享了他们产品引爆的关键节点，他认为是和 Claude Sonnet 3.7 模型的发布高度同步。我也看了 Cursor 的创始人在 Lex Fridman 播客上的采访，他也提到类似观点：像 Cursor 这种自动写代码的 AI Agent 能火，最根本的原因还是大模型能力的提升。

为什么现在大家会觉得 Copilot 有些过时了？很大一部分原因也是它的产品升级没能及时跟上模型的能力迭代。所以归根结底，Agent 的爆火，底层模型的提升仍然是决定性因素。

Claude

陶芳波：对，我完全同意。一方面，大模型能力的提升确实带来了智力的提升，对任务的理解能力自然也就更强。但更重要的是，大家频繁提到 Sonnet，是因为它不仅聪明，而且是第一个真正解决了代码生成问题的模型。代码是一种通用的行动空间，在数字世界中具有极高的操作性。Sonnet 让几乎所有任务都可以通过代码这个中间层，转化成了像八爪鱼一样可以操作背后的数据与环境。这对整个 Agent 生态是质的飞跃。

所以你提到的 Cursor 和 Manus 自然会非常看重这种模型能力的提升。但我也想强调一点，数据依然是一个不容忽视的问题。即便是在数字环境中，很多平台的数据依旧存在壁垒，无法通过代码层来访问。比如说，如果你希望 Agent 去获取某个人在 Facebook 上的信息，仅靠代码就无法实现。

所以从今天这个时间点来看，凡是代码层能接触到的数据，Mannus 这样的通用 Agent 都可以纳入进来做很多事情。但依然还需要面对数据层的壁垒问题。

泓君：所以你觉得像 Cursor、Windsurf 这些 AI 编程 Agent，反而可能是最有可能杀出来的那一类，未来甚至可能发展成应用很广的巨型通用 AI Agent？

陶芳波：现在已经能看到这样的趋势了。Cursor 和 Windsurf 目前都开始接入一些自定义的 MCP 接口。虽然它们在表面上看起来是编程类 Agent，但已经可以接入 Notion 等不同平台的 MCP。它在编程在过程中也可以做类似 Manus 做的事，比如编辑 Notion 内容。

Manus

Kolento：我一直认为 Manus 对模型的依赖非常强。但我们希望建立的是一种更健康的机制：模型越强，Agent 也越强，而不是模型越强，Agent 反而被替代。之前 GPT 频繁更新那段时间，很多 YC 的 AI 公司倒在了路上，原因就在于它们的构建方式不对。

我觉得 Manus 也面临类似的问题。它的任务理解、工具调用这类智能能力几乎是完全托管给主流大模型的，比如 Claude 3.7 Sonnet。这也是我猜它们为什么会采取邀请码机制：因为调用成本高、性能不稳定，比如模型升级、API 波动、响应延迟、输出幻觉等，都会成为产品层面不易控制的变量。我本身是做产品经理的，所以我一直在思考如何更好地从产品侧解决这些问题。

姚顺雨写过一篇文章，他认为强化学习有三个要素：算法、环境以及先验知识。他还提到一句我非常认同的话：evaluation（评估）比 training（训练）更重要。

在过去构建 AI 产品的过程中，我过度聚焦在 prompt 工程以及挑选最新的大模型上。但我逐渐意识到，真正决定产品质量的，是对系统效果的可衡量性的判断机制，也就是 evaluation。打个比方，prompt 是武器，但 evaluation 是你的准心。

因为一个 AI 产品不可能靠一次成功的 demo 活下去，它需要持续迭代。而 evaluation 正是量化每次产品变更效果的唯一工具。

当然，它和传统的测试又不太一样，更加灵活，也更偏向语义层面。目前市面上主要有三类方法：

1.Human Evaluation（人工评估）：优点是与用户偏好直接相关，具备人类的语义理解。但局限性也很明显，反馈稀疏、不够精准、成本高。

2.Code-based Evaluation（基于代码的评估）：优点是快速、便宜，适合代码生成类任务。但对语义复杂、交互丰富的应用则不适用。

3.LLM-based Evaluation（大模型自评）：这是目前论文里最常提到的一种方向，让模型不仅能生成，还能评估自己的输出，具备高度自动化能力。

所以我认为，未来要做出真正有竞争力的 AI Agent，evaluation 是必不可少的能力中心，从一开始就要建立起完整的 evaluation 框架。

以 Manus 为例，它其实已经有多个模块：意图识别、工具调用、API 调度、内容生成等等。每一个模块都应该有独立的 evaluation 逻辑。这不应该是后期的附加测试，而是像 DevOps（开发运维一体化）一样，AI Agent 也应该有自己的 EvaluationOps，任何一次响应、执行、生成的过程都要通过评估机制。

我觉得之后的重点是，需要形成一套通用的 evaluation 模板库，并能扩展到新的任务类型上，类似 Phoenix 这样的开源框架。比如摘要生成（summary）、RAG（Retrieval-augmented generation，检索增强生成）、代码生成（code generation）等。

陶芳波：我很同意 Kolento 这个说法，尤其是关于面向真实环境的 evaluation。未来的 AI 产品，本质上可能都会是 Agent 产品。而 Agent 产品首先要关注其所处的环境；在此基础上，接下来的重点就是如何 evaluate 它在环境中的表现。

如果我们进一步把 evaluation 提升为 reward 的概念，那就意味着这个反馈具备可重复生成的特性。当 Agent 在环境中探索和优化时，可以始终参考 reward 进行对齐或学习。这是接下来设计 Agent 产品时更重要的思考路线。

CSDN.com

泓君：evaluation 是一个很重要的问题，也让我联想到另一个技术话题，就是 RFT（Reinforcement Fine-Tuning，强化学习微调）和 SFT（Supervised Fine-Tuning，监督学习微调）这两种方式的区别。OpenAI 发布 RFT 之后，现在绝大部分 AI Agent 创业者都倾向于使用 RFT，因为效果更好。

但我们也和一些更老牌的做 Agent 的创业者聊过，他们反而认为 SFT 在成本上更具优势。虽然目前 RFT 在效果上可能比 SFT 好 25% 左右，但训练和运行的成本可能是几倍的差距。尤其是在用户量大的情况下，这种成本差异就更为显著.

您认为我们是否真的需要为这 25% 的性能提升，付出成倍的成本？我听说 Manus 内部用的就是 SFT 技术。

陶芳波：关于 SFT 和 RFT 的选择，确实可以看到技术圈正在逐步向 RFT 迁移。但就 Manus 来说，它们当时没有用 RFT，原因之一是当时 RFT 本身还没有发布多久。更重要的是，RFT 需要微调背后的思维链模型，但 Sonnet 本身是不允许微调的。所以 Manus 使用 SFT，其实并不是用在模型的核心思维链模型，而是外围执行模模块，比如 Computer Use Model 这一类组件。换句话说，它们调的是「手」，而不是「脑」。

03 垂类 AI Agent 推荐

泓君：在你目前使用过的这些 Agent 中，有没有哪些在表达或交互上特别出色的？

Kolento：我觉得 Replit 非常出色，它在我需要澄清问题的时候，总是能及时引导我把需求讲清楚。

我还想提另一个产品 Fellou，可能算是 Manus 的潜在竞争对手，是谢扬最近推出的一个 Agent 浏览器。它的交互方式很符合我的预期，在执行任何任务之前，都会先通过更可

视化的方式和我进行对齐，对齐完之后再自主运行。

因为 Fellou 是 PC 端应用，所以它具备一定的系统级权限。每当遇到高危操作，比如需要登录或输入密码时，它会以系统弹窗的方式提醒我进行确认。而这正是 Manus 目前做得不太好的地方：它缺乏足够的对齐，在高危操作上又无法获取权限，经常会直接卡住。白白消耗掉 credits，任务也没能完成。

所以我觉得像 Fellou 和 Replit 的设计理念更合理，在关键场景引入 HITL（Human-in-the-loop，人机回圈）机制，与人类进行对接。

Replit

泓君：在你们目前使用过的 AI Agent 中，如果从用户体验和商业潜力两个维度出发，有没有哪些公司是你们特别看好的？

陶芳波：我个人认为，现在市场上还没有出现真正能覆盖全人群、全通用场景的 Agent 产品，大家还在寻找不同的切入角度。

我比较看好 Cursor、Windsurf 这类编程 Agent，它们是从技术人员的角度切入的。而这两者中我更看好 Cusor。目前来说，Cursor 的市场渗透率更高，它毕竟是在 Windsurf 之前就做出了这种产品形态。我也更认可 Cursor 团队在探索上的那种进取心。当然，Windsurf 被 OpenAI 收购，也不排除未来会被赋予更强的战略目标，朝通用 Agent 方向发展。但相比之下，我觉得一个独立团队所拥有的自由度会更大。

而且我觉得我们普遍低估了编程 Agent 作为未来通用型 Agent 的潜力。很多人对 Cursor 的印象还停留在「Web 端编程工具」这个层面，觉得它就是个辅助编程工具。但随着 MCP 这类底层基础设施的逐步完善，Cursor 正在积极地把自己从一个编程工具，变成一个可以连接多种应用、场景和数据的平台。

也许 Cursor 未来的界面都会分成两种模式：一种仍以 IDE 为核心，目标是代码产出；另一种则把代码作为手段，核心目标转向完成任务。这是很多美国公司常见的做法，先打好坚实的底层架构，再一层层往上构建功能。所以我比较看好 Cursor 的发展路径。

当然 Manus 也还是有机会的。它是从办公人群的日常场景切入，不只是做 Deep Research，还具备不少文件处理等方面的能力。但我觉得从这个角度出发，也需要逐步拓展能力集。通用型 Agent 的建设，是一个需要长期积累的过程。

Kolento：我目前关注的 AI Agent 产品，大多都是非常垂直的场景类产品，虽然它们可能不为大众所熟知，但在各自领域内表现都非常突出，也很有前景。

比如 Vantel，它专门为商业保险经纪人打造。保险行业里，很多从业者 80% 的时间都花在重复性工作上，比如保单分析、手动录入数据等。而 Vantel 专注于将这些流程自动化。它们自己宣称，能每周帮一个经纪人节省十个小时以上的时间。早期的 demo 就能在五分钟内帮用户快速比对和分析一份几百页、包含大量条款的保单的。我看了它们的 demo 和很多用户反馈，效果都很不错。

还有 Sweet Spot，我从 2023 年开始就非常关注，一直都觉得这个项目非常有前途。它做的是 AI for Granting，主要服务全球的 SMB（中小企业）、NPO（非盈利组织）和 NGO（非政府组织），帮助它们申请各类政府资助和联邦补助金。除了分析合同之外，还能辅助用户分析招投标。它的用户体验也做得很好，比如前期会自动帮你搜索相关合约信息，并提供深入解读。而且它们的 UI 在 2023 年就已经做得非常不错了。我记得每次它只给 48 小时免费试用，因为太好用了，为此我换了八九个邮箱，最后还联系了它们 CEO，希望能开一个会员账号。

Sweet Spot

泓君：我也用过一个非常垂类的 Agent 产品，叫做 Gamma，是一个 AI 辅助制作 PPT 的工具。我觉得它完全可以「秒杀」Canva。我只需要提供一个大致的框架或主题，它就能自动生成内容并排版。比如我小朋友学校要讲解「什么是 Podcast」，我交给 Gamma，五分钟就能出一整套 PPT，排版也很好看。而且其中的内容如果有不满意的地方，简单地手动修改再导出就可以了。

Kolento：很巧，我是 Gamma 的前 100 位用户之一。我在它们 2020 年刚上线时就注册了账号，到现在我的 credits 都还没用完。很多人知道 Gamma 是因为它 AI 生成 PPT 的功能，但我最早用它的时候还没集成 AI，那时我就觉得它的产品非常出色。

我现在所有的 PPT 都是用 Gamma 做的。不仅是因为它的 AI 功能，而且它的立体效果也非常好。它是模块化的 PPT 工具，可以自由拖拽不同模块到不同的页面，而且视觉效果非常有冲击力。我记 2020 年左右我看了它们一个 demo，展示了如何在静态 PPT 中「炸出」一段视频，当时我就被震撼到了。从那以后我就一直用它们家的产品。

现在它们也上线了很多 AI 生成的功能，整个平台变得非常完善。虽然免费用户现在只能做 10 页，但这 10 页几乎能覆盖大多数人的常见需求。而且它支持对每一页做很精细的微调，提供几乎所有需要的组件，甚至可以帮你判断插入的图片是否可商用，还能自动从不同图库中搜索替代素材。我觉得它们在每个细节上都做得很到位。

Gamma

04 行业快与慢

泓君：过去的两个月行业发展得非常快，大家觉得你们在心态或者做事方式上有哪些变化吗？

Kolento：我觉得变化非常明显。过去这几个月，像 Manus 这样的产品陆续发布，我的工作速度加快了，而且我的很多竞争对手也是。现在无论是开源还是闭源项目，有些时候甚至都会要求执行大于计划。

以前从产品经理的角度出发，做事情的第一步通常是做详细的拆解，考虑非常多的细节，可能会写很长 PRD（Product Requirements Document，产品需求文档）。但现在我发现，很多团队已经不再那么强调 PRD，而是更关注怎么尽快打通从需求到落地的链路。

这种变化不只是我个人的感受，在工作场景中也非常明显。整体来看，不论是行业节奏还是产品迭代的浪潮，统一都在加速推进。我最大的感受就是：一切都变快了。

陶芳波：对我来说，最大的变化是我们发布了 Second Me。但如果说到对整个 Agent 主题的感受，我和 Kolento 反而是有点相反的。

年初的时候，大家普遍觉得 2025 年将是「Agent 之年」。虽然 Manus 发布了，MCP 协议也越来越火，但我反而觉得，如果 Agent 真的要在 2025 年破茧而出，成为一种像大众日常使用 AI 一样的方式，仍然存在非常多的问题，而且越做发现问题越多。

今天的大语言模型，尤其在国内，连我爸妈那样的用户都会使用豆包。基于大语言模型的聊天机器人已经成为一个通用的产品形态。但如果我们谈的是 AI Agent，不论是垂类还是通用型，要达到同样的日常使用程度，我觉得还有相当大的距离。而且，很多问题不是靠某家公司搞出一个新功能就能解决的，它更像是一个行业级的挑战。

比如有两个大的问题。第一个是环境侧的问题。每一个 Agent，本质上都在桥接用户与环境，是需求与行动之间的转化器：它要不断挖掘用户需求，并在环境中转化为行动，实现双向沟通。虽然环境侧有了 MCP 协议，但这个协议还很不完善，生态渗透率也很低。就像任何一个标准协议一样，MCP 所需生态的配合和渗透，都是以年为单位来衡量的过程，而不是几个月就能铺开的。所以还需要慢慢推进建设大量的生态。

第二个问题是 Agent 如何真正理解用户需求。Agent 要如何主动提问、捕捉需求、理解偏好。我们虽然已经发布了开源项目，现在在 GitHub 上也有了 9.2 万颗星，很多社区内的人已经在用了。但我们也发现一个很难解决的根本性问题，在未来的世界里，如果一个人真的想把 Agent 用好，他自己也必须具备一个高质量的输出通道。

Medium.com

泓君：一句话简单解释一下什么是 MCP？为什么 MCP 的发展可能是一个「以年为单位」的过程。你觉得它目前还存在哪些待进化的地方？

陶芳波：MCP 是一个关于 AI Agent 如何访问外部信息源或服务的协议。它不是 Agent 和 Agent 之间的，而是 Agent 和服务之间的协议。

我之所以说它需要以年为单位来进化，并不是因为这个协议本身有多严重的根本性缺陷，尽管它还有很多可以改进的空间。更核心的问题在于行业层面的采纳意愿。

你希望行业能主动拥抱 MCP，但很多平台并不愿意开放它们的数据，因为这些接口和数据本身是它们商业模式的基础。一旦引入 MCP，其他 Agent 可以使用我的接口和数据，就会涉及到一系列问题，比如：身份验证如何处理？数据隐私怎么保障？最关键的是如何保障我的商业化？这些问题，目前还没有行业统一的标准或解决方案。我们现在所拥有的，其实只是一个技术上的通道。

所以我认为，目前行业的落地是以年为单位来推进的。今天的 MCP 更多还是对于 API 的 AI 化封装，而还没有真正实现 AI 原生的程度，还无法让 Agent 真正通过 MCP 这扇门进入对方的环境中进行自由操作。