对话 Kimi 付强：别把模型当宠物圈养，追逐 AGI 就要让模型与人类共同演化

猜您喜欢

对话 Kimi 付强：别把模型当宠物圈养，追逐 AGI 就要让模型与人类共同演化在今年 AI 创造者嘉年华期间。硅星人创始人兼 CEO 骆轶航，与月之暗面（Kimi）技术副总裁付强，就 K2 模型诞生背后的种种「反常识」，以及 Kimi 追逐 AGI 的方法等进行了一场对话。以下为对话实录，经不改变原意的整理：为什么 Kimi 重返预训练？骆轶航：去年 Kimi 产品做得很漂亮，从去年到今年一直在搞预训练，中间推迟了很多次发布，在今年 6 月底拿出 K2，开源社区里的开发者大家发自内心的觉得 K2 很厉害。但 K2 其实是借用了 DeepSeekV3 的架构，你们怎么看这个事儿？付强：首先从技术的角度，我们的确采取了一致的架构，这个事情在我们内部也有过一些讨论，不管采取什么样的架构，我们都有信心把模型做得更好，但在做这个决策的时候，我们要面临一个比较关键的挑战：要不要为了标新立异而产生一个不同的新架构，如果我们有能力采用 DeepSeek 一样的架构，也就意味着说所有过去为 DeepSeek 的架构优化过的推理资源，K2 模型基本上可以重用。因为我们决定 K2 要做一个 SOTA 的模型，同时也是一个开源的模型，也没有太多的纠结，最后采取了一样的架构。架构的相似之外，还是有很多需要额外努力的地方，更多的细节在我们技术报告里。可以做一个非常粗浅的解释，首先超参数肯定不同，我们也是一种 MoE 架构，专家数量变得更多，把注意力头数做了减半，这个是表象。在决策背后，我们有大量测试和训练过程中的收获。当然还有第一层的 dense 模型，它有多紧致。最后结果就是总体架构很像，但实际上部署和测试发现，因为数据集的不同，超参数的不同，表现是有显著差异的。骆轶航：其实它呈现的是架构相同，但是有自己特性的东西。付强：架构相似。其实架构在这个领域并不是特别重要的事。汽车都长四个轮子，大家不是比拼我造出五个轮子的车，而是车好不好开。我相信在开源世界，当然可能有一代又一代架构的创新。但开源世界本身的迭代在没有特别好的理由情况下，不应该在架构上做太多的变化。骆轶航：今年后训练、推理、强化学习变得更重要，大家认为是一个趋势，因为离 Agent 的距离可能更近。对于 Kimi 来说挺不一样的，把 K1.5 的那一套 RL 停掉了，重新开始搞预训练，反潮流而行。这意味着补课，还是新的机会？付强：这个问题特别好，我相信在座各位经常听到预训练这个概念，另一个相关的是很多大佬出来说 Scaling Law 到头了。过去他们曾经认为在预训练付出成本越多，结果会越来越好，直到有一天在预训练投入更高的成本，效果不一定好，有些公司逐渐在预训练上缩减了投入。在这个行业中，过去大家也聊过摩尔定律，动不动有人说不 work。骆轶航：现在好像真的不 work，不过是说了 40 年才不 work。付强：每个团队都有自己的判断，我认为现在行业中，预训练应该说还是有一些空间的。这里面关键的要点在于我们能不能愿意忍受一段时间的寂寞，去真的推出一个预训练模型。Kimi 从 24 年曾经有一段时间在媒体上很火，包括投放很多，突然销声匿迹一段时间，直到今年 6 月底、7 月初推出 K2，中间这段时间是没有什么声音的，这是预训练的另一面，需要认认真真沉寂下来做好，遇到一个一个问题把它解决。为什么预训练可以 work。最早 DeepSeek 那篇文章出现的时候，它的解释是让很多人眼前一亮的，用比较低的成本做一次预训练，当时很多人测算是 500 万美金。但我们有另一个逻辑：训练的成本低，模型一定更智能吗？某种程度是这样的，训练成本低，用同样的钱可以训练更多的次数。但很快会遇到一个挑战，互联网的语料、高质量的语料是非常有限的，如果我们已经让模型学习了整个互联网所有高质量的知识，不管让它学多少次，也没有办法变得更聪明。在我们的技术报告中也有提到，我们也抓住了很多预训练方面过去没有太关注到的部分。同样读一本书，我能不能从一本 10 万字的书中，读出 20 万字的内容。跟别人同样读 10 万字的书，能不能比别人学的更深入。大家回想一下自己的学生生涯，学的教材都一样，为什么有的人比别人学的好，有一部分人是老师教导的好，还有一部分是学习过程中的触类旁通，举一反三。在这次技术报告中我们也着重介绍了相关内容。总之就是我们发现在预训练的领域有这些收获，沿着这个路走下去，把全公司精力投入到新的基座模型上，就会显得在其他方面的动作可能稍微慢一些。骆轶航：我觉得这个事儿很重要，那些事儿没那么重要。付强：是的，当我们决定做一个基座模型，我们希望把它做得最好，就要做出选择，在预训练上我们继续花精力，希望未来可以给大家带来 K3、K4。预训练我们认为还是有机会的。骆轶航：不是成本越低，训练次数越多就越好。让一个模型更智能，提升的方式具体你们怎么做的？付强：可以做一个简单的类比，实际的过程有点复杂。举例来说，同样一个知识点，同样一个文本，它其中蕴含的信息可能不是文本表现出来那么简单的。比如说 7+5=12，这是一个加法，你很快把这个式子变成 12-7=5，变成一个减法，它还蕴含等式两边符号变化、加法和减法之间的关联，今后遇到这样的题，通过这种方法去验算。如果我们把传统意义上的训练当成背书，熟读唐诗三百首。从玄学一点角度来说，如果有一天我们带来真的 AGI，我相信我们看到的不仅是一首诗，还看到背后透射出来历史背景，诗人写诗的意境，里面的押韵，文字选择在变迁过程中，有漏记，抄错，都是隐含在 Token 中的，我们通过足够多的比对，对一段 Token 的不断的演化，最终能够达到从同一本书学到更多的内容。除了我刚才说的变化以外，还有其他技术可以探索。提高 Token Efficiency（Token 使用效率）至少能把 Scaling Law 撞墙的问题拖后到半年到一年。骆轶航：我们说 Token Efficiency，其实是预训练 Scaling Law 往前走的现在的一个方式，因为数据总量没法再提升了，参数的提升已经不重要了。付强：对，参数提升也重要，但是它会带来太过高的成本。当然我们也很尊重包括 DeepSeek 等在 Training Efficiency（训练效率）上做出的很多贡献。我想表达的是预训练不光是 Training Efficiency，不是训练一次成本更低问题就解决了，Token Efficiency 我认为会是最近的一个重点。让社区帮助我们进化，但要领先半步骆轶航：Kimi 是怎么看待开源的？是不是跟着 DeepSeek 的热度？DeepSeek 之后，中国开源模型迅速和美国闭源模型对阵，甚至影响到美国开发者的选择。朱啸虎之前说 DeepSeek 会成为中国的新基建，但现在看还没完全实现。那我们为什么要开源？开源到底给我们带来了什么价值？毕竟在今年之前，Kimi 并没有特别强调过开源。付强：最终选择开源，我的视角不是很全面，但我可以分享我们团队感受到的一些思路。Kimi 相比于更先发美国的公司，我们规模小得多，需要把精力更加集中在如何构建一个第一方的模型上。一旦构建出第一方的模型，通过开源方式分享给大家，我们就会看到很多开发者基于开源模型做出新的应用。这些应用本身也会成为对我们的启发，这些启发会影响我们做下一个开源模型时，可能在哪个领域去发力。只有开源，才能让这种「社区给我们反馈、帮助我们更快进化」的循环真正发生。我们非常欢迎社区出现比我们更酷炫的产品，这并不是「大公无私」，而是因为只要我们始终比社区快半步，就能把这些启发吸收到下一代模型里。另一方面，从纯技术角度来说，我认为开源也是展示技术能力非常重要的一部分，开源以后，所有人都能直接验证我们的模型，他们可以自己部署，甚至用自己的数据集去测试好坏。而如果是闭源公司，它可能会把很多东西藏在背后，采用工程化手段来模拟，比如先判断你的问题领域，再调用一个特定的行业模型去回答。这种方式看起来进步很快，能快速满足大厂一些老板的要求，但和真正开放、可验证的模型能力是不一样的。骆轶航：你都指向大厂了。付强：更多是我们如何看待如何构建一个真正走向 AGI 的大模型，短时间达到好的效果，某种程度上也为用户提供好的体验。有一篇广为传诵的文章叫做 The Bitter Lesson（苦涩的教训），回顾人工智能行业的发展，不管是卡斯帕罗夫的深蓝，还是中间的 NLP 演进，再到 AlphaGo，最终论证了一点，当你希望达到最高智能的形态，你是没有办法靠复制人们过去的知识，或者把问题逐步拆解成我能理解的片段来解决。最终一定是我们把智能通用化，解决最根本性的人工智能问题，才可以走向 AGI。我们也希望向大家证明，我们也是走向 AGI 的路上，而不是仅仅停留在用户提问时，我们怎么答得好这种临时性的解法。骆轶航：模型的效果好不好，跟它智能化程度不是完全相关。付强：或者从另一个角度说，我们希望向世人证明通过提升模型的智能化程度，也可以解决很多非常专业的问题，不需要靠工程上的 Trick。骆轶航：今年非常热的一个词 Agent，人人都在做 Agent。OpenAI 推出了 Agent，大家都在讨论，怕不怕 OpenAI 做的 Agent，当然，很多人嘴上会说「这是好事」，但心里其实还是有点担心。你怎么去看 K2 跟其他的很多独立通用 Agent 公司之间的关系？是劝他们放弃，还是劝他们走另一条路？付强：这个问题很难回答，我想到一个类比，在第三方做 Agent，是没有办法很深入的了解模型本身，毕竟是通过外部 API 调用。类比到生活中，特别像赛车手和赛车之间的关系，每一辆车出厂的时候就像 API，它有很多参数供你调用。赛车手可以去操控、油门、刹车，甚至一定程度上可以调整胎压。不同的赛车手操控同一辆车，他的技能也千差万别。第三方 Agent 作为赛车手的角色当然有巨大的价值，也会有优胜劣汰。但是在 F1 赛场中，你会发现赛车手往往来自于赛车公司的，当你希望把性能跑到极致，是没有办法只通过逆向工程拆解。打造车的过程，第一方公司必须要参与。骆轶航：好的赛车手是没法换车的。付强：赛车手会面临一个尴尬，我 AE86 开到秋名山车神了，换一辆车不一定开得这么好。同样，模型有任何更新，或者偷偷做任何降智，都会导致 Agent 第三方性能发生翻天覆地的变化。因为它某种程度上都是逆向工程，盲人摸象把性能发挥到极致。第一方公司恰恰相反，公司不一定规模很大，来不及去 fine-tune 每一个赛道，法拉利开秋名山也开不过 AE86。我认为最终要做到 AGI，把 Agent 做到最好，一定是需要模型在构建过程中，端到端考虑应用的场景。但这个过程中还是要意识到赛车手的价值，一个做赛车的公司，至少在现阶段，没有办法在没有赛车手的情况下把所有场景覆盖掉。骆轶航：今年这么提的人少了，一个 Agent 公司，或者是提供某些服务的公司会告诉你，我背后提供不同的 Agent，我会基于每个 Agent 的特性和需求自动调用，这个事儿基本扯淡。付强：这个有点像刚才说的工程化 MoE。这件事情最终是模型具备的能力，MoE 就算有，也是在模型内部来做这个判断，而不是靠人类的经验知识。骆轶航：所以 Agent 其实更应该是模型本身面向用户的一种形态，而不是外面再套一层。付强：我认为，一个好的 Agent 就应该像 K2 这样。在训练过程中，我们就充分考虑了这一点，让它原生具备很强的能力。过去的模型更多是基于对话，而最大的差别在于，它是否拥有足够强的突破能力，让人类真正具备调用工具的本质能力，而不是仅仅依赖后期的 Fine-tune。我打个比方，就像在数学学习班里，你可以教一个资质一般的小朋友，用口诀去算 1 加到 100，首项加末项，乘以项数，除以 2。这是一个技巧。而另一种方式，是在最初的构建阶段，就让他通过端到端的训练，多做各种数学题，从中自己悟出规律。这两种方式在某种程度上结果相似，都能解决问题，但对智能泛化的程度却完全不同。只有通过端到端的训练，才能让第一方模型原生地突破，具备真正的智能能力，而不仅仅是照葫芦画瓢，在特定场景里模仿人的 Workflow 去完成操作。为什么是 Coding？因为它是一个更客观的智能标尺骆轶航：朱啸虎不看好 AI Coding 作为独立的创业公司。刚才投资人们也在讲 AI Coding 作为独立公司是不靠谱的。Kimi 是个模型公司，现在有了自己的 Agent，也在做 Coding，而且做的很好。你们怎么看待 Coding 这件事情？我觉得一个模型更擅长写诗还是更擅长写代码，跟这个公司本身的气质、文化和价值观是相关的。付强：为什么我们认为作为一个走向 AGI 的公司，Coding 是需要关注的点。从基座模型公司角度来说，DeepSeek R1 出圈的时候，我在社媒看到很多案例，它其实提供一种情绪价值：我终于找到一个人工智能模型，他懂我，它的回复如此的高度共情，彬彬有礼。骆轶航：文科生的模型。付强：当然 R1 也有很强的理科推断能力。但这里面存在一个小小的悖论，如果我们把很多精力放在提供用户价值上，这个过程其实很难评判。一个聪明的模型，就一定比一个更笨的模型能提供更好的情绪价值吗？不一定。比如，你让一个名校毕业的人和一个在社会上摸爬滚打多年的人去解决编程问题，他们会表现出显著的差别。但如果是处理人与人之间的交往，比如在恰当的时候提供合适的情绪价值，那就是另一条完全不同的路。从某种程度上，这甚至是一个价值观问题。作为最终目标，我们希望走向 AGI。在这个过程中，我们希望解决的问题，更多是狭义上智能程度越高、解决可能性越大的问题。在这一点上，模型有天然的优势。我们也希望人工智能的未来，能像计算机一样去模拟人的操作。编程在这里有一个特别大的优势，写完一段代码，能不能跑通，立刻就能知道。这意味着在训练过程中，我们也能立刻知道能不能成功。可如果有人问，「男朋友不理我了怎么办？」我怎么去判断回答是不是成功？其实很难有客观标准。最终也许能找到办法，但从价值角度来说，代码能不能跑通，是一个更直接、更客观的标准。这也是为什么我们选择 Coding 作为重点发力的领域。这次在 K2 的评测结果里，表现也不错。当然评测只是一个方面，更重要的是用户的选择，无论是在 OpenRouter 上的调用次数，还是顶级 IDE 厂商的接入，都证明了我们的模型得到了认可。骆轶航：K2 的核心价值不在于给人们提供情绪价值，而提供解决问题的能力。付强：我们在 Pre-training 的目的的确是这样，通过提供更高的智能，成功率更高的去解决特定问题。不是说提供情绪价值不对，它可以通过后训练的方式优化。也就是我们是不是相信首先要先交付一个足够聪明的产品。骆轶航：我特别同意，从我的使用体验来去看，如果一个模型能够做好 Coding，它一定能够做好 Writing，可能不是文字非常华丽的 Writing，但是一定能做好逻辑清晰，表达准确，呈现你思考过程。但是如果一个模型做得好 Writing，辞藻很华丽，它不一定能做得好 Coding，不一定能帮你解决很多更复杂的问题。所以我觉得 Coding 可能是这个事的基础。付强：是的。模型应该与人类共同演化骆轶航：GPT-5 也一样，很多人觉得 GPT-5 翻车了，效果不好。不就是因为它给你提供的情绪价值变少了吗？但是它给我解决具体问题的能力变多了。这些方面某种程度上意味着它能力的提升，如果我们再延伸一步，这种解决问题的能力意味着模型什么样的价值观？付强：我觉得还是再 call back 一下 The Bitter Lesson，它代表一个价值观。我们判断模型或者是 Agent 发展的未来，一定是不断赋予模型更多曾经在人类演进过程中，曾经被赋予的能力。我们希望它掌握工具使用的能力，感知到这个世界的存在，不断和这个世界产生交互，不断把人类学习结果给它。它有一个很聪明的底座，有很多参数，有很好模型的架构，很低的训练成本，有跟这个世界交互的能力，可以自己做实验，通过不断写代码，自己发现错误，从错误中总结自己错在哪了，把自己变得更聪明。我相信这个世界的未来，不光有在代码上做实验的能力，可以做物理实验，做化学实验，那就离 AGI 就不远了。骆轶航：模型是探索未知世界，做实验的基础。付强：一个好的模型应当获得与人类共同演化的机会，不光把它当成宠物圈养，跟我们祖先一样，自己去钻木取火。点个「爱心」，再走吧