「像素方块」里的冒险：AI 能否挺进自由世界？

文 | 追问 nextquestion

如果你曾在夜幕降临时，慌忙围出一块勉强能放下一张床的木屋，躲避午夜里徘徊的怪物；如果你曾在那片方块拼接的世界里，复现从自家校园到逶迤阿房的一切建筑；如果你曾沿着蜿蜒的矿道深挖，只为追寻岩浆洞穴里那抹耀眼的蓝绿色…… 那么，你一定懂得《我的世界》（Minecraft）的魅力！

猜您喜欢

01 AI 能否找到钻石？

Minecraft 这款沙盒游戏是许多 90、00 后的共同记忆。它没有炫目的光影渲染，也没有峰回路转的剧情，却承载着无数玩家的冒险与创造。仅仅是方块便堆砌起山川与河流，孕育出奇珍异宝，滋生了夜色中的怪物……

每个新开档的世界都是一张白纸，等待着玩家尽情涂抹想象。在创造模式里，玩家可以在山谷里建起宏伟的城堡，也能挖通属于自己的纵横交错的地铁网络；在生存模式里，从砍下第一棵树开始，我们的“ 史蒂夫” 便需要摸索出一条漫长的求生之旅，学会制作工具、搭建庇护所、猎取食物，找到最闪耀的钻石。

这一切，似乎是再普通不过的沙盒游戏玩法。可如果换成一个 AI，它真的能像人类一样去学习、规划、探索，建立起自己的世界地图，最终找到钻石吗？

起初，人们并没有把“ 玩好《我的世界》这样的开放世界游戏” 当作 AI 的目标。毕竟，AI 在更“ 正经” 的游戏里早已大放异彩—— 它能在围棋中战胜顶级棋手，也能在《Dota2》里让职业高手溃不成军。但这些策略型游戏的规则是相对固定的，目标也相对明确，AI 只需要计算出最优解，就能轻松取胜。

《我的世界》却不一样—— 这里没有清晰的游戏目标，也没有固定的玩法，甚至地图都是随机种子生成的，每次进入都是全新的挑战。在一个新世界里，熟悉《我的世界》的人类玩家可以凭借直觉、经验和创造力去适应环境，那么 AI 呢？这些总是依赖于目标损失函数学习的家伙，真的能在这个无限开放的世界里“ 活下去” 吗？

早在 2019 年，就有人决定让 AI 玩《我的世界》试试看。Facebook 推出了 CraftAssist Bot^[1]，让 AI 能在游戏里执行人类指令，比如建造房屋、驯服动物、和村民交易。同年，CMU、微软、DeepMind、OpenAI 等机构也联合发起了 MineRL 大赛 ^[2]，尝试将互联网视觉数据融入《我的世界》的技能学习中，探索超越传统强化学习方法的路径。

mineRL 的目标很简单—— 让 AI 在游戏里成功挖到钻石。听起来好像没什么难度？但现实狠狠地教育了研究人员：900 多个顶尖团队倾尽全力，竟没有一个 AI 成功拿到钻石。在实验中，这些智能体（agent）不能像新手玩家那样直接寻找攻略，而是得从最基础的采集木头、合成工具开始，深入黑暗的地底，一步步摸索通往钻石的路径。

然而，在没有人类经验可供借鉴的情况下，这些 AI 在比赛过程中冒出了许多令人哭笑不得的错误—— 有的砍树砍得不亦乐乎，却完全不懂得如何合成斧头；有的好不容易造出了熔炉，却压根不知道要把矿石放进去；还有一些倒是学会了挖矿，但它们选择了最“ 直截了当” 的方法—— 垂直往下挖，结果一头栽进了岩浆里，把可怜的史蒂夫活活烧死了。

这听上去像是一场荒唐的闹剧，但事实上，mineRL 恰恰揭示了 AI 在面对开放世界时的困境—— 它不像人类那样拥有丰富的常识和直觉，而是必须从零开始，一步步推导出世界的运行规则，并在其中寻找最优解。

这也正是《我的世界》与众不同的地方：它不仅仅是一个游戏，更是一个浓缩了“ 真实世界” 特质的小宇宙：考验的不只是操作技巧，还有对环境的理解、对资源的管理、对长远目标的规划。这些能力，正是人类智慧的体现，也是通用人工智能（AGI）未来必须攻克的核心技能。

02 来自强化学习的外挂

在此过程中，强化学习（Reinforcement Learning，RL）逐渐成为成为 AI 在《我的世界》中取得突破的关键。

强化学习的原理并不复杂：AI 就像一个真正的小白玩家，通过与环境不断互动来获得反馈。当 AI 做出正确决策时，它会得到奖励；当决策不当，它也会受到惩罚。如此反复，它的策略会在试错中不断进化。就像新手玩家一边挖矿、一边拼凑着木棍和石块，慢慢学会如何合成工具，如何规划行动路线，如何应对潜伏在暗处的怪物。随着时间的推移，AI 逐渐能够更有效地探索地图，学会管理资源、打造装备，乃至执行更复杂的长期任务。相比传统“ 按部就班” 的 AI 系统，强化学习赋予 AI 某种“ 适应” 能力，让它不再只会照本宣科，而是能根据环境做出灵活决策。

作为一款以第一人称视角展开、具有高度自由度的开放式视频游戏，《我的世界》凭借其独特的游戏结构，成为了强化学习研究中的理想平台。与传统电子游戏相比，《我的世界》并没有明确的通关目标或预设路线，而是鼓励玩家在一个几乎无限的虚拟世界中自主探索、建造和生存。

这种稀疏奖励的机制—— 即，玩家只有在完成特定复杂任务或达成自定义目标时才会获得明确反馈—— 更贴近现实环境中智能体所面临的学习挑战。其庞大的空间尺度和可持续发展的世界设定，为训练智能体在长期任务中学习规划、策略制定和适应性提供了丰富场景。正因为如此，《我的世界》不仅能模拟复杂的感知-行动循环，还能支持多层次、多阶段的任务设计，使其在强化学习尤其是通用智能体训练领域中具有非常广泛的应用潜力。

自从 Malmo 模拟器发布以来，研究人员便尝试了多种方法来训练智能体在《我的世界》中完成各种任务。这些方法包括基于模型的强化学习、分层强化学习、基于目标的强化学习以及奖励塑造等等。

03 当 AI 变成 Steam 牢玩家

随着大语言模型（LLM）如 GPT-4 的出现，新的研究方向开始浮现。研究者发现，LLM 能够充当“ 游戏智囊团”：它们基于互联网大数据所学习到的文本信息，能为 AI 在游戏世界中的行为提供更成熟的任务规划和技能顺序安排。换言之，如果说强化学习让 AI 学会“ 怎么做”，那么 LLM 则能帮 AI 思考“ 为什么做”，以及“ 先做什么，再做什么”。在这些研究中，智能体从完全的游戏小白变成了 Steam 库上百的牢玩家，既能统筹所需技能，又能反思游戏环境带来的变化，从而一步步逼近最终目标（挖掘钻石）。

然而，这些研究仍面临一个棘手的问题—— 数据往往十分稀缺，尤其是在需要人类示范或注释的情况下。为了解决这一瓶颈，MineCLIP 项目提出了用来自 YouTube 的 73 万个没有动作标签的旁白视频作为额外资源，训练视觉语言模型，为智能体提供辅助奖励信号，让它们可以汲取互联网丰富的非结构化数据，将其转化为有效的游戏知识库。

在科学家们不断改进 AI 模型的过程中，AI 在《我的世界》里的表现也逐渐进化。2022 年，腾讯 AILab 的“ 绝悟”^[3]以绝对优势拿下当时的 MineRL 冠军，首次证明了 AI 能够在这一开放世界游戏中取得“ 像模像样” 的成绩。

紧接着，2023 年，OpenAI 用“ 视频预训练”（VPT）技术 ^[4]，通过投喂 70,000 小时的含标记的网络视频，使用逆动态模型进行训练，进而进行行为克隆，让它学会了人类玩家的复杂操作，比如高效采集资源、制作工具，甚至还能自己规划行动。

2024 年，DeepMind 的 DreamerV3^[5]实现了近乎真正的自主探索—— 它没有看任何人类数据，完全靠自己摸索，仅用 17 天就完成了 MineRL 挑战，成了首个能“ 自力更生” 挖到钻石的 AI。

AI 在《我的世界》中的征程远未结束。时间来到 2025 年 2 月，DeepMind2 最新研究 ^[6]又一次刷新了认知边界，他们让 AI 不仅能在游戏世界里生存下去，还能超越人类的操作水平。

总体来说，研究者在二维版《我的世界》——Craftax-classic 环境—— 中打造的强化学习智能体，不仅能规划、探索，还能在有限的交互数据下高效学习，并逐渐掌握高效的生存之道，最终超越了人类“ 牢玩家” 的成绩。

▷Craftax example [7]

这背后的关键是基于模型的强化学习（MBRL）和 Transformer 世界模型（TWM）的结合。在以往的 MBRL 模型中，基于数据的策略性学习效率仍然是一个关键挑战，特别是在需要大量交互的复杂环境中，往往需要海量的学习范例才能构建起一张内化的“ 认知地图”。

04 只靠想象推演能行吗？

近年来，像 IRIS（Micheli, 2022）和 DreamerV3（Hafner, 2023）这样的 MBRL 方法，已经展示了在游戏和机器人等任务中的强大能力。但它们主要依赖于世界模型生成的想象轨迹（imagined trajectories）进行策略训练，完全舍弃了真实环境中的数据。

不过，Deepmind Kevin Murphy 团队的最新研究却给“ 纯想象” 的道路泼了一盆冷水。他们发现，如果完全放弃真实数据，AI 可能会变得“ 闭门造车”，缺乏对真实世界的适应能力。因此他们提出了一种新型架构，将世界模型融合到强化学习，让智能体像围棋高手一样，在正式“ 落子” 前先在脑海中推演对局细节。如此一来，AI 不需要每一次都在真实环境里试错，从而缩小了策略空间，也能预判未来的发展，并以更高效率做出决策。这意味着 AI 不再是单纯的“ 试错机器”，而是拥有了某种程度的“ 想象力”。

事实上，早在 1990 年，研究者就提出了 Dyna 方法（ref），将世界模型引入强化学习 [8]。其核心思想是：先让智能体在真实环境中与环境交互并收集数据；再将这些数据用于更新策略和训练世界模型，使世界模型能够准确模拟环境的动态变化；最终让智能体在世界模型生成的模拟环境中进行额外的策略训练，从而减少对真实交互的需求，提高数据利用效率。

Dyna 方法的提出，标志着强化学习从完全依赖真实数据（无模型强化学习）向利用模拟数据（基于模型的强化学习）迈出了重要的一步。然而，近些年来，一些 MBRL 方法（如 IRIS 和 DreamerV3）过度依赖模拟轨迹，忽视了真实数据的珍贵价值，导致 AI 在虚拟中风光无限，却在现实里频频失利。

05 如何超越人类，在《我的世界》封神？

针对这一问题，DeepMind 的最新突破，提出了一系列关键改进，通过一种结合真实数据和模拟数据的新方法，在多个方面对世界模型进行了优化。

（1）同时利用真实数据和想象轨迹

正如我们之前所说，许多 MBRL 方法仅在世界模型生成的想象轨迹上训练策略，完全不使用真实环境数据。这种做法的问题在于，如果世界模型本身的误差较大，策略就可能过度适应模拟环境，而在真实环境中的表现较差（即“ 模拟-现实差距” 问题）。为了解决这一问题，Deepmind 团队的新方法回归到 Dyna 框架，通过同时使用真实数据和模拟数据进行训练，以提高策略的泛化能力。这种方法不仅能利用真实数据提高策略的可靠性，还能借助世界模型生成的数据提高训练效率。

（2）优化视觉信息的离散化编码，提高世界模型的学习效率

在 MBRL 方法中，世界模型需要将环境的视觉信息（如游戏画面）转换为计算机可以处理的离散表示（discretere presentations），这一过程称为令牌化（tokenization）。过去的方法，如 IRIS 和 DART（Agarwaletal.,2024），主要采用矢量量化变分自编码器（Vector Quantized Variational Autoencoder, VQ-VAE）。其过程如下：

先用卷积神经网络（CNN）提取图像特征；
再使用离散向量库（codebook）将特征映射为固定数量的离散令牌；
最终，世界模型使用这些令牌来预测环境状态的变化。

然而，VQ-VAE 存在一个问题：离散向量库的含义会随着训练不断变化，导致世界模型的学习难度增加。为了解决这个问题，研究者提出了两个改进：

基于图像块（patch-based）进行独立令牌化：与其对整张图像进行一次性量化，先将图像划分为多个小块（patches），然后分别进行令牌化。这种方法使世界模型能够更精细地理解局部信息，提高对复杂视觉输入的建模能力。
采用最近邻令牌化器（Nearest-Neighbor Tokenizer, NNT）替代 VQ-VAE：NNT 具有更稳定的离散向量库，不会在训练过程中动态变化，从而降低了世界模型的学习难度，提高建模精度。

这种优化使得世界模型在处理视觉信息时更加高效，减少了由于编码不稳定带来的误差累积。

（3）更高效的训练方法—— 块式教师强制（BTF）

目前，大多数世界模型的训练采用自回归方法，即按照时间顺序逐步预测环境的未来状态。然而，这种方式存在两个问题：（1）采样效率低：每一步预测依赖于上一时刻的输出，导致训练速度较慢；（2）误差累积：如果某一步预测出错，后续所有预测都会受到影响。

为了解决这个问题，研究者提出了一种新的训练方法，称为块式教师强制（Block Teacher Forcing, BTF）。其核心思想是：让世界模型在生成令牌前，先整体推理所有可能的未来状态，再并行采样所有令牌，而不是逐步生成。这种方法类似于写文章时，先想好整篇文章的大纲，再动笔写每一部分，而不是逐句即兴发挥。实验表明，BTF 使得训练速度更快，生成的想象轨迹更准确，从而提升了策略优化的效率。

在 Craftax-classic 环境的实验中，这些改进一步步带来了显著的分数攀升。起初的基线方法（MBRL）只拿到 31.93% 的奖励值；基线方法+Dyna 训练，将真实环境与虚拟环境相结合，奖励值提高至 43.36%；再将输入的图像分割成多个小块（patches），然后对每个小块进行独立处理，则达到了 58.92%，在此基础上，采用了 NNT 来替代传统的 VQ-VAE 方法，奖励值 64.96%；最后集合所有技术，并利用上块级教师强制，将奖励值冲到 67.42%。训练时间还腰斩了一半。与其他高级 MBRL 或 MFRL 方法相比，这套方案轻松拔得头筹。

更重要的是，这款 AI 在多人评测对战中战胜了人类高手，成为首个超越人类表现的智能体（“ 人类表现” 数据是基于 5 位专家玩家在 100 场游戏中的表现统计而得出的（Hafner,2021））。这个结果证明，RL AI 不仅能自主学习，还能在高度复杂的环境中做出比人类更优的决策。

考虑到《我的世界》并非一个单纯的游戏，而是一个近乎真实的虚拟生态系统。它就像一个微缩的真实世界，玩家要面对资源短缺、环境探索、目标规划等重重挑战。所以，当 AI 在这里闯出名堂时，它学到的绝不止是“ 挖钻石” 的小技巧，而是如何理解世界、制定策略、应对变化—— 真正的高层次智慧。

从最初连最基本的生存都难以维持，到如今能够自主规划行动，高效地挖掘钻石；从模仿人类玩家的操作风格，到实现超越人类玩家的更优探索策略，这一连串令人惊叹的进步让人不禁遐想—— 或许有一天，AI 真的可以像人类一样，在这个无限广阔的像素世界里自由探索、创造，成为某个数字宇宙里的创世神。

06 后记

我之所以写下这个话题，源自哈佛 BCS Neurolunch 上听到 Kempner fellow Wilka Carvalho 的 talk。他基于 preplay 的 RL 方法在空间导航任务方面比目前的 SOTA，Deepmind2025 新发布的 Dyna-based MBRL，更接近人类行为（由于是未发表工作，我在网络上没有找到具体的文章和细节）。身为一名《我的世界》牢玩家，感到非常有趣，遂整理成文。谁知道呢，在有生之年，也许我们真能在这片方块大陆见证“ 血肉苦弱，机械飞升”。

参考文献

[1] Gray, Jonathan, et al. "Craftassist: A framework for dialogue-enabled interactive agents." arXiv preprint arXiv:1907.08584 (2019).

[2] Guss, William H., et al. "Minerl: A large-scale dataset of minecraft demonstrations." arXiv preprint arXiv:1907.13440 (2019).

[3] Lin, Zichuan, et al. "Juewu-mc: Playing minecraft with sample-efficient hierarchical reinforcement learning." arXiv preprint arXiv:2112.04907 (2021).

[4] Baker, Bowen, et al. "Video pretraining (vpt): Learning to act by watching unlabeled online videos." Advances in Neural Information Processing Systems 35 (2022): 24639-24654.

[5] Hafner, Danijar, et al. "Mastering diverse domains through world models." arXiv preprint arXiv:2301.04104 (2023).

[6] Dedieu, Antoine, et al. "Improving Transformer World Models for Data-Efficient RL." arXiv preprint arXiv:2502.01591 (2025).

[7] https://github.com/wcarvalho/nicewebrl

[8] Sutton, Richard S. "Dyna, an integrated architecture for learning, planning, and reacting." ACM Sigart Bulletin 2.4 (1991): 160-163.

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App