OpenAI 发布开源模型「王者归来」，DeepSeek 剧情会反转吗

猜您喜欢

波司登 2024/25 财年营收 259 亿、净利 35 亿双创新高；圣贝拉登陆港交所；农夫山泉正式进入香港市场｜消研所周报

2 月之前

【日日龙虎榜】猛，上塘路 2600 万，扫 20cm 板；AI 眼镜概念股持续爆发，多股涨停；这个概念游资大佬爆买 1.1 个亿，方新侠席位助攻 4100 万

1 年之前

OpenAI 终于重新发布开源模型 gpt-oss-120b 和 gpt-oss-20b。这是其自从 GPT-2 之后，首次发布开源语言模型。

这也是上半年 DeepSeek-R1 发布，引发中国掀起一股开源狂潮，7 月份中国 K2、GLM-4.5、Step-3 及 Qwen3 更新版本等密集发布之后，美国 AI 实验室首次发出最强开源模型。

Llama4 上半年发布失败，美国朝野一致对开源 AI 落后于中国感到焦虑之际，OpenAI 看起来要扳回一局。

最大的开源社区 Hugging Face 创始人兼 CEO Clement Delangue 称之为「王者归来」。

「这就像剧情反转，

像是一场王者归来，

像是某件大事的开端。

让我们一起推进开源 AI 吧」

gpt-oss vs. DeepSeek

StabilityAI 创始人 Emad Mostaque 等人，对比了 gpt-oss 与 DeepSeek：

训练效率：gpt-oss-120b 每个 token 激活约 5.1B 参数，而 DeepSeek 是 37B，少了 7 倍以上，因此可以处理超过 5 倍的 tokens，即大约 80 万亿 tokens（作为参考，Qwen3 使用了 30 万亿）。

计算消耗：gpt-oss 比 DeepSeek V3/R1 的训练算力需求低了约 20%，即使如此，仍能训练更多 tokens（最多 80T vs DeepSeek 的 14.8T）。

训练成本：gpt-oss-120b 训练成本约 400 万美元，gpt-oss-20b 仅需 40 万美元，均低于 DeepSeek。

再对比下性能表现：官方评测表明：gpt-oss-120b≈OpenAI o4-mini，gpt-oss-20b≈OpenAI o3-mini。多项推理任务中，gpt-oss-120b 在 HealthBench 和数学评测中甚至超过 o4-mini。而 DeepSeek-V3 的能力已被认为达到 o3-mini~o4-mini 之间的水平。所以，在模型表现上两者旗鼓相当。

综合以上对比，gpt-oss 的性价比应该是超过了 DeepSeek。不过，后来中国发布的开源模型，几乎个个都称自己超过了 DeepSeek。

从开源开放角度，gpt-oss 在全球的生态也占据优势。

相当于 o3 mini 和 o4 mini

OpenAI 介绍这两个开源模型是「开源权重、性能卓越、成本低廉的最新一代语言模型。它们采用灵活的 Apache 2.0 许可证发布，在推理任务中超越了同等规模的开源模型，具备出色的工具使用能力，并针对消费级硬件实现了高效部署优化。」

这两个模型的训练，结合了强化学习方法，技术还受到了 OpenAI 最先进内部模型（包括 o3 及其他前沿系统）的启发。

gpt-oss-120b 在核心推理基准测试中已接近 OpenAI o4-mini 的水平，并能在一张 80 GB GPU 上高效运行。

gpt-oss-20b 在常见基准上表现接近 OpenAI o3-mini，且可在仅有 16GB 内存的边缘设备上运行，非常适合端侧部署、本地推理或无需昂贵基础设施的快速迭代。

两个模型在工具使用、少样本函数调用、思维链（CoT）推理方面均表现出色（例如在 Tau-Bench agentic 评测套件上的结果），在 HealthBench 医疗推理测试中甚至超越了 OpenAI 的闭源模型如 o1 和 GPT-4o。

这些模型兼容 OpenAI 的 Responses API，专为智能体工作流而设计，具备出色的指令遵循能力、工具调用能力（如网页搜索、Python 执行）和推理能力——包括自动调整推理强度，以满足对低延迟、简单任务的需求。它们完全可自定义，支持完整的思维链输出和结构化输出。

OpenAI 认为安全对于开源模型至关重要，这也是其之前不愿意发布开源模型的原因之一。除了全面的安全训练和评估，OpenAI 还使用了对抗性微调版本的 gpt-oss-120b，并在其 Preparedness Framework 下进行了额外评估。

gpt-oss 模型在内部安全基准测试中表现与前沿模型相当，为开发者提供与 OpenAI 最新闭源模型相同的安全标准。其方法也已接受外部专家审阅，为开源模型设定了新的安全基准。

OpenAI 还与 AI Sweden、Orange、Snowflake 等早期合作伙伴共同探索模型在真实世界中的应用，包括在本地部署以确保数据安全，以及在特定数据集上的微调。

OpenAI 称：「这些业界领先的开源模型，赋能从个人开发者到大型企业再到政府，在自有基础设施上运行并定制 AI。结合我们 API 提供的模型，开发者可以根据所需的性能、成本与延迟，灵活选择适合的 AI 工作流方案。」

预训练与模型架构

gpt-oss 系列模型采用了 OpenAI 最先进的预训练与后训练技术，重点提升推理能力、运行效率，以及在各种部署环境下的实际可用性。虽然 OpenAI 此前已开源 Whisper 和 CLIP 等模型，但 gpt-oss 是自 GPT‑2 以来首次发布开源权重的语言模型。

每个 gpt-oss 模型均基于 Transformer 架构，并采用混合专家模型（MoE）技术，以减少每次处理输入时所需激活的参数数量。例如：

gpt-oss-120b 每个 token 激活 5.1B 参数，模型总参数量为 117B；

gpt-oss-20b 每个 token 激活 3.6B 参数，模型总参数量为 21B。

模型在注意力机制上采用了密集与局部带状稀疏（locally banded sparse）注意力模式交替结构，与 GPT-3 相似。为提升推理与内存效率，模型还使用了分组多查询注意力机制（grouped multi-query attention），分组大小为 8。

在位置编码方面，模型使用了旋转位置嵌入（RoPE，Rotary Positional Embedding），并原生支持最长 128k 上下文长度，为长上下文推理提供了基础。

训练使用的是以英语为主的纯文本数据集，重点覆盖 STEM（科学、技术、工程和数学）领域、编程内容以及通识知识。分词器是 OpenAI o4-mini 和 GPT‑4o 所用分词器的超集——o200k\_harmony，于当日一同开源。

Emad Mostaque 认为，高效训练不一定需要巨量算力，而是需要大量优质的数据。gpt-oss 在预算受控的情况下实现了高性能，未来训练成本还将进一步降低。

后训练

gpt-oss 模型的后训练过程类似于 o4-mini，包括一个监督微调阶段和一个高算力强化学习（RL）阶段。我们的目标是使模型符合 OpenAI 模型规范（Model Spec）的标准，并在生成最终答案前掌握思维链推理（CoT reasoning）和工具使用能力。

OpenAI 认为，借助与其最先进闭源推理模型相同的后训练技术，这些模型在后训练完成后展现出了卓越的能力。

与 OpenAI API 中的 o 系列推理模型类似，这两款开源权重模型支持三种推理强度等级——低、中、高，可在响应延迟与性能之间灵活权衡。开发者只需在 system message 中用一句话即可设置所需的推理强度。

评估

OpenAI 使用标准学术基准评估了 gpt-oss-120b 与 gpt-oss-20b 在以下领域的表现：编程、数学竞赛、医疗健康、代理式工具使用，并将其与 OpenAI 的推理模型 o3、o3-mini、o4-mini 进行了比较。

gpt-oss-120b 在以下方面优于 o3-mini，达到或超过 o4-mini：

*竞赛编程（Codeforces）

*通用问题求解（MMLU 和 HLE）

*工具调用（TauBench）

同时，在健康相关问题（HealthBench）和数学竞赛题（AIME 2024 和 2025）方面，甚至优于 o4-mini。

gpt-oss-20b 虽然规模较小，但在上述评测中也匹敌甚至超越 o3-mini，在数学竞赛题和健康任务上表现更胜一筹。

思维链

OpenAI 近期的研究表明，只要模型的思维链不是通过直接监督训练而对齐的，那么对其推理过程进行监控可以有效帮助检测模型的不当行为。这也基本上是业界共识。

延续自推出第一个推理模型 OpenAI o1-preview 以来所坚持的原则，OpenAI 对 gpt-oss 模型的思维链没有进行任何形式的直接监督训练。「我们认为这是监测模型不当行为、欺骗行为和潜在误用的重要基础。」

OpenAI 希望此次发布的未受监督的思维链开源模型，能为开发者与研究人员提供研究机会，自行构建与部署思维链监控系统。

OpenAI 提醒：开发者不应将模型生成的思维链直接展示给终端用户。这些推理内容可能包含虚构（hallucinated）或有害信息，包括不符合 OpenAI 安全政策的语言，甚至可能泄露模型被明确要求不在最终输出中显示的信息。

为什么开放模型很重要

保住美国在开源 AI 的优势，刚刚被写入了白宫《AI 行动计划》。

gpt-oss-120b 与 gpt-oss-20b 的发布，标志着开源权重模型向前迈出了重要一步。

在这个参数量级上，它们在推理能力与安全性方面都实现了突破，为行业设立了新标杆。

OpenAI 表示，开放模型与其托管模型相辅相成，为开发者提供了更广泛的工具，加速前沿研究、激发创新、推动更安全、更透明的 AI 应用。

同时，它们降低了新兴市场、资源受限行业、小型组织进入 AI 时代的门槛——即使缺乏大预算和资源，这些强大而可获取的工具也能帮助人们在本地构建、创新和创造机会。

最后，OpenAI 的这番话，显然是针对中国：这些在美国开发的开放权重模型，为构建民主化 AI 的「护栏」体系奠定了基础。一个健康的开放模型生态，是让 AI 普惠全球的重要路径之一。OpenAI 邀请开发者和研究者使用这些模型，展开实验、协作创新，推动 AI 能力的边界。

「我们期待看到你们构建出什么样的未来。」

One More Thing：红队挑战，奖金 50 万美元

为助力建设更安全的开源生态，OpenAI 发起了一项红队挑战，邀请全球研究人员、开发者和爱好者共同发现新的安全问题。

挑战总奖金为 50 万美元，将由 OpenAI 及其他领先实验室的专家评审团评审并颁发。

挑战结束后，OpenAI 将发布一份总结报告，并开源一套基于验证发现的评估数据集，供整个社区立即使用。

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究

金价涨涨涨！这些企业在「闷声发财」

动辄破万、累计超 5000 万，汽车公司小订有多水？

六类券商监管处分案例曝光！有投顾以欺诈手段上岗，有券商文化建设流于形式

小米王腾因严重违纪遭辞退，Redmi 谁来补位

玻璃期货交割品种是什么

贵金属期货全线飘绿沪银下跌 0.60%

今晚 10 点，美国非农「真相」揭晓！降息空间或被强行打开？| 市场罗盘

特朗普的「总统牌印钞机」：两个任期，吸金无数

催化不断，机器人板块上涨，关注机器人产业 ETF（159551）

《背影》里的浦口火车站，藏着南京江北新区的关键密码

两类资金出现分歧 A 股市场结构性行情持续

ETF 今日收评 | 多只黄金股相关 ETF 涨超 5% 半导体相关 ETF 跌幅居前

OpenAI 发布开源模型「王者归来」，DeepSeek 剧情会反转吗

波司登 2024/25 财年营收 259 亿、净利 35 亿双创新高；圣贝拉登陆港交所；农夫山泉正式进入香港市场｜消研所周报

【日日龙虎榜】猛，上塘路 2600 万，扫 20cm 板；AI 眼镜概念股持续爆发，多股涨停；这个概念游资大佬爆买 1.1 个亿，方新侠席位助攻 4100 万

相关文章

金价涨涨涨！这些企业在「闷声发财」

动辄破万、累计超 5000 万，汽车公司小订有多水？

国海证券策略首席分析师胡国鹏：下半年 A 股牛途在望，配置核心在科技成长

人工智能+行动重磅发布！资金借道软件 ETF（515230）布局，连续两日吸金近 2 亿元

老凤祥黄金价格今天多少一克（2025 年 07 月 30 日）

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

金价涨涨涨！这些企业在「闷声发财」

动辄破万、累计超 5000 万，汽车公司小订有多水？

六类券商监管处分案例曝光！有投顾以欺诈手段上岗，有券商文化建设流于形式

欢迎回来！

重置您的密码

OpenAI 发布开源模型 「王者归来」，DeepSeek 剧情会反转吗

猜您喜欢

相关 文章

欢迎回来！

重置您的密码

OpenAI 发布开源模型「王者归来」，DeepSeek 剧情会反转吗

相关文章