• 最新
  • 热门
  • 所有
  • 期货市场
  • 外汇动态
  • 股票行情
比DeepSeek R2先发!阿里巴巴Qwen3上新8款,登顶全球最强开源模型

比 DeepSeek R2 先发!阿里巴巴 Qwen3 上新 8 款,登顶全球最强开源模型

2025 年 4 月 29 日
中际旭创市值首超东方财富,「光」含量超50% 的创业板人工智能ETF华夏(159381)涨超3%

国家发展改革委修订完善输配电价监管制度

2025 年 9 月 9 日
市场需求增量有限 生猪短期或震荡运行为主

市场需求增量有限 生猪短期或震荡运行为主

2025 年 9 月 9 日
https://www.huxiu.com/article/4762285.html

上海今日黄金价格多少钱一克 (2025 年 9 月 5 日)

2025 年 9 月 9 日
市场实际成交不活跃 尿素短期低位整理

9 家股份行信用卡业务分化:兴业不良率逆势下降,光大收入降超 20%

2025 年 9 月 9 日
【钛晨报】2025年前8个月外贸数据重点速览:年内进出口总值逼近30万亿,出口汽车增长11.9%;小米内部通报:王腾因泄密被辞退;五年内预计「烧钱」超千亿美元,OpenAl试图自研芯片控制成本

【钛晨报】2025 年前 8 个月外贸数据重点速览:年内进出口总值逼近 30 万亿,出口汽车增长 11.9%;小米内部通报:王腾因泄密被辞退;五年内预计 「烧钱」 超千亿美元,OpenAl 试图自研芯片控制成本

2025 年 9 月 9 日
美国Kenvue公司股价大跌,知名感冒药泰诺陷入争议

美国 Kenvue 公司股价大跌,知名感冒药泰诺陷入争议

2025 年 9 月 9 日
【商务部新闻发言人就对原产于美国的进口相关光纤产品反规避调查裁决答记者问】2025年3月4日,应中国国内企业申请,商务部对原产于美国的进口相关截止波长位移单模光纤产品发起反规避调查。该案是中国首起反规避调查。立案后,商务部依法依规开展了调查,调查程序公开透明,充分保障了各利害关系方的权利。经过调查,证据显示,美国出口商通过对华出口相关截止波长位移单模光纤,规避了中国对美非色散位移单模光纤产品的反倾销措施。根据调查结果,商务部发布公告,决定自2025年9月4日起实施反规避措施。

降息周期结束了吗?欧洲央行利率决议前的五大问题

2025 年 9 月 9 日
通信ETF(515880)午后反弹超3%,算力核心环节占比超77%,规模大幅攀升超115亿元

大商所数字仓单二期系统运行平稳

2025 年 9 月 9 日
债市日报:9月3日

第二十五届中国国际投资贸易洽谈会开幕 何立峰宣读习近平主席贺信并致辞

2025 年 9 月 9 日
证监会同意公募基金行业机构投资者直销服务平台正式启动运行

贸易商普遍维持挺价心态 菜籽粕短期或延续震荡运行

2025 年 9 月 9 日
今日黄金首饰价格多少钱一克(2025年9月4日)

广州今日黄金价格多少钱一克 (2025 年 9 月 5 日)

2025 年 9 月 9 日
投研老将徐志敏「硬核」挥别中泰资管:十年产品全盈利!行业人才格局生变?

影响市场重大事件:工信部向中国联通颁发卫星移动通信业务经营许可,可开展手机直连卫星等业务

2025 年 9 月 9 日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
2025 年 9 月 9 日 星期二
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
首页 行业新闻

比 DeepSeek R2 先发!阿里巴巴 Qwen3 上新 8 款,登顶全球最强开源模型

4 月 之前
在 行业新闻
阅读时间: 2 mins read
0 0
A A
比DeepSeek R2先发!阿里巴巴Qwen3上新8款,登顶全球最强开源模型

猜您喜欢

太和水上市4年连爆3雷,戴帽前溢价2倍卖壳或一石二鸟

太和水上市 4 年连爆 3 雷,戴帽前溢价 2 倍卖壳或一石二鸟

5 月 之前
0
上午报名下午进厂,「果链」满产忙招工

上午报名下午进厂,「果链」 满产忙招工

4 天 之前
0


 Qwen3 千呼万唤始出来,直接登顶全球最强开源模型。

4 月 29 日凌晨,阿里巴巴开源新一代通义千问模型 Qwen3(简称千问 3),旗舰模型 Qwen3-235B-A22B 参数量仅为 DeepSeek-R1 的 1/3,总参数量 235B,激活仅需 22B,成本大幅下降,性能全面超越 R1、OpenAI-o1 等全球顶尖模型,登顶全球最强开源模型。

千问 3 预训练数据量达 36T ,并在后训练阶段多轮强化学习,将快思考模式和慢思考模式无缝整合,同时在推理、指令遵循、工具调用、多语言能力等方面均大幅增强,创下所有国产模型及全球开源模型的性能新高。

千问 3 共计八款模型,包含 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款密集模型,每款模型均斩获同尺寸开源模型 SOTA(最佳性能)。

其中,千问 3 的 30B 参数 MoE 模型实现了 10 倍以上的模型性能杠杆提升,仅激活 3B 就能媲美上代 Qwen2.5-32B 模型性能;千问 3 的稠密模型性能继续突破,一半的参数量可实现同样的高性能,如 32B 版本的千问 3 模型可跨级超越 Qwen2.5-72B 性能。

4 月是大模型集中发布的一月,OpenAI 发布了 GPT-4.1  o3、o4 mini 系列模型,谷歌 Gemini 2.5 Flash Preview 混合推理模型上新,豆包也公布了 1.5·深度思考模型,其他大模型厂商也开源或者更新了不少模型,业内也传出 DeepSeek R2 模型即将发布的消息,但目前大部分消息都是捕风捉影。

不论 DeepSeek R2 发布与否,「先发制人」 的千问 3,先一步站在大模型 「平民化」 的真正起点上。 

国内首个混合推理思考模型,增强 Agent 能力且支持 MCP

千问 3 模型支持两种思考模式:

  • 慢思考模式:在这种模式下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。
  • 快思考模式:在此模式中,模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。

所有千问 3 模型都是混合推理模型,这也使其成为国内首个 「混合推理模型」,「快思考」 与 「慢思考」 集成进同一个模型,对简单需求可低算力 「秒回」 答案,对复杂问题可多步骤 「深度思考」,大大节省算力消耗。

API 可按需设置 「思考预算」(即预期最大深度思考的 tokens 数量),进行不同程度的思考,灵活满足 AI 应用和不同场景对性能和成本的多样需求。比如,4B 模型是手机端的绝佳尺寸;8B 可在电脑和汽车端侧丝滑部署应用;32B 最受企业大规模部署欢迎,有条件的开发者也可轻松上手。

在奥数水平的 AIME25 测评中,千问 3 斩获 81.5 分,刷新开源纪录;在考察代码能力的 LiveCodeBench 评测中,千问 3 突破 70 分大关,表现甚至超过 Grok3;在评估模型人类偏好对齐的 ArenaHard 测评中,千问 3 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。

性能大幅提升的同时,千问 3 的部署成本还大幅下降,仅需 4 张 H20 即可部署千问 3 满血版,显存占用仅为性能相近模型的三分之一。

千问 3 模型还支持 119 种语言和方言。目前这些模型均在 Apache 2.0 许可下开源,现已在 Hugging Face、ModelScope 和 Kaggle 等平台上开放使用。

阿里巴巴也推荐使用 SGLang 和 vLLM 等框架部署,而对于本地使用,Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等工具也支持。

千问 3 也考虑了智能体 Agent 和大模型应用落地。在评估模型 Agent 能力的 BFCL 评测中,千问 3 创下 70.8 的新高,超越 Gemini2.5-Pro、OpenAI-o1 等顶尖模型,将大幅降低 Agent 调用工具的门槛。

同时,千问 3 原生支持 MCP 协议,并具备强大的工具调用 (function calling) 能力,结合封装了工具调用模板和工具调用解析器的 Qwen-Agent 框架,将大大降低编码复杂性,实现高效的手机及电脑 Agent 操作等任务。

36万亿 token预训练,四阶段后训练

在预训练方面,Qwen3 的数据集相比 Qwen2.5 有了显著扩展。Qwen2.5 是在 18 万亿个 token 上进行预训练的,而 Qwen3 使用的数据量几乎是其两倍,达到了约 36 万亿个 token。

为了构建这个庞大的数据集,千问团队不仅从网络上收集数据,还从 PDF 文档中提取信息。例如使用 Qwen2.5-VL 从这些文档中提取文本,并用 Qwen2.5 改进提取内容的质量。

为了增加数学和代码数据的数量,千问团队利用 Qwen2.5-Math 和 Qwen2.5-Coder 这两个数学和代码领域的专家模型合成数据,合成了包括教科书、问答对以及代码片段等多种形式的数据。

预训练过程分为三个阶段。在第一阶段 (S1),模型在超过 30 万亿个 token 上进行了预训练,上下文长度为 4K token。这一阶段为模型提供了基本的语言技能和通用知识。

在第二阶段 (S2),千问团队通过增加知识密集型数据 (如 STEM、编程和推理任务) 的比例来改进数据集,随后模型又在额外的 5 万亿个 token 上进行了预训练。

在最后阶段,千问团队使用高质量的长上下文数据将上下文长度扩展到 32K token,确保模型能够有效地处理更长的输入。

由于模型架构的改进、训练数据的增加以及更有效的训练方法,Qwen3 Dense 基础模型的整体性能与参数更多的 Qwen2.5 基础模型相当。

例如,Qwen3-1.7B/4B/8B/14B/32B-Base 分别与 Qwen2.5-3B/7B/14B/32B/72B-Base 表现相当。特别是在 STEM、编码和推理等领域,Qwen3 Dense 基础模型的表现甚至超过了更大规模的 Qwen2.5 模型。

对于 Qwen3 MoE 基础模型,它们在仅使用 10% 激活参数的情况下达到了与 Qwen2.5 Dense 基础模型相似的性能。这带来了训练和推理成本的显著节省。

后训练方面,为了开发能够同时具备思考推理和快速响应能力的混合模型,千问团队实施了一个四阶段的训练流程。该流程包括:(1) 长思维链冷启动,(2) 长思维链强化学习,(3) 思维模式融合,以及 (4) 通用强化学习。

在第一阶段,先使用多样的的长思维链数据对模型进行了微调,涵盖了数学、代码、逻辑推理和 STEM 问题等多种任务和领域。这一过程旨在为模型配备基本的推理能力。

第二阶段的重点是大规模强化学习,利用基于规则的奖励来增强模型的探索和钻研能力。

在第三阶段,在一份包括长思维链数据和常用的指令微调数据的组合数据上对模型进行微调,将非思考模式整合到思考模型中,确保了推理和快速响应能力的无缝结合。

在第四阶段,在包括指令遵循、格式遵循和 Agent 能力等在内的 20 多个通用领域的任务上应用了强化学习,以进一步增强模型的通用能力并纠正不良行为。

目前个人用户可立即通过通义 APP 直接体验千问 3,夸克也即将全线接入千问 3。阿里通义已开源 200 余个模型,全球下载量超 3 亿次,千问衍生模型数超 10 万个,已超越美国 Llama,成为全球第一开源模型。(本文首发于钛媒体 APP,作者 | 张帅,编辑 | 盖虹达)

相关 文章

中际旭创市值首超东方财富,「光」含量超50% 的创业板人工智能ETF华夏(159381)涨超3%
24 小时

国家发展改革委修订完善输配电价监管制度

7 分 之前

【文章来源:期货日报】 本报讯 记者 8 日从国家发展改革委获悉,为进一步完善输配电价格监管制度,国家发展改革委会同有关方面对 《输配电定价成本监审办法》《省级电网输...

市场需求增量有限 生猪短期或震荡运行为主
期货市场

市场需求增量有限 生猪短期或震荡运行为主

19 分 之前

9 月 8 日早盘,生猪主力合约小幅走低,目前盘内报 13290 元,跌幅-0.08%。周末大部分地区生猪价格继续下行,养殖端出栏增加,二育观望,终端表现平平,屠企按需采...

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

中际旭创市值首超东方财富,「光」含量超50% 的创业板人工智能ETF华夏(159381)涨超3%

国家发展改革委修订完善输配电价监管制度

2025 年 9 月 9 日
市场需求增量有限 生猪短期或震荡运行为主

市场需求增量有限 生猪短期或震荡运行为主

2025 年 9 月 9 日
https://www.huxiu.com/article/4762285.html

上海今日黄金价格多少钱一克 (2025 年 9 月 5 日)

2025 年 9 月 9 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录