• 最新
  • 热门
  • 所有
  • 期货
  • 外汇
  • 股票
DeepSeek V3到V3.1,走向国产算力自由

DeepSeek V3 到 V3.1,走向国产算力自由

2025 年 8 月 24 日
家族企业传承困局:二代接班,为何这么难?

家族企业传承困局:二代接班,为何这么难?

2025 年 8 月 25 日
A股半年收官 北证50指数半年涨近40% DeepSeek概念及兵装重组概念上半年领涨

我国自主研制的 6000 米级深海无人遥控潜水器 「海琴」 号在南海成功海试

2025 年 8 月 24 日
环球下周看点:美国非农报告重磅登场 美股新高后能否更进一步?

黄金 T+N1 价格今天多少一克 (2025 年 8 月 22 日)

2025 年 8 月 24 日
当前A股杠杆水平如何?场内、场外情况最新调查

当前 A 股杠杆水平如何?场内、场外情况最新调查

2025 年 8 月 24 日
带编制的中国神仙,在境外大杀四方

带编制的中国神仙,在境外大杀四方

2025 年 8 月 24 日
中信信托中标千亿破产服务信托,助力房企纾困突围

黄金 T+N2 价格今天多少一克 (2025 年 8 月 22 日)

2025 年 8 月 24 日
伊方明确拒绝核问题复谈 现货黄金回调延续震荡

俄罗斯国家杜马主席将访华

2025 年 8 月 24 日
引进剧回归,国产剧会怕吗?

引进剧回归,国产剧会怕吗?

2025 年 8 月 24 日
因基金销售等环节存在多项问题,多家基金销售机构被采取监管措施

银川六福黄金现在多少钱一克 (2025 年 8 月 22 日)

2025 年 8 月 24 日
港股风向标|恒指放量走高情绪回暖 科技及消费双主线有所复苏

港股公告精选|TCL 电子中期盈利同比增近 7 成 中煤能源上半年净赚逾 73 亿元

2025 年 8 月 24 日
18K金价格多少钱一克(2025年06月27日)

乌鲁木齐老庙黄金多少钱一克 (2025 年 8 月 22 日)

2025 年 8 月 24 日
北美算力产业链反复活跃,低费率创业板人工智能ETF华夏(159381)涨超1.8% 冲击6连涨!

前任涉赌,95 后 CEO 任思敏狂推的咕咕语音又疑涉黄,斗鱼怎么了?

2025 年 8 月 24 日
2025 年 8 月 25 日 星期一
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票
  • 黄金
  • 期货
  • 外汇
  • 基金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票
  • 黄金
  • 期货
  • 外汇
  • 基金
2025 年 8 月 25 日 星期一
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
广告
首页 行业新闻

DeepSeek V3 到 V3.1,走向国产算力自由

来自 禾湖财经
2025 年 8 月 24 日
在 行业新闻
0
DeepSeek V3到V3.1,走向国产算力自由
33
SHARES
94
VIEWS


从 V3 到 V3.1,DeepSeek 正在探索出一条 「算力自由」 之路。

从魔改 PTX 到使用 UE8M0 FP8 Scale 的参数精度,DeepSeek 先榨取英伟达 GPU 算力,再适配国产芯片,可能会在软硬件协同方面带来新的突破,进一步提高训练效率,最多可以减少 75% 的内存使用,从而在实际应用中减少对进口先进 GPU 芯片的依赖。

DeepSeek 正在与下一代国产 GPU 芯片厂商一起,向算力自主又迈进一步。正是这样一种令人激动的前景,激活了科技色彩愈发浓厚的中国资本市场。

V3.1,迈向 Agent 时代

DeepSeek 发布了 V3.1,而不是广受期待的 V4 或者 R2,连 R1 也消失了。DeepSeek 变成了一个混合推理架构,即一个模型同时支持思考模式和非思考模式。这是一个趋势,在 V3.1 发布一周之前,GPT-5 发布了,这是一个」 统一的系统」,包括一个对话模型,一个思考模型,和一个实时路由,用来决定如何结合对话与思考。

这次升级提高了 DeepSeek 的思考效率,即答对同样的问题,可以消耗更少的 token,花费更短的时间。这既出于经济上的考虑,也出于产品和用户体验方面的考虑,避免过度思考,让回答更简洁一些。

V3.1 展示出更强的 Agent 能力,通过后训练的优化,新模型在工具使用与智能体任务中的表现有较大提升。

V3.1 的基础模型在 V3 的基础上重新做了外扩训练,增加训练了 840 B token。它的上下文长度、思考模式和非思考模式均达到了 128k。性能提升,价格下降,再次秀出它所擅长的性价比创新。

这次升级让 DeepSeek 在最近中国 AI 企业的开源热潮中夺回领先优势,但不仅仅是想用来做科研和展示,而是要在企业服务能力上向国际前沿 AI 企业看齐。

DeepSeek 的 API Beta 接口支持了 strict 模式的 Function Calling,以确保输出的 Function 满足 schema 定义。这其实是大模型 API 在工程化能力上的一个重要升级。OpenAI、Anthropic、Mistral 等都在逐步推出 strict function calling,向企业级生产环境对齐。Strict 模式提升了 V3.1 的工程可靠性和企业易用性,使其更容易在企业服务中替代 GPT/Claude。

同样的思路,DeepSeek 也增加了对 Anthropic API 格式的支持,「让大家可以轻松地将 DeepSeek-V3.1 的能力接入 Claude Code 框架。」 目的是让使用 Claude Code 的用户更便捷地切换到 DeepSeek。这样可以直接渗透 Anthropic 已经打开的企业市场。最近,Anthropic 的企业服务收入已经超过了 OpenAI。

这次升级对于 DeepSeek 具有里程碑式的意义,是其迈向 Agent 时代的第一步。对中国的 AI 芯片生态也同样如此。

深度求索的深水炸弹

DeepSeek 在中文官微刻意强调,而在其英文 X 账号上没有提及的是,V3.1 使用了 UE8M0 FP8 Scale 的参数精度。它还在留言处置顶:

这年头,越是低调、话少、让人有点看不懂,信息量越大。

在 Hugginface 的模型卡中,DeepSeek 又放出了一点信息:DeepSeek-V3.1 使用 UE8M0 FP8 缩放数据格式进行训练,以确保与微缩放数据格式兼容。

简单解释下,FP8=8-bit floating point(8 位浮点数)是一种超低精度表示方式。可以显著减少显存/带宽需求,大幅提升推理和训练效率,但需要精心设计缩放 (scaling)来避免数值不稳定。

UE8M0 是 FP8 的一种数字表示格式。U 表示没有符号,E8 表示 8 位指数,M0 表示没有尾数。相比之下,英伟达在 H100、Blackwell GPU 上提供硬件级 FP8 支持,主推 E4M3/E5M2 格式,大多数模型采取的是英伟达官方的 FP8 格式。

所谓 「微缩放数据格式」(Microscaling data format),即业界的 Microscaling FP8(MXFP8)标准。英伟达 Blackwell GPU 支持 MXFP8。而 V3.1 训练所用的数值体系与 MXFP8 兼容,模型在推理/部署时,可以直接在任何支持 MXFP8+UE8M0 的硬件 (包括英伟达 Blackwell、未来的国产 GPU)上跑,不需要额外转换,这能降低内存流量、提升矩阵乘法吞吐。

对比一下 E4M3/E5M2,UE8M0 是一个变体,全指数,无尾数,能覆盖极宽的动态范围,是一种低算力环境下的工程优化。单就 UE8M0 而言,其没有尾数,也没有精度,只用来存 scale。高精度在内部计算中的使用过程是这样的:输入 FP8,存储时用 scale 调整,计算时自动转换 FP16/BF16/FP32,做乘加运算,输出时再量化回 FP8 存储,这就保证了训练、推理的稳定性。

V3.1 在训练中使用 UE8M0 FP8,并且兼容 MXFP8,通过软件定义与更多芯片适配,能让超低精度训练/推理在中国自研芯片上更容易实现。

目前和即将采用 FP8 精度的国产 GPU 芯片,有寒武纪、沐曦、燧原、昇腾等,还有更多主动适配 DeepSeek 的芯片厂商。

英伟达的低精度之路

值得一提的是,英伟达多年来一直用低精度数字表示法提升推理和训练效率。例如在所谓的 「黄氏定律」 中,过去十年里,GPU 实现的千倍效能提升,新的数字格式起到了最重要的作用。

英伟达的首席科学家戴利 (Bill Dally)曾经把数字表示概括为 GPU 算力」 黄氏定律 「的精髓。

在 P100 之前,英伟达的 GPU 使用单精度浮点数表示这些权重。根据 IEEE 754 标准,这些数字长度为 32 位,其中 23 是尾数位,8 是指数位,还有一位是符号位。

但是,机器学习研究人员很快就发现,在许多计算中,其数字可以不必有那么高的精度,而神经网络仍然可以给出准确的答案。

这样做的明显优势在于,可以更快、更小、更高效地执行机器学习的关键计算 (乘法和累加)逻辑。如果需要,就处理更少的位数 (如戴利所解释的,乘法所需的能量与位数的平方成正比)。因此,使用 FP16,英伟达将该数字减少了一半。

Google 甚至推出了自己的版本,名为 Bfloat16。(两者的区别在于分数位的相对数量,这影响精度;以及指数位的相对数量,这影响范围。Bfloat16 与 FP32 具有相同数量的范围位,因此更容易在这两种格式之间切换。)

到了 H100 这一代,其已经可以使用 8 位数字执行大规模 transformer 神经网络的某些部分,例如 ChatGPT 和其他大型语言模型。然而,英伟达发现,这并不是一种适合所有情况的解决方案。

例如,英伟达的 Hopper GPU 架构实际上使用了两种不同的 FP8 格式进行计算,一种具有更高的精度,另一种具有更大的范围。英伟达的窍门在于知道何时使用哪种格式。

英伟达对超低精度的一项研究

加州理工教授、英伟达前研究员 Anima Anandkumar 指出,V3.1 在训练中使用的 UE8M0 FP8 scale 数据格式,实际上是一种对数数值系统 (LNS),来自她当年参与的一个研究项目。

英伟达和加州理工的研究人员在 2021 年时曾经发表过一篇论文 《LNS-Madam:在对数数值系统中采用乘法式权重更新的低精度训练》(LNS-Madam:Low-Precision Training in Logarithmic Number System using Multiplicative Weight Update),探讨如何以低精度表示深度神经网络 (DNN),实现高效加速,并减少内存占用。

如果直接用低精度权重进行训练,低精度数值系统与学习算法之间的复杂交互会使得精度下降。为了解决这一问题,研究人员设计了对数数值系统 (Logarithmic Number System,LNS)和乘法式权重更新算法 (Madam)。

他们证明了 LNS-Madam 在权重更新过程中能保持较低的量化误差,即使在精度受限的情况下也能获得稳定性能。

他们还进一步提出了一种 LNS-Madam 的硬件设计,解决了实现高效 LNS 计算数据通路中的实际挑战,这有效降低了 LNS-整数转换和部分和累加 (partial sum acculmlation)带来的能耗开销。

实验结果表明,在计算机视觉和自然语言等主流任务中,LNS-Madam 仅使用 8 位精度就能实现与全精度相当的准确率。与 FP32 和 FP8 相比,LNS-Madam 能分别降低超过 90% 和 55% 的能耗。

DeepSeek 的超低精度创新

UE8M0 实际上等价于 LNS 的一个极简实现,因此,可以说 UE8M0 是 LNS 的一种特化 (只保留 log 值的整数部分,没有小数精度),所以 Anandkumar 教授才会把 UE8M0 缩放数据格式称作一种 LNS。

如果说 LNS-Madam 是一种学术探索,是重新设计数学体系+算法,是硬件和算法一体化的设计思路,UE8M0+FP8 则是一种在现有浮点体系上结合缩放的工程技巧。二者低精度训练的目标一致,但路线完全不同。

UE8M0 并不是用来直接存权重,而是用来存缩放因子 (scale factor),帮助其他 FP8(E4M3/E5M2)稳定表示数据,让 FP8 能够覆盖更广的数据分布,从而在硬件上更高效。

追求算力自由

回顾一下 DeepSeek 在两个阶段的突破点。

首先是先榨干现有硬件的潜力。DeepSeek V3 直接修改了英伟达 GPU 的虚拟机指令集架构 PTX,绕过英伟达编译器的保守策略,手工调度寄存器、warp、访存和 Tensor Core 指令。把 GPU 算力利用率提升到极限,降低硬件受限下的训练/推理成本。在 DeepSeek 手中,A100/A800 等英伟达 GPU 上的现有算力都得到了最大化利用。

第二阶段是降低算力的物理需求。DeepSeek V3.1 引入 UE8M0 FP8 格式,让中国国产 AI 芯片 (带宽/算力较弱)也能高效运行大模型。采用更紧凑的低精度浮点格式,大幅压缩内存/带宽占用,减少计算负担,可以期待下一代国产 GPU 芯片能进行前沿大模型训练推理。

DeepSeek 在工程实践中走出了一条算力自主之路:先榨取英伟达,再适配国产芯片,最终走向算力自主。长期来看,DeepSeek 将沿着软硬件协同优化的路线,构建一个 「算力无关」 的模型生态。

中国还需要 H20/B30 吗

由于技术与安全等原因,已经传出英伟达停止生产 H20 的消息。目前依然存在悬念的,是黄仁勋是否向中国提供 B30。

回顾一下,英伟达定制 H20/B30 给中国市场,因为美国出口管制禁止向中国出售 H100/H200/B100/B200 等高端 GPU。黄仁勋的策略是推出缩水版芯片,为中国定制了 H20(基于 Hopper)和 B30(基于 Blackwell),在算力、互联、带宽上降低配置,但仍保持 CUDA 生态兼容,以保住中国市场,避免中国厂商快速完全转向国产芯片,同时遵守美国出口管制。

即使 DeepSeek 魔改 PTX,一时造成了英伟达股价暴跌,也并没有影响黄仁勋的策略,老黄反而一直想见梁文锋。因为他在心里明白,也公开表达过,以中国的人才储备,尤其是软件人才储备,实现 AI 芯片与模型生态的自主闭环只是时间问题。

没想到的是,UE8M0+超低精度的冲击会以如此低调的方式释放。它意味着中国厂商对于 H20/B30 的需求,正在发生微妙的变化。如果国产下一代 GPU 芯片近期推出,而且支持 UE8M0+FP8 跑通大模型,英伟达的缩水卡在中国市场上的竞争力下降。一旦国产芯片生态完善,CUDA 生态的锁定效应会逐渐削弱。

中国市场还需不需要 B30?有一种业内观点认为,短期依然需要,因为国产 GPU 的产能、软件生态还在追赶。大部分企业,尤其是互联网大厂和科研机构等,仍依赖 CUDA 工具链和现成框架。H20/B30 在推理与训练上仍然比国产芯片更稳健。也许 B30 本身的相对先进性,即弱于最先进的 GPU、但仍强于国产 GPU,才能决定它能否得到中美两国有关部门的接受。

随着国产芯片+超低精度训练将逐渐跑通并规模化部署,中长期来看对于 B30 们的需求会明显下降。国产 AI 软件栈 (昇腾 CANN、寒武纪 Neuware、壁仞 BIRENSUPA)逐步成熟,逐渐减少对 CUDA 的依赖。成本敏感的中国企业会更倾向国产方案,同时避免美国找麻烦。

英伟达的优势何在

UE8M0+FP8,好像是 DeepSeek 接过了英伟达近十年来的低精度数字表示技术的大旗,结合中国的实际进行工程创新,它将加快中国下一代芯片的推出,加快以国产芯片解决中国大规模训练和推理的需求,从而形成中国 AI 芯片与模型的技术路线。

使用 UE8M0 FP8 Scale 的参数精度,适配国产下一代芯片,兼容 MXFP8,并不意味着英伟达失去了优势主导地位,因为 G200 不只是 FP8,还带来了更大带宽、更强互联 (NVLink 5)、更大显存。软件生态 (CUDA、PyTorch 插件)也牢牢绑定 FP8,迁移到 UE8M0 需要额外工程适配。

大部分国际大厂 (OpenAI、Anthropic、Meta)还是会首选 G200 来追求极致性能。「黄氏定律」 已经推进至 FP4 精度,英伟达还曾亲自下场发布了优化版的 DeepSeek-R1-FP4,内存需求大幅降低,基准测试成绩几乎不变。

如果 UE8M0+FP8 在社区和国产硬件上普及,低成本训练路径会弱化英伟达的必选性。这对中国厂商尤其重要,即使没有 G200,也能在国产 GPU 上稳定训练大模型,形成去英伟达化的路线。

本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究

Scan

禾湖财经

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

家族企业传承困局:二代接班,为何这么难?

家族企业传承困局:二代接班,为何这么难?

2025 年 8 月 25 日
A股半年收官 北证50指数半年涨近40% DeepSeek概念及兵装重组概念上半年领涨

我国自主研制的 6000 米级深海无人遥控潜水器 「海琴」 号在南海成功海试

2025 年 8 月 24 日
环球下周看点:美国非农报告重磅登场 美股新高后能否更进一步?

黄金 T+N1 价格今天多少一克 (2025 年 8 月 22 日)

2025 年 8 月 24 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

OR

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录