• 最新
  • 热门
  • 所有
  • 期货市场
  • 外汇动态
  • 股票行情
蚂蚁自研2900亿大模型用国产AI芯片训练,计算成本508万元低于DeepSeek|钛媒体AGI

蚂蚁自研 2900 亿大模型用国产 AI 芯片训练,计算成本 508 万元低于 DeepSeek|钛媒体 AGI

2025 年 3 月 24 日
14K金价格多少钱一克(2025年09月01日)

白银租赁利率狂飙!美拟议 「关键矿产清单」 中有银吓坏市场?

2025 年 9 月 9 日
货币市场日报:9月9日

货币市场日报:9 月 9 日

2025 年 9 月 9 日
聚丙烯期货收盘上涨0.01% 主力处于净空头状态

机构坚定看好港股创新药行情!超 40 亿资金买入规模最大的港股创新药 ETF(513120)

2025 年 9 月 9 日
苹果「平替」这条路,在MR头显上可能走不通

苹果 「平替」 这条路,在 MR 头显上可能走不通

2025 年 9 月 9 日
受制于偏弱需求拖累 纯碱价格有望延续震荡调整

今日贵金属融通金行情报价 (2025 年 9 月 5 日)

2025 年 9 月 9 日
绍兴出台15项重磅政策,全力激活消费新动能,聚焦港股消费ETF(513230)布局机遇

原油期货收盘上涨 1.70% 持仓较上日减持 636 手

2025 年 9 月 9 日
「牛市旗手」证券ETF(512880)连续4日猛吸金超30亿元!规模超460亿元,同类规模第一

美国劳工统计局 「急需人手」:三分之一高级职位空缺,数据质量引担忧

2025 年 9 月 9 日
人民币汇率升值如何助推资产重估?

人民币汇率升值如何助推资产重估?

2025 年 9 月 9 日
免签后的俄罗斯,成了东北老铁的后花园

免签后的俄罗斯,成了东北老铁的后花园

2025 年 9 月 9 日
游戏ETF(516010)涨超3%,游戏行业景气度与估值空间引关注

稀土出口,连续两月环比猛涨超五成

2025 年 9 月 9 日
中俄蒙举行联合演练

中俄蒙举行联合演练

2025 年 9 月 9 日
今日水贝金条回收价格查询(2025年09月01日)

低研发却高产 4000 多项专利?海辰储能的迷之操作

2025 年 9 月 9 日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
2025 年 9 月 9 日 星期二
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
首页 股票行情

蚂蚁自研 2900 亿大模型用国产 AI 芯片训练,计算成本 508 万元低于 DeepSeek|钛媒体 AGI

6 月 之前
在 股票行情
阅读时间: 2 mins read
0 0
A A
蚂蚁自研2900亿大模型用国产AI芯片训练,计算成本508万元低于DeepSeek|钛媒体AGI

猜您喜欢

拟12亿美元收购一百吨级金矿 紫金矿业:「目前金价背景下,完全可能优化露采境界」|速读公告

郑眼看盘 | 数据出炉,A 股震荡

2 月 之前
0
4月最后一天,A股出现重要变化!

4 月最后一天,A 股出现重要变化!

4 月 之前
0

(图片来源:钛媒体 AGI 编辑林志佳拍摄)

随着 DeepSeek 引发 AI 算力优化热潮,蚂蚁集团全面发力 AI 技术,基于中国 AI 芯片进行 Infra,实现了模型技术突破。

3 月 24 日消息,钛媒体 AGI 获悉,近日,蚂蚁集团 CTO、平台技术事业群总裁何征宇带领 Ling Team 团队,利用 AI Infra 技术,开发了两个百灵系列开源 MoE 模型 Ling-Lite 和 Ling-Plus,前者参数规模 168 亿,Plus 基座模型参数规模高达 2900 亿,相比之下,AI 行业估计 GPT-4.5 参数量 1.8 万亿,DeepSeek-R1 参数规模达 6710 亿。

同时,论文显示,蚂蚁团队在模型预训练阶段使用较低规格的硬件系统,将计算成本降低约 20%,达 508 万元人民币,最终实现与阿里通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当的性能。

目前,相关技术成果论文发表在预印版 Arxiv 平台上。据彭博,该模型在训练阶段使用的是国产 AI/GPGPU 芯片产品,并非完全使用英伟达芯片,但最终得到的结果与英伟达芯片 (如 H800) 的结果相似。

这是蚂蚁集团首次详细披露其在 AI 算力层面的进展,第一次揭秘了自身如何以远低于 DeepSeek、OpenAI 等强大模型所需的计算成本,完成 AI 大模型技术的训练并将其开源,从而加入了中美 AI 科技竞争热潮中。

近年来,大语言模型发展迅速,尤其是 DeepSeek 热潮,引发学界和业界对通用人工智能 (AGI) 的广泛讨论,而混合专家 (MoE) 模型在特定任务中表现优异,但训练依赖高性能计算资源,成本高昂,限制了其在资源受限环境中的应用。

蚂蚁 Ling 团队认为,虽然 MoE 模型训练对高性能 AI 芯片 (如 H100 和 H800) 需求大,且资源供应,但低性能加速器更易获取且单位成本效益高,因此,模型需要能在异构计算单元和分布式集群间切换的技术框架。同时在 AI Infra 部分,在跨集群、跨设备的兼容和可靠层面进行性能优化。该公司设定的目标是“ 不使用高级 GPU” 来扩展模型。

具体来说,蚂蚁 Ling 团队在模型训练环境、优化策略、基础设施、训练过程、评估结果、推理等层面都进行优化和落地。

其中在预训练层面,蚂蚁构建约 9 万亿 token 的高质量语料库,采用创新的 MoE 架构,分析缩放规律确定超参数,多阶段训练并应对瞬时尖峰问题,并且通过优化模型架构和训练策略,如选择匹配架构、集成训练框架、开发 XPUTimer 和 EDiT 策略等,提高训练效率。

论文显示,在 AI 异构计算平台上,技术人员们将多个训练框架集成到统一的分布式深度学习框架中,即开源项目 DLRover。同时,为了利用各种平台的具体特性,团队开发了轻量级调试工具 XPUTimer,有助于快速、高效进行任务性能分析,并将内存使用量减少 90%。而 EDiT(弹性分布式训练) 则在各种配置下,训练时间最多可减少 66.1%。

此外,在存储优化中,通过存储与训练流程的协同设计,提升 MoE 场景下的 I/O 效率,通过 5000 个加速器 MoE 训练任务,将检查点写入延迟降低了 50%,减少一半的时间消耗,同时还将训练节点上的峰值内存消耗降低了 60%。

蚂蚁技术团队表示,利用 Ling-Plus,在五种不同的硬件配置上对 9 万亿个 token 进行预训练,其中,使用高性能硬件配置 (配置 D) 训练 1 万亿 token 的预训练成本约为 635 万元人民币,但蚂蚁的优化方法将使用低规格硬件将成本降至 508 万元左右,节省了近 20% 的成本。

蚂蚁表示,这一结果证明了在性能较弱的硬件上训练最先进 (SOTA) 的大规模 MoE 模型的可行性,使得在计算资源选择方面为基础模型开发提供更灵活、更经济的方法。

根据蚂蚁论文提供的 FLOPS 峰值,钛媒体 AGI 认为,这些 AI 加速器产品中可能包括壁仞、天数、寒武纪的算力芯片技术。

这与英伟达的初衷背道而驰。英伟达 CEO 黄仁勋认为,即使 DeepSeek 的 R1 等更高效的模型出现,计算需求仍将增长,AI  大模型需要更好的芯片来创造更多收入,而不是更便宜的芯片来削减成本。他坚持打造具有更多处理核心、晶体管和更大内存容量的高性能 GPU 芯片和“AI 工厂”。

结果显示,在英语理解方面,蚂蚁论文中表示,Ling-Lite 模型在一项关键基准测试中的表现优于 Meta 的 Llama 3.1-8B 模型。在中文基准测试中,Ling-Lite 和 Ling-Plus 模型均优于 DeepSeek 的同类模型。

“Ling-Plus 和 Qwen2.5-72B-Instruct 在安全性方面表现突出,且 Ling-Plus 在错误拒绝方面表现更佳。DeepSeek 系列模型的错误拒绝现象最少,但部分安全性较低。而 Ling-Plus 在安全性和拒绝率之间表现出更好的整体平衡,在这些指标的平均值方面取得了最好的结果。” 论文表示。

据悉,蚂蚁百灵大模型 Ling-Plus 和 Ling-Lite 将计划开源,并应用于医疗、金融等行业领域。

目前,蚂蚁拥有三款 AI 助手管家产品—— 生活助手“ 支小宝”、AI 金融管家“ 蚂小财”,以及刚刚发布的 AI 医生助手等产品和解决方案。

不过,蚂蚁也在论文中表示,大模型训练是一个具有挑战性且资源密集的过程,经常伴随着各种技术困难,错误和异常很常见,有些相对容易解决,而有些则需要大量时间和精力。而 Ling 系列模型在训练阶段面临挑战,包括稳定性,即使是硬件或模型结构的微小变化也会导致问题,包括模型错误率的大幅上升。

针对这份论文,彭博行业研究高级 BI 分析师 Robert Lea 表示,蚂蚁的这一成果强调了中国 AI 创新能力不断增强,以及技术进步的步伐加快。如果内容得到证实,这将凸显出中国正在朝着 AI 自给自足的方向迈进,因为中国正在转向成本更低、计算效率更高的模型,以绕过英伟达芯片的出口管制。

(本文首发于钛媒体 App,作者|林志佳)

 

更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App

#蚂蚁自研 2900 亿大模型用国产 AI 芯片训练计算成本 508 万元低于 DeepSeek 钛媒体 AGI

相关 文章

14K金价格多少钱一克(2025年09月01日)
24 小时

白银租赁利率狂飙!美拟议 「关键矿产清单」 中有银吓坏市场?

11 分 之前

财联社 9 月 9 日讯 (编辑 潇湘) 在本月初时隔 14 年强势重返 40 美元上方后,国际现货白银价格近来的升势可以说正一发不可收。而在银价大涨的表象背后,白银市场还有一个特...

货币市场日报:9月9日
24 小时

货币市场日报:9 月 9 日

23 分 之前

新华财经北京 9 月 9 日电 (高二山) 人民银行 9 日开展 2470 亿元 7 天期逆回购操作,操作利率为 1.40%,与此前持平;鉴于当日有 2557 亿元 7 天期逆回购到期,公开市场...

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

14K金价格多少钱一克(2025年09月01日)

白银租赁利率狂飙!美拟议 「关键矿产清单」 中有银吓坏市场?

2025 年 9 月 9 日
货币市场日报:9月9日

货币市场日报:9 月 9 日

2025 年 9 月 9 日
聚丙烯期货收盘上涨0.01% 主力处于净空头状态

机构坚定看好港股创新药行情!超 40 亿资金买入规模最大的港股创新药 ETF(513120)

2025 年 9 月 9 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录