• 最新
  • 热门
  • 所有
  • 期货市场
  • 外汇动态
  • 股票行情
从Tesla到Blackwell,英伟达如何改写HPC规则

从 Tesla 到 Blackwell,英伟达如何改写 HPC 规则

2025 年 3 月 19 日
日本央行突抛重磅消息:9月按兵不动,年内随机突袭?

日本央行突抛重磅消息:9 月按兵不动,年内随机突袭?

2025 年 9 月 10 日
铱回购一克多少钱(2025年09月01日)

胶版印刷纸期货及期权今日在上期所上市

2025 年 9 月 10 日
【财经分析】专家预判年底前埃镑或维持在高位

【财经分析】「枯水困局」 暴露巴西能源体系 「盲点」 制度滞后加剧能源转型困境

2025 年 9 月 10 日
20cm速递|上能电气20CM涨停,创业板新能源ETF华夏(159368)上涨3.58%

大有期货:贵金属或有进一步走高可能 关注美国非农就业数据

2025 年 9 月 10 日
【数读IPO】今日1只新股申购,公司为汽车领域细分「小巨人」

【数读 IPO】 今日 1 只新股申购,公司为汽车领域细分 「小巨人」

2025 年 9 月 10 日
谷歌大涨超9%,创纪录新高

机构称 AI 算力主线核心逻辑并未破坏,关注云计算 ETF(516510) 等产品布局机会

2025 年 9 月 10 日
证监会同意公募基金行业机构投资者直销服务平台正式启动运行

新一轮国内成品油调价搁浅

2025 年 9 月 10 日
无惧政治风暴,欧美利差走阔或力挺欧元剑指1.20大关!

无惧政治风暴,欧美利差走阔或力挺欧元剑指 1.20 大关!

2025 年 9 月 10 日
锇回收价格多少钱一克(2025年09月01日)

铑多少钱一克 (2025 年 09 月 05 日)

2025 年 9 月 10 日
恒生科技ETF易方达(513010)近一周「吸金」超10亿元,机构称港股在估值上具备充分吸引力

https://www.huxiu.com/article/4764814.html

2025 年 9 月 10 日
「万机之母」工业母机ETF(159667)连续3日净流入超1.6亿元,政策助力,工业母机板块利好频传

债市日报:9 月 9 日

2025 年 9 月 10 日
摇身一变成「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

摇身一变成 「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

2025 年 9 月 10 日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
2025 年 9 月 10 日 星期三
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
首页 股票行情

从 Tesla 到 Blackwell,英伟达如何改写 HPC 规则

6 月 之前
在 股票行情
阅读时间: 2 mins read
0 0
A A
从Tesla到Blackwell,英伟达如何改写HPC规则

文 | 半导体产业纵横

明日,英伟达创始人 CEO 黄仁勋将迎来重振该公司股价的重要契机。在英伟达年度技术峰会 GTC 上,黄仁勋将阐述他如何带领英伟达探索 AI 下一个前沿的方向。

猜您喜欢

国家统计局发布的数据显示,中国6月官方制造业PMI为49.7,预期49.7,前值49.5。

英伟达产业链狂飙!AI 方向的炒作过热了吗?——道达投资手记

4 周 之前
0
因基金销售等环节存在多项问题,多家基金销售机构被采取监管措施

A 股早盘震荡分化,军工集体爆发,AI 智能体概念再度活跃

1 月 之前
0

据摩根大通此前预计,英伟达将在大会上推出 Blackwell Ultra 芯片 (GB300),并可能披露 Rubin 平台的部分细节。此次大会还将聚焦 AI 硬件的全面升级,包括更高性能的 GPU、HBM 内存、更强的散热和电源管理,以及 CPO(共封装光学) 技术路线图。

在黄仁勋的演讲到来前,我们来看看这些年中英伟达推出的系列架构,和他们背后的故事。

1999 年底,英伟达推出了第一款 GPU(Graphic Process Unit,图形处理单元)Geforce 256,将完整的渲染管线集成进硬件,提供了不错的加速效果。但这款产品还很难称之为处理器,因为它尚不具备任何可编程能力。2001 年随着 DX8 引入可编程顶点着色器的概念,英伟达才在 Geforce 3 中添加了 Vertex Processor,使 GPU 可以编程了。随后,越来越多的可编程着色器被 DX 和 OpenGL 引入,以满足渲染开发者的算法需求。

在 GPU 设计之初,并非针对深度学习,而是图形加速,在英伟达推出 CUDA 架构之前,GPU 并无太强对深度学习运算能力的支持。真正用来作为人工智能算力支持的 GPU,不是普通的显卡,而是 GPGPU(General-Purpose Computing on Graphics Processing Units) 即通用计算图形处理器,这是一种用于处理非特定需求 (通用类型) 计算目的的算力单元 (芯片)。

革命的开始,CUDA 架构的诞生

随着 GPU 具备了可编程能力,其用于并行计算的天赋被发掘出来。当时,很多大学和研究机构都在尝试用 GPU 做一些科学计算。

2003 年的 SIGGRAPH 大会上,许多业界泰斗级人物发表了关于利用 GPU 进行各种运算的设想和实验模型。SIGGRAPH 会议还特地安排了时间进行 GPGPU 的研讨交流。但当时的开发者只能利用着色器编程语言开发程序,必须将计算资源映射为渲染概念才能使用,非常麻烦。因此亟需一种针对 GPU 并行计算的编程语言。此时,正在斯坦福读博的 Ian Bark 看到这一需求,投身到 Brook(一套用于并行计算的编程语言,后被 AMD 收购) 的研发中,成为 GPU 并行计算软件栈的先行者。2004 年,他以实习生的身份加入英伟达,并于两年后开发出 CUDA。

渲染需求变得越来越多样化,并行计算业务正含苞待放,Tesla G80 架构正是在这样的历史背景下被设计出来,成为英伟达改变自身命运的重要转折点。

2006 年,英伟达推出了 Tesla 架构的第一代 (G80),开启了 GPU 通用计算探索。Tesla 架构之前的显卡也经历了几代的发展,但基本上是图形显卡。而它采用全新的 CUDA 架构,支持使用 C 语言进行 GPU 编程,可以用于通用数据并行计算。这成为英伟达改变自身命运的重要转折点。Tesla G80 是第一款实现 CUDA 架构的 GPGPU,开启了一个并行加速的时代。G80 是有史以来最伟大的 GPU 变革产物之一,首批产品 GeForce 8800 GTX/GTS 于 2006 年 11 月发布。之后,英伟达又在第一代基础上推出了 Tesla 架构的第二代 (GT200),其双精度的 FMA 运算速度 30FMA ops/ clock,提升了 8 倍多。

就在 G80-G200 这两代产品上,英伟达花了大约三年时间积累了大量的用户体验反馈,招募了 Bill Dally 作为首席科学家,最终推出了 Fermi 这个划时代的产品,这是第一款带有 L1 Cache、ECC 纠错,面向超级计算机的架构,从这一代开始,英伟达涉足超级计算机的野心开始暴露无遗,在发布的时候拉来了多位超级计算机行业的重要人物站台。

2010 年,英伟达公司正式推出了 Fermi 全新架构。这款架构不仅仅是一个简单的硬件更新,而是被英伟达定义为首款专门为计算任务而设计的 GPU。换句话说,英伟达通过 Fermi 架构重新定义了 GPU 的概念,旨在加速并行计算的性能。与此同时,这款架构还具备了强大的图形渲染能力,使其在图形处理方面同样表现出色。而 GF100 是第一款基于 Fermi 架构的 GPU,集成 32 亿个晶体管,专为下一代游戏与通用计算应用程序而优化的全新架构,实现了所有 DirectX 11 硬件功能,包括曲面细分和计算着色器等。

G80 是对统一图形与计算处理器应有面貌的最初愿景。随后的 GT200 扩展了 G80 的性能与功能。而 GF100,这是一个专为下一代游戏与通用计算应用程序而优化的全新架构的 GPU。Fermi 这一代架构展现了英伟达全力押注通用并行计算的决心。倘若说 Tesla G80 仅仅是小试身手,那么 Fermi 则正式吹响了全面进军计算产业的号角。

英伟达布局高性能计算

之后,英伟达大致保持了两年更新一次架构的频率,不断推陈出新。

2012 年,英伟达推出 Kepler 架构。这是首个支持超级计算和双精度计算的 GPU 架构。得益于 28nm 的先进制程技术,Kepler 在性能和功耗方面实现了质的提升。Kepler GK110 具有 2880 个流处理器和高达 288GB/s 的带宽,计算能力比 Fermi 架构提高 3-4 倍。Kepler 架构的出现使 GPU 开始成为高性能计算的关注点。

2014 年,英伟达发布的 Maxwell 架构是先前 Kepler 架构的升级版,采用台积电 28nm 工艺制程。彼时移动设备兴起,对低功耗、高性能 GPU 需求大增,同时需要优化 GPU 在不同应用场景的适应性,Maxwell 架构应运而生。首款基于 Maxwell 架构的 GPU 为 GM107,专为笔记本和小型 (SFF)PC 等功率受限的使用场合而设计,采用台积电 28nm 工艺制程,芯片尺寸 148 平方毫米,集成 18.7 亿个晶体管。针对流式多处理器采用全新设计称为 SMM,GM107 核心的每核心效能提升了 35%,每瓦功耗比提升了一倍,支持 DirectX 12。首款基于 GM107GPU 的显卡是 GeForce GTX750Ti。

2016 年,Pascal 架构推出,用于接替上一代的 Maxwell 架构。基于 Pascal 架构的 GPU 使用 16nm FinFET 工艺、HBM2、NVLink 等新技术。这是首个为了深度学习而设计的 GPU,支持所有主流的深度学习计算框架。Pascal 架构核心阵容强大,包括 GP100(3840 个 CUDA Core 和 60 组 SM 单元) 和 GP102(3584 个 CUDA Core 和 28 组 SM 单元) 两大核心。Pascal GP100 具有 3840 个 CUDA 核心和 732GB/s 的显存带宽,但功耗只有 300W,比 Maxwell 架构提高 50% 以上。

Pascal 架构刚刚推出之际,深度学习正发展的如火如荼。业界出现了很多针对神经网络的专用加速器,无论在能效和面效上都碾压 GPU,这让英伟达倍感压力。为了应对竞争,英伟达一反之前两年一代架构的迭代节奏,次年就推出了专门针对神经网络加速的 GPU 架构 Volta。Volta 架构引入了 Tensor Core(张量核心) 专门加速矩阵运算,提升深度学习计算效率;支持 NVlink 2.0,提高了数据传输速度,增强了多 GPU 协作能力,提升系统整体性能。Volta GV100 具有 5120 个 CUDA 核心和 900GB/s 的带宽,加上 640 个张量核心,AI 计算能力达到 112 TFLOPS,比 Pascal 架构提高了近 3 倍。Volta 的出现标志着 AI 成为 GPU 发展的新方向。

紧随其后,在一年后的 2018 年,英伟达发布了 Turing 架构,进一步增强了 Tensor Core 的功能。Turing 架构不仅延续了对浮点运算的优化,还新增了对 INT8、INT4、甚至是 Binary(INT1) 等整数格式的支持。这一举措不仅使大范围混合精度训练成为可能,更将 GPU 的性能吞吐量推向了新的高度,较 Pascal GPU 提升了惊人的 32 倍。此外,Turing 架构还引入了先进的光线追踪技术,新增了 Ray Tracing 核心(RT Core)。Turing TU102 具有 4608 个 CUDA 核心、576 个张量核心和 72 个 RT 核心,支持 GPU 光线追踪,代表了图形技术的新突破。

2020 年,Ampere 架构的推出再次刷新了人们对 Tensor Core 的认知。Ampere 架构新增了对 TF32 和 BF16 两种数据格式的支持,进一步提高了深度学习训练和推理的效率。同时,Ampere 架构引入了对稀疏矩阵计算的支持,在处理深度学习等现代计算任务时,稀疏矩阵是一种常见的数据类型,其特点是矩阵中包含大量零值元素。传统的计算方法在处理这类数据时往往效率低下,而 Ampere 架构通过专门的稀疏矩阵计算优化,实现了对这类数据的高效处理,从而大幅提升了计算效率并降低了能耗。Ampere GA100 GPU 具有 6912 个 CUDA 核心、108 个张量核心和 hr 个 RT 核心, 比 Turing 架构提高约 50%。Ampere 架构在人工智能、光线追踪和图形渲染等方面性能大幅跃升。

英伟达全面引领 AI 时代

2016 年,黄仁勋亲手将第一台 DGX-1 超级计算机送给了 OpenAI。而在 2022 年年底,OpenAI 发布了 ChatGPT 生成式大语言模型,其惊艳的自然语言处理能力成为深度学习发展历程中划时代的里程碑。而在这波 AI 革命中,英伟达作为“ 卖铲人”,发布了 H100 GPU,凭借着最新的 Hopper 架构,H100 成为地表最强并行处理器。

H100 是英伟达第九代数据中心 GPU,集成了 800 亿个晶体管,专为大规模 AI 和 HPC 计算而生。Hopper 架构标志性的变化是新一代流式多处理器的 FP8 张量核心 (Tensor Core),这一创新进一步加速了 AI 训练和推理过程。值得注意的是,Hopper 架构去除了 RT Core,以便为深度学习计算腾出更多空间。此外,Hopper 架构还引入了 Transformer 引擎,这使得它在处理如今广泛应用的 Transformer 模型时表现出色,进一步巩固了英伟达在深度学习硬件领域的领导地位。

同时,NVIDIA Grace Hopper 超级芯片将 NVIDIA Hopper GPU 的突破性性能与 NVIDIA Grace CPU 的多功能性结合在一起,在单个超级芯片中与高带宽和内存一致的 NVIDIA NVLink Chip-2-Chip(C2C) 互连,并且支持新的 NVIDIA NVLink 切换系统,CPU 和 GPU、GPU 和 GPU 之间通过 NVLink 进行连接,数据的传输速率高达 900 GB/s,解决了 CPU 和 GPU 之间数据的时延问题,跨机之间通过 PCIe 5.0 进行连接。NVIDIA Grace Hopper 超级芯片架构是高性能计算 (HPC) 和 AI 工作负载的第一个真正的异构加速平台。

2024 年,英伟达推出的 Blackwell 架构为生成式 AI 带来了显著的飞跃。相较于 H100 GPU,GB200 超级芯片在处理 LLM 推理任务时,性能实现了高达 30 倍的惊人提升,同时在能耗方面也实现了高达 25 倍的优化。其中 GB200 超级芯片能够组合两个 Blackwell GPU,并与英伟达的 Grace 中央处理单元配对,支持 NVLink-C2C 互联。Blackwell 还引入了第二代 Transformer 引擎,增强了对 FP4 和 FP6 精度的兼容性,显著降低了模型运行时的内存占用和带宽需求。此外,还引入了第五代 NVLink 技术,使每个 GPU 的带宽从 900 GB/s 增加到 1800 GB/s。

英伟达的 GPU 架构经历了一系列针对深度学习优化的重大创新和升级,每一次进步都在推动深度学习技术的边界。这些架构的发展不仅体现了英伟达在硬件设计方面的前瞻性,也为深度学习的研究和应用提供了强大的计算支持,促进了 AI 技术的快速发展。

值得注意的是,去年英伟达 CEO 黄仁勋在接受采访时表示,英伟达工程师正在开发接下来的两代产品,“ 将按照一年一代的节奏完成”。此前,英伟达按照平均两年一次的更新频率升级 GPU 架构,对产品性能进行大幅提升。

明日,英伟达会如何刷新人们的想象,令人期待。

更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App

#从 Tesla 到 Blackwell 英伟达如何改写 HPC 规则

相关 文章

日本央行突抛重磅消息:9月按兵不动,年内随机突袭?
禾湖观察

日本央行突抛重磅消息:9 月按兵不动,年内随机突袭?

4 分 之前

【文章来源:金十数据】AI 播客:换个方式听新闻 下载 mp3 音频由扣子空间生成 据知情人士透露,日本央行官员认为,无论国内政治是否动荡,今年仍有可能再次上调基...

铱回购一克多少钱(2025年09月01日)
24 小时

胶版印刷纸期货及期权今日在上期所上市

4 分 之前

【文章来源:期货日报】 燃料油、石油沥青和纸浆期权合约同日挂牌交易 9 月 10 日,全球首个文化用纸金融衍生品——胶版印刷纸 (下称双胶纸) 期货和期权在上期所上市。同日...

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

日本央行突抛重磅消息:9月按兵不动,年内随机突袭?

日本央行突抛重磅消息:9 月按兵不动,年内随机突袭?

2025 年 9 月 10 日
铱回购一克多少钱(2025年09月01日)

胶版印刷纸期货及期权今日在上期所上市

2025 年 9 月 10 日
【财经分析】专家预判年底前埃镑或维持在高位

【财经分析】「枯水困局」 暴露巴西能源体系 「盲点」 制度滞后加剧能源转型困境

2025 年 9 月 10 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录