2025 年 7 月 23 日 上午 11:44

估值 430 亿,这家独角兽接手英伟达 「看不上」 的生意


文 | 融中财经

一个登顶,一个起跳,4.2 万亿美元与 60 亿美元的落差,为 AI 芯片战局埋下新变量。

一边是英伟达市值冲破 4.2 万亿美元,成为历史上首家达到这一规模的科技公司—— 这个数字超过了英国所有上市公司的市值总和,堪称商业史上“ 大象级” 的存在。

7 月 15 日,英伟达 CEO 黄仁勋年内第三次访华,宣布美国批准恢复向中国出口定制的 H20 芯片,重启占其总营收 13%(约 170 亿美元) 的中国市场,彰显其巩固 AI 时代统治地位的雄心。

另一边,2016 年成立的加州初创公司 Groq 正洽谈新一轮融资:以 60 亿美元 (约 430 亿人民币) 的投后估值募集 3-5 亿美元的资金,用于履行与沙特阿拉伯的重磅合同。

当黄仁勋在东方意气风发之际,Groq 创始人乔纳森· 罗斯正盯着沙特的数据中心屏幕—— 那里由 1.9 万颗自研芯片组成的 AI 推理集群,从 2024 年 12 月搭建到投入运行仅用了 8 天,成为中东加速 AI 基建的核心引擎。

60 亿对 4.2 万亿,Groq 以不足英伟达 0.2% 的体量,展开了一场“ 不对称” 的芯片竞赛。

这家公司被视为英伟达最强的竞争对手之一。它以 LPU 芯片的 SRAM 架构和 TSP 流式计算专攻推理,靠 80TB/s 片上带宽和静态调度砍掉延迟,瞄准英伟达 H100 的推理短板;英伟达则凭 CUDA 生态和 HBM 显存垄断,一边用 H200 强化推理能效,一边通过供应链控制 (如买断 HBM 产能) 压制对手。

前者借沙特布局和开源模型突围,后者靠开发者绑定和全栈优势死守,在推理市场上演“ 精准狙击” 与“ 生态护城河” 的攻防战。

创企中的“ 金汤玩家”

这家 2016 年诞生于硅谷的公司,从诞生就自带“ 明星基因”。

创始人乔纳森· 罗斯 (Jonathan Ross) 的履历本身就是块金字招牌—— 他是谷歌第一代张量处理单元 (TPU) 的核心研发成员,亲历了 AI 芯片从实验室走向产业化的关键阶段。公司的另一位创始人是谷歌 Alphabet 的 X 实验室工程师道格拉斯· 怀特曼 (Douglas Wightman)。同样值得关注的是 Groq 的硬件工程副总裁吉姆· 米勒 (Jim Miller),这位行业老兵既主导过亚马逊 AWS 云计算硬件的开发与交付,也曾在英特尔领衔 Pentium II 处理器项目,横跨消费电子与企业级硬件两大领域。

罗斯和米勒的履历吸引了前谷歌 TPU 团队 80% 的核心成员加入 Groq,这种人才聚集效应在 2024 年 Groq 的沙特投资后进一步放大——Groq 与 Meta 合作,为其官方 Llama API 提供推理加速服务;Meta 首席 AI 科学家 Yann LeCun 以技术顾问身份支持 Groq; 英特尔前晶圆厂负责人 Stuart Pann 则出任 Groq 首席运营官 (COO)。

顶级团队自然吸引顶级资本。

2024 年 8 月,黑石集团 (BlackRock) 领投了 Groq 6.4 亿美元的 D 轮融资,思科、三星 Catalyst 基金等机构跟投,让 Groq 的估值一举冲到 28 亿美元。短短一年后,其估值即将翻倍至 60 亿美元,成为 AI 芯片赛道成长最快的独角兽之一。

此次 Groq 募资 3-5 亿美元,除了履行和沙特的合同,帮助其 AI 推理数据中心项目快速落地外,还包括构建北美本土供应链、扩张 GroqCloud 开发者生态,以及应对英伟达 H200 芯片量产带来的竞争压力。尽管沙特协议带来长期收入预期,但里程碑式付款条款导致 2025 年上半年需补充流动资金以应对产能爬坡前的资金缺口。

Groq 的融资带着明确的战略意图。

2024 年底,Groq 以闪电般的速度开启在沙特的战略布局。早在 2024 年 9 月,Groq 便与沙特阿美的数字与技术子公司 Aramco Digital 签署谅解备忘录,计划在沙特达曼建设全球最大规模的 AI 推理数据中心。

作为落地的第一步,Groq 于 2024 年 12 月在达曼快速部署了包含 1.9 万个 LPU(语言处理单元) 的推理集群,仅用 8 天时间即完成上线,每日可处理数十亿 Tokens(词元),展现出惊人的执行效率。

为适配沙特的高温环境,Groq 对硬件设计进行了针对性优化,同时启动阿拉伯语 NLP 模型的本地化开发,以满足中东市场的特定需求。

该项目被纳入沙特“2030 愿景”,沙特阿美为此提供了上亿美元的资金支持,目标在 2025 年将处理能力提升至每日数千亿 Tokens,并最终部署 10.8 万个 LPU 芯片,形成全球最大的 AI 推理基础设施之一。这一布局依托沙特的地缘优势、低廉的能源成本和充足的建设空间。Groq 的快速行动为其后续获得沙特 15 亿美元投资承诺奠定了基础。

2025 年 2 月,沙特主权基金通过沙特阿美旗下 Aramco Digital 向其抛出 15 亿美元投资承诺,条件是协助沙特建设本土 AI 基础设施。这笔钱不仅让 Groq 的现金流底气十足,更让其业绩预期飙升:2025 年营收有望实现跨越式增长,达到 5 亿美元,使 Groq 迈入“ 亿级营收俱乐部”。

不碰“ 训练” 主战场,专啃“ 推理” 硬骨头

Groq 从没想过与英伟达在 AI 训练芯片市场正面交锋。

当英伟达的 GPU 凭借 CUDA 生态在训练领域占据超 80% 市场份额时,它选了条差异化路线:专注于 AI 推理芯片。

这步棋精准踩中了行业痛点。AI 计算的“ 训练” 与“ 推理” 环节有着本质区别:训练像“ 教学生”,需要海量数据反复调整模型参数,对算力的通用性和精度要求极高;推理则像“ 学生答题”,需要在毫秒级时间内给出结果,更强调低延迟、高并发和低成本。

英伟达的 GPU 本是为图形渲染设计的,改造后用于 AI 训练合适,但拿来做推理却有些“ 大材小用”—— 其硬件资源中,有相当一部分是为支持训练时的复杂梯度计算而设计,在推理阶段反而成了冗余负担。

Groq 的核心产品 LPU(Language Processing Unit) 就是冲着推理场景的痛点来的。它不追求“ 全能型” 算力,而是聚焦“ 推理专项优化”:让 Meta 的 Llama、谷歌的 Gemma 等已训练完成的大模型,在执行文本生成、语义理解等任务时跑得更快、更省电。

根据 Groq 官方在 2024 年底发布的基准测试结果,搭载 LPU 芯片的 Llama 模型,在大模型推理任务中每秒能生成 500 个 Tokens(文本词元),对比英伟达 H100(FP16) 的 150 个 Tokens 每秒的速度快了约 3 倍,对比英伟达 H200 的 200 Tokens 每秒的速度,也快了两倍多。

在商业模式上,Groq 也与英伟达走出了完全不同的路径。

英伟达靠“ 硬件销售+软件生态” 的组合拳盈利—— 既卖 GPU 芯片和 DGX 服务器等硬件,又通过 CUDA 平台绑定开发者;

Groq 则另辟蹊径,采用“ 芯片即服务” 模式:自己建设数据中心,将 LPU 芯片组成服务器集群,向客户提供云端推理算力租用服务。这种模式让客户无需直接采购硬件,直接通过 API 调用就能体验其芯片性能,大大降低了尝试门槛。

今年 7 月,Groq 宣布在欧洲芬兰建设新的数据中心,进一步扩大云端服务版图,显然是想通过“ 服务先行” 策略快速占领市场。

Groq 的技术手册里藏着不少“ 反套路” 设计。

当行业巨头们比拼 4nm、5nm、7nm 先进制程时,它反其道而行之,选择相对成熟的 14nm 工艺;当英伟达的 H100 GPU 依赖 HBM 高带宽显存提升性能时,Groq 在 LPU 芯片里塞进了 230MB SRAM 高速缓存,靠架构创新弥补制程差距。

这步险棋意外走通了。大带宽 SRAM 让 LPU 的片上内存带宽达到 80TB/s,数据可以在芯片内部高速流转,不必频繁访问板载显存,直接将推理延迟砍掉一半以上。

更关键的是,这种设计让 Groq 避开了 HBM 显存的供应链瓶颈—— 英伟达的 H100 之所以常年缺货,很大程度上受制于 HBM 显存的产能,而 SRAM 的供应相对稳定,让 LPU 的量产更有保障。

架构层面的差异更具颠覆性。

英伟达 GPU 采用“SIMD” 架构,擅长同时处理大量相似任务,但需要动态调度线程,存在一定算力闲置;Groq 的 TSP(Tensor Streaming Processor) 架构则采用“ 流式计算” 模式,将推理任务拆解成固定流水线,通过静态调度让每个时钟周期的算力都得到充分利用。这种设计让单颗 LPU 芯片的算力达到 1000 万亿次运算每秒 (1000 TOPS),在部分机器学习模型上,速度比常规 GPU 甚至谷歌 TPU 快 10 到 100 倍。

Groq 的技术路线虽在推理场景展现优势,但也存在显著短板。

LPU 芯片内置 230MB SRAM 虽能实现高带宽,但单芯片内存远低于英伟达 H100 的 80GB HBM 显存,导致运行大模型时需大规模集群拆分。

正如原阿里技术副总裁贾扬清的推算,运行 Llama-70b 模型理论上需 572 颗 LPU(单芯片 2 万美元,总成本超 1100 万美元),而 8 颗 H100(总成本约 30 万美元) 即可实现相当性能,硬件成本差距达 30 倍以上。尽管实际部署中可通过模型分片优化,但大规模集群的运维复杂度和能耗 (576 颗 LPU 集群功耗约 100kW,8 卡 H100 约 30kW) 仍显著高于 GPU 方案。

更关键的是专用架构的场景局限性:专用硬件的静态调度优势在算法迭代频繁时反而成为劣势,难以像 GPU 通过软件更新快速适配新模型。

生态破局与市场裂缝

技术再强,没有生态支撑也难成气候。英伟达的 CUDA 平台已积累超 400 万开发者,形成“ 硬件-软件-开发者” 的稳固三角,这是任何挑战者都绕不开的高墙。Groq 的破局策略是"借船出海":尽可能对接现有开源生态,降低开发者的迁移成本。

它首先瞄准了开源大模型社群。Groq 团队花了大量精力优化 Meta 的 Llama 系列、谷歌的 Gemma 等热门开源模型在 LPU 芯片上的运行效率,这些模型本身已积累数百万开发者,只要证明 LPU 能让模型跑得更快,自然能吸引开发者尝试。更关键的是,Groq 在 2025 年推出了开发者控制台,通过友好的编程接口和免费算力 (每月 1000 万 Tokens 的额度) 试用政策,目前吸引了 7.5 万名开发者注册。

价格策略同样服务于生态扩张。LPU 芯片 2 万美元出头的定价,不仅比英伟达 H100 的 2.5-3 万美元低,也比部分中端 GPU 更具吸引力。Groq CEO 乔纳森· 罗斯曾表示,到 2025 年底,Groq 计划部署 150 万颗推理芯片,占据全球一半的 AI 推理计算能力。这番话虽有营销成分,却精准点出了行业趋势——AI 算力投入的重心正从模型训练阶段向推理阶段倾斜。

英伟达当然不会坐视“Groq 们” 蚕食市场。

面对推理芯片的崛起,它已迅速调整策略:推出基于安培架构的 A30/A10 等推理专用 GPU,优化 TensorRT 软件库的推理延迟,并通过 Triton 推理服务器提供端到端加速方案,试图将训练领域的优势延伸到推理市场。

更难撼动的是 CUDA 生态的“ 惯性”。开发者在 CUDA 平台上积累了大量代码和工具链,迁移到新平台需要重新学习和调试,这种“ 路径依赖” 让很多企业宁愿忍受 GPU 的高成本,也不愿冒险尝试新方案。

有行业人士透露,部分企业在与 Groq 接触时异常谨慎,生怕消息走漏后被英伟达“ 穿小鞋”—— 比如延迟交付 GPU,这种隐形压力客观上抬高了新芯片的推广门槛。

然而,市场永远存在裂缝。

2024 年以来的“GPU 荒” 让客户苦不堪言:云计算厂商为了抢购英伟达芯片,不得不提前几个月下单,否则就可能排不上产能。这种供需失衡让企业开始主动寻找“ 第二供应商”,降低对单一厂商的依赖,这为 Groq 创造了窗口期。

更重要的是,AI 芯片市场并非“ 二元对立”。除了英伟达和 Groq,英国的 Graphcore、中国的寒武纪、美国的 Cerebras 等玩家都在各自的技术路线上发力,形成“ 一超多强” 的竞争格局。

Groq 的优势在于,它抓住了沙特等新兴市场的需求—— 中东国家正雄心勃勃地建设 AI 基础设施,既有钱又有场景,还乐于扶持非美国主流的技术供应商以实现技术自主,这种地缘需求为 Groq 提供了理想的“ 试验田”。

然而,面对新兴市场的争夺,初创公司如 Groq 需加速布局—— 因为巨头们也没有停下脚步。继去年 12 月 Groq 在沙特布局后,今年 5 月,英伟达与 AMD 也发现了这一新兴市场,相继宣布在沙特建设芯片制造及 AI 基础设施基地,直接切入中东 AI 算力核心市场,这无疑给后来者增添了竞争压力。

全球 AI 芯片的竞合态势,在中国市场呈现出更复杂的张力。

近期,英伟达宣布 H20 芯片将重新在中国市场销售,虽 H20 受限于算力阈值 (较 H100 略有下调),但凭借成熟的 CUDA 生态和高性能,短期内仍会分流部分对高端算力有迫切需求的企业 (如大模型训练机构、云端服务商),给华为昇腾、寒武纪、壁仞科技等国内芯片企业带来直接竞争压力—— 尤其在需要兼容国际主流框架的场景中,国产芯片的生态适配成本仍需时间抹平。

这种压力也在迫使中国 AI 芯片市场加速“ 场景化突围”。

不同于国际市场聚焦通用算力,中国市场的核心机会藏在垂直场景的深度绑定中:在智慧城市领域,海光芯片支撑的边缘计算节点,能高效处理交通摄像头的实时视频流 (每秒解析 30 路 4K 画面),适配国内复杂的路况算法;自动驾驶赛道,地平线系列芯片已搭载于比亚迪、长城、理想等车企的多款车型,在辅助驾驶系统中负责视觉感知任务。

中国 AI 芯片市场的突围路径,正通过垂直场景的深度绑定逐步清晰—— 避开通用算力的正面竞争,在本土特色场景中打磨技术与生态。

结语

这场 60 亿对 4.2 万亿的较量,才刚刚开始。

它的结局大概不是“ 你死我活” 的零和游戏,而是形成“ 多元共生” 的生态平衡:英伟达继续主导高端 AI 训练市场,Groq 等新锐在推理细分赛道分得一杯羹。

这一格局恰似行业演进的常态:正如智能手机时代,苹果、三星锚定高端市场,小米、传音则在中低端与新兴市场开辟空间,彼此并非替代而是互补;又如 AI 领域,通用大模型与垂直场景的 AI Agent 各司其职—— 前者支撑基础能力,后者深耕具体需求。

对整个行业来说,这种竞争是好事。Groq 的出现至少能迫使英伟达优化推理芯片的成本和性能,让更多企业用得起 AI 算力。毕竟,AI 应用的场景丰富—— 从智能客服到自动驾驶,从医疗诊断到工业质检,不同场景对算力的需求千差万别,既需要英伟达这样的“ 全能选手”,也需要 Groq 这样的“ 专精玩家”。

“ 某种程度上,我们的存在对英伟达反而是一种利好,”Groq CEO 罗斯说。“ 他们可以继续生产那些高利润训练用的 GPU,而我们则接手他们不太想做、低利润但高产量的推理业务。”

当年没人能想到,一家显卡公司能成为 AI 时代的“ 卖铲人”;同理,今天估值 60 亿美元的 Groq,十年后或许会在 AI 芯片版图中占据重要一席。

罗斯直言:“ 你的工作不是跟随浪潮,而是要提前站位,准备好迎接它。”

无论 Groq 最终能否撼动英伟达,它所代表的创新精神和差异化打法都为行业带来了新的思考:在巨头林立的 AI 时代,小团队依然有机会凭借卓越的洞察和执行,实现对大象的“ 蚂蚁撼树”—— 或许不能将之推倒,却足以令大象为之侧目,不得不改变方向。

这正是技术进步最迷人的地方,也是市场竞争的价值所在。

更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App

- Advertisement -spot_img

推荐阅读