上月,开源列式数据库厂商 ClickHouse 宣布完成 3.5 亿美元 C 轮融资,该轮融资后值达到 63.5 亿美元,几乎翻了三倍,引发了业内一轮不小震动。
不光在于融资与估值高低,还在于 ClickHouse 所在的赛道——AI 时代的大数据分析和存储,该领域的客户需求正日益高涨,同时对数据库的要求也在全面升级。
ClickHouse 作为一款开源列式数据库,在处理该类数据时表现出的显著优势,不仅力压同类型的列式数据库,也让云数仓独角兽 Snowflake,以及老牌大厂产品 Redshift、BigQuery 等有了一丝紧张之感。
ClickHouse 脱胎于俄罗斯第一大搜索引擎 Yandex 的开源项目,于 2021 年正式独立为商业化公司。如今,ClickHouse 发展势头正盛,通过向客户收取云托管费用,其业务在过去一年增长超过 300%,服务企业客户超过 2000 家,覆盖金融科技、交通、消费者和医疗保健等多个行业。最近的一些客户包括 AI 初创公司 Anthropic、特斯拉,以及阿根廷最大电商 Mercado Libre 等。另据外媒可参考消息,ClickHouse 在第一季度末时的年经常性收入已达到 7000 万美元,年化营收运行率接近 1 亿美元。
ClickHouse 越来越成为一家不可忽视的数据库厂商。不过,对于 ClickHouse 的发展势头,首先会存在一个疑问:为什么是此时?以及 ClickHouse 的市场前景如何?
技术即是成本护城河
相对于行存储的传统关系型数据库,列式数据库意味着数据保存在类似电子表格的行、列中,这种列式架构可显著加快分析型任务的速度。在数据处理过程中,数据库系统需要同时从多个存储区域检索数据,而数据访问速度会显著受到存储位置的影响—— 从相邻区域读取数据的速度要远快于从分散区域读取。
ClickHouse 从设计之初就充分利用了这一特性来优化查询性能。它将同一列的数据尽可能存储在相邻的物理区域,这种存储布局使得列数据能够被连续读取,大幅减少了寻址时间,从而显著提升扫描效率。这种设计特别适合分析型查询场景,因为这类查询通常需要快速访问大量列数据。
笔者此前与数据库专家交流获得一个观点是,数据驱动的分析应用越来越普遍,要求数据库技术栈实现统一架构。在此之前,这些技术栈彼此独立,如 MySQL+Teradata+Elastic Search 等多个系统搭积木的模式,这个架构最大的问题在于过于复杂,需要搭建一个集群来完成数据分析的能力,搭建与维护成本较高。
具体而言,如开源的 MySQL,这类事务型数据库面向 OLTP 场景设计,社区研发方向侧重于加强其事务处理的能力,一般无法扩展以应对处理大量、复杂查询所需要的分析型任务。传统数仓针虽内部批量处理密集型用例进行了优化,但并发性有限且性能较慢。而类似于 Elastic Search 的传统搜索引擎技术,对于非结构化数据分析而言成本高昂,包括存储和计算资源的占用增加,以及无法实现快速精准检索等因素,限制了其实际应用范围。
ClickHouse 提供了一个专门的解决方案来弥补差距—— 将高性能分析与当今智能数据驱动应用所需的可扩展性和并发性相结合。作为高性能列式存储,ClickHouse 能够以极低的延迟在海量数据集上执行交互式分析查询,非常适合于支持 AI 和机器学习应用,以及实时分析、可观测性等任务。
蹭上 AI 东风
除了技术架构的创新,ClickHouse 的发展也离不开市场与客户需求的变化。由于企业不再只是构建 BI 或批量报告,而是希望搭建一个实时的智能数据平台,并且同时为人类和 AI Agent 所调取。结合当前 AI Agent 的设计思路,由于生成查询的速度远超人类,面向其设计的数据平台/数据库必须具备低延迟响应、支持交互式分析查询的能力,同时还要有更高的吞吐量,以满足其高效处理数据的要求。
以近期大热的 AI 编程为例。尽管多数 AI 编程助手推出时间不长,但开发者留存率依然较高。据研究公司 Indagari 数据显示,至少 72% 订阅了编程助手 Cursor 的用户在六个月后仍继续付费;超过 20% 的用户订阅了多个编程助手,且这一比例还在不断增长。高留存率反映的是 AI 编程的强粘性,这也意味着企业应用开发速度正借 AI 之势迎来快速增长。
AI 需要能够快速释放数据价值的数据基础设施,这件事情已变得紧迫。
近期,ClickHouse 分享了 Anthropic 应用其数据库解决方案的经历。Anthropic 团队技术人员给了 ClickHouse 非常高的评价:“ClickHouse 在帮助我们开发和发布 Claude 4 方面发挥了重要作用。” 据其所述,训练高级模型需要持续了解性能指标和系统行为,ClickHouse 在实时分析数据的速度和灵活性非常高。
对于 Anthropic 而言,有三点核心诉求:一是实时采集海量数据,对半结构化数据进行快速、多维度分析;二是部署安全;三是可扩展性,能与市面上的可观测性工具实现良好兼容。但 ClickHouse 的开源版本并不能完全满足其上述需求,为此 Anthropic 选择在内部部署了隔离的 ClickHouse Cloud 云产品。从控制平台到数据平台,实现内部隔离。
Anthropic 在探索智能分析 Agent(agentic analytics) 领域,通过引入 ClickHouse 的 MCP 服务器,Anthropic 可以将其模型 (例如 AI 编程工具 Claude Code) 直接连接到 ClickHouse。这意味着,Agent 可以通过编程方式查询指标、询问、检索答案,而无需编写传统的查询语言。
一些投资人士指出,在 AI 兴起、市场对数据库软件需求高涨的当下,ClickHouse 可能会与 Snowflake 竞争,比方说 ClickHouse 的实时分析能力会优于 Snowflake。虽然有些客户想要 Snowflake 提供的“ 花哨功能”,但 ClickHouse 速度更快,更便宜,且专注于实时分析。
业内将 ClickHouse 与 Snowflake、Redshift、BigQuery 反复拿来对比的一个核心因素,还在于成本。
一些人士认为,ClickHouse 能够以 25%-40% 的成本提供相同或更优的性能,基本可以取代 Snowflake 和 BigQuery。比如 Snowflake 在计算方面往往相对昂贵,而 BigQuery 的按需查询模型在处理大量数据扫描时可能会变得昂贵。早在 2023 年,ClickHouse 就曾公开发表言论称,Snowflake 等云数仓产品在满足客户需求和性价比上存在的挑战。
如今,ClickHouse 同样将市场目光放到了 Agent 领域。据 ClickHouse 首席执行官 Aaron Katz 的描述,随着 Agent 在数据驱动型应用、可观测、数据基础设施等领域的蓬勃发展,像 ClickHouse 这类面向 Agent 的数据库需求已经达到一个转折点。分析的未来不仅仅是报表,而是能够解读数据、出发工作流并支持实时决策 Agent。
一些投资人士认为,随着开发人员转向 Agent,即 Agent 可以通过客户浏览器或企业应用执行复杂任务,ClickHouse 将迎来更高的需求。
这点也成为风投追捧 ClickHouse 作为下一个 Snowflake 继任者的关键点。毕竟,在数据库领域,能够快速发展的初创型软件公司,不多了。
三位创始人:CEO Aaron Katz;CTO Alexey Milovidov;产品 Yury Izrailevsky
回顾 ClickHouse 的发展,该公司始于俄罗斯科技巨头 Yandex 的内部需求。2009 年,为了高效处理 Yandex.Metrica 搜索引擎的海量数据分析任务,Yandex 团队开始研发一款高性能列式数据库,这便是 ClickHouse 的雏形。经过多年内部优化,2016 年 Yandex 将其开源,凭借卓越的查询速度和对大规模数据分析的天然优势,ClickHouse 迅速在开发者社区走红,成为 OLAP 领域的明星项目。
随着开源生态的壮大,ClickHouse 的核心团队在 2021 年从 Yandex 独立,并获得了硅谷风投的青睐。公司成立后,团队在保持开源版本活力的同时,开始推进商业化,于 2022 年推出 ClickHouse Cloud 托管服务,并完成数轮融资,估值一度飙升至 20 亿美元。
在获得该轮融资后,ClickHouse 步伐明显加快,除了推动大客户市场打开,最新任命了在 Atlassian、Slack 等头部 SaaS 软件企业的销售老兵 Kevin Egan 为首席营收官,还同步收购了 HyperDX、PeerDB 等初创公司。(本文首发于钛媒体 APP,作者 | 杨丽,编辑 | 盖虹达)
更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App