一直以来,OpenAI 都是媒体的重点关注对象,尤其在多位核心员工离职后,关于 OpenAI 内部文化和管理方式的讨论更是愈演愈烈。
最近,OpenAI 前员工 Calvin French-Owen 发布了一篇深刻的反思文章,亲身讲述了自己在 OpenAI 工作的点滴,也为我们提供了关于 OpenAI 内部运作的第一手资料。
Calvin French-Owen 是谁?
Calvin 是一位经验丰富的创业者、工程师。
据领英个人页面显示,Calvin 本科就读于麻省理工学院的计算机科学专业。
大学还没毕业,他就成为客户数据平台 Segment 的联合创始人兼首席技术官。2020 年,Segment 被 Twilio 以 32 亿美元收购。之后,Calvin 做过两份短暂的全职工作,其中一份工作就在 Y Combinator。
2024 年 5 月,Calvin 加入 OpenAI,成为一名工程师,并参与了 Codex 项目的开发。Codex 是 OpenAI 推出的 AI 编程助手,旨在帮助开发者提高编码效率。
在 OpenAI 待了一年多后,Calvin 于今年 6 月份离职。
离职三周后,他在个人博客中写下了这篇名为 《关于 OpenAI 的反思》 文章。
至于离职原因,Calvin 强调并没有什么私人恩怨,相反,他走的时候还挺纠结。
「从自己当老板到成为 3000 人公司的一员,这种转变确实不小。现在,我想重新开始,找点新鲜感,但说不定哪天我会回去,毕竟 OpenAI 的工作吸引力太强了,能参与 AGI 的开发、接触到可能是这十年最重要的技术,这种机会太难得了。」
一、没有邮件文化,全靠 Slack 沟通
Calvin 透露,OpenAI 的增长速度快得惊人。
他刚加入时,公司刚过 1000 人,但一年后已经超过 3000 人,Calvin 的工龄甚至排在前 30%,而领导层的职责也跟两三年前完全不同。
这么快的扩张,必然会出现各种问题,比如内部沟通、组织架构、产品发布、人员管理、招聘流程等等。
不同团队的风格差别也很大:有的团队全速冲刺各种新项目,有的负责大模型训练,还有一些团队则按部就班,节奏更为稳定。总之,OpenAI 没有统一的工作体验,因为研究、应用和市场推广团队的工作节奏完全不同。
特别有意思的一点是,OpenAI 内部事情几乎全靠 Slack 沟通,基本不用邮件。Calvin 在公司一年大概只收到 10 封邮件。如果 Slack 通知没有设置好,会觉得非常分散注意力;但如果管理得当,Slack 还挺好用的。
晋升靠实际能力,而不是演讲或搞政治
OpenAI 在研究方面非常 「自下而上」。Calvin 刚加入时,询问下一季度的计划,得到的回答是:「没有这种东西!」(不过现在有了)。好点子可以从任何地方冒出来,事先没人知道哪个会成功,研究进展靠一步步试错,靠新发现推动,而不是什么宏大蓝图。
这种自下而上的文化让 OpenAI 很看重能力,公司领导的晋升也主要看谁能提出好点子并执行到位。很多厉害的领导其实并不太擅长演讲或搞办公室政治,但在 OpenAI 这都不重要,好想法才是王道,他们更看重实际能力和成果,而不是表面功夫或内部博弈。
只要有好想法,无需请示,干就完了
OpenAI 强调 「行动为先」(你可以直接去做事)。不同团队常会不约而同想到类似点子。Calvin 刚去时参与了一个类似 ChatGPT Connectors 的内部项目。Codex 发布前,公司里大概有三四个类似的原型,都是几个人自发搞的,不需要向上级请示,只要点子有潜力,团队很快就会聚起来。
Codex 的负责人 Andrey 说,研究员就像 「小型 CEO」,公司鼓励研究员自己找问题、试想法,如果一个问题被认为 「无聊」 或 「已解决」,基本不会再有人去碰它。
优秀的研究经理超级重要,但资源有限。他们能把不同研究工作串起来,推动更大规模的模型训练。优秀的产品经理 (PM)也一样。
Calvin 举了个例子。他合作过的 ChatGPT 工程经理 (Akshay、Rizzo、Sulman)是他见过最沉稳的人,感觉他们什么阵仗都见过了。他们大多放手管理,专注于招聘优秀人才并为他们创造成功的条件。
战略调整迅速,很注重保密
OpenAI 的战略转向很快。新信息来了就调整方向,不死守计划。一个 3000 人的公司能保持如此高效决策的能力,这一点是谷歌比不了的。OpenAI 决策很快,一旦确定方向,就会全力以赴。
公司受外界关注极多,经常内部还没宣布的事,媒体就先报道了。一些 Twitter 用户甚至运行自动化机器人,监控 OpenAI 是否有新功能发布。
所以,OpenAI 很注重保密,这也使得 Calvin 没法跟外人细说他究竟在干啥。Slack 工作区有严格的权限管理,收入和支出数据更是高度保密。
内部非常重视安全问题
OpenAI 比你想象的严肃,因为责任重大。一方面,公司目标是打造 AGI,压力山大;另一方面,产品服务数亿用户,涉及医疗建议、心理咨询等各种场景。同时,公司还在全球最大舞台上竞争,盯着 Meta、谷歌、Anthropic 的动态,当然它们肯定也在盯着 OpenAI。各国政府也在密切关注 AI 领域。
虽然 OpenAI 常被媒体批评,但每个人都在努力做正确的事。作为消费者导向的公司,它最受瞩目,自然也招来最多非议。
但别把 OpenAI 看成铁板一块。它更像最初的洛斯阿拉莫斯实验室:一群科学家搞前沿研究,意外做出了席卷全球的应用,然后开始向政府和企业拓展。不同部门、不同工龄的员工目标和视角差别很大。待得越久,越可能以 「研究实验室」 或 「公益组织」 的角度看问题。
OpenAI 真的在践行 AI 的普惠。尖端模型不只给大客户,任何人都能用 ChatGPT,哪怕不登录。API 对初创公司开放,最先进的模型也很快会上线。
安全问题比你想的更受重视。很多人致力于开发安全系统,重点解决实际风险,比如仇恨言论、滥用、操控政治偏见、生物武器、自我伤害、提示注入等,而不是空谈理论风险 (像智能爆炸)。理论风险也有人研究,但不是重点,很多安全工作还没公开。
靠 Twitter 氛围驱动
与其他公司在招聘会上随意发放各种带有品牌标志的纪念品不同,OpenAI 的周边很少,甚至新员工也拿不到多少。公司会通过 「限量发售」 的方式,让大家订购现货。第一次发售因为需求太大,直接把 Shopify 商店搞崩溃了。内部还流传了一篇帖子,教大家如何通过发送正确的 JSON 数据来绕过限制。
跟 GPU 成本比,其他开销都是小钱。举个例子,Codex 一个冷门功能的 GPU 成本,就顶得上 Segment 整个基础设施的开销 (Segment 规模虽不如 ChatGPT,但流量也不小)。
你可能会觉得,拥有全球顶级应用已经够了,但 OpenAI 还想在多个领域竞争:API、深度研究、硬件、编码代理、图像生成等多个领域竞争,还有一些尚未公布的项目。
OpenAI 很关注 Twitter。你发条跟 OpenAI 相关的推文火了,内部很可能有人看到并讨论。有人开玩笑说:「这公司靠 Twitter 氛围驱动。」 这话不假,当然,数据分析 (用户增长、留存等)也很重要。
团队流动性高,领导层接地气
OpenAI 的团队流动性很高。Codex 发布时,需要几位经验丰富的 ChatGPT 工程师帮忙赶上线日期。他们跟 ChatGPT 的工程经理聊了一下需求,第二天就有两位超厉害的工程师加入帮忙。没有 「等季度规划」 或 「重新分配人力」 的拖延,行动非常快。
领导层也很接地气、很投入。每个高管,比如 Greg Brockman、Sam Altman、Karpathy、mark、dane 等都在 Slack 上参与讨论,没人当 「甩手掌柜」。
二、OpenAI 有点像早期 Meta
OpenAI 用一个超大的单体代码库,主要以 Python 为主,但也有越来越多 Rust 服务和少量 Golang 服务,通常用于网络代理这类场景。
因为 Python 写法灵活,代码风格看起来五花八门。你会看到谷歌老兵写的可扩展库,也会碰到刚毕业的博士扔在 Jupyter 笔记本里的临时代码。API 基本都用 FastAPI 开发,参数校验用 Pydantic,但公司没有强制执行统一的代码风格规范。
OpenAI 所有服务都跑在 Azure 上。有趣的是,只有三种服务靠谱:Azure Kubernetes Service、CosmosDB(文档存储)和 BlobStore。没有 AWS 那种 Dynamo、Spanner、Bigtable、Bigquery、Kinesis 或 Aurora 的直接替代品。自动扩展的思维用得不多,权限管理 (IAM)功能也比 AWS 弱不少,公司更倾向于自己开发。
工程团队里,Meta 到 OpenAI 的人才流动很明显。OpenAI 有点像早期 Meta:爆款消费者应用、刚起步的基础设施、追求快速行动。从 Meta 和 Instagram 来的基础设施人才都很强。基础设施很多地方有 Meta 的影子,比如自研了类似 Meta 的 TAO(图数据库),还有边缘身份认证整合的项目等。
聊天功能深入代码库。ChatGPT 火了后,代码库很多地方都围绕聊天消息和对话设计,这些基础元素根深蒂固。Codex 稍有不同 (更偏向 API 响应逻辑),但仍大量借用现有技术。
代码为王。没有中央架构或规划委员会,干活的团队说了算。结果就是,鼓励行动优先,但也导致代码库重复,比如队列管理或代理循环的库就有五六个。
快速扩张的工程团队和工具不足带来了一些问题。后端单体服务 (sa-server)有点像 「垃圾堆」,主分支的持续集成更容易出问题,测试用例跑半小时是常态。这些问题不是没法解决,但这种问题哪儿都有,扩张太快会更严重,好在内部团队正在努力改进。
三、从敲下 Codex 第一行代码到发布,只用了 7 周
除了以上内容,Calvin 还分享了 Codex 的发布情况。
2024 年 11 月,OpenAI 定下 2025 年推编码 Agent 的目标。到 2025 年 2 月,内部工具已很有效,市场也冒出很多 「氛围编码」 工具。
Calvin 提前结束产假,加入 Codex 团队。一周后,两支团队合并,开始疯狂冲刺。从第一行代码到发布,只用了 7 周。每天干到深夜 11 点或凌晨,早上 5:30 被新生儿叫醒,7 点到办公室,周末也加班。团队全力以赴,每周都关键。
这种速度太夸张了。很少有公司能这么快从点子到发布完整产品。项目还不小:构建容器运行环境、优化代码仓库下载、微调专门处理代码编辑的模型、支持 git 操作、开发新界面、接入互联网,最终打造出这个好用的产品。
无论你对 OpenAI 有什么看法,这家公司至今仍保留着那种 「冲刺发布」 的精神。
Codex 团队有 8 个资深工程师、4 个研究员、2 个设计师、2 个市场人员和 1 个产品经理。没人需要太多指导,但需要协调。
发布前一晚,团队五人熬到凌晨 4 点,忙着部署主服务。第二天早上 8 点,回到办公室,准备发布公告和直播。功能一上线,流量立马涌入。「我从没见过一个产品仅靠出现在 ChatGPT 侧边栏,就能立刻吸引这么多用户,这就是 ChatGPT 的威力。」
产品形态上,Codex 选择了完全异步的方式,用户启动任务,让代理在独立环境中运行。「我们的设想是,未来用户会把编码 Agent 当 『同事』:发个任务给它,让它干活,然后它提交一个 PR。」
这有点冒险。现在的模型很好,但还不完美,能运行几分钟,但还不能持续几小时。用户对模型能力的信任度不一,他们甚至还不完全清楚模型的真正能力。从长远看,Calvin 相信编程会越来越像 Codex。
Codex 擅长处理大代码库和多任务并行。相比其他工具,它能同时跑多个任务并比较结果。公开数据显示,Codex 发布 53 天生成了 63 万个公开 PR,平均每位工程师贡献约 7.8 万个,私有 PR 可能更多。
四、离职感言
Calvin 坦言,最初他对加入 OpenAI 有点忐忑。放弃创业自由、接受管理、做大机器的小齿轮,他不确定能不能适应,所以刚加入时很低调,以防不合适。
他想从 OpenAI 得到三样东西:
-
了解模型训练和未来方向;
-
跟牛人共事、学习;
-
发布一个好产品。
而以上这些他无疑都实现了。此外,他还得到了其他收获。
-
「大型消费品牌」 的威力:在 OpenAI,所有衡量指标都围绕 「Pro 订阅」 展开。即使是像 Codex 这种偏工具类产品,也主要以 「个人使用」 的视角来设计引入流程,而不是从 「团队使用」 角度出发。只要一上线,流量马上就来了。
-
大模型的训练:模型训练是一个从 「实验」 到 「工程」 的过程。最初都是小规模实验,如果结果不错,就会被整合到更大的训练中。实验不仅涉及调整核心算法,还要优化数据组合,仔细分析结果。到了大规模训练,就像在搞巨型分布式系统工程,会有各种意想不到的边缘情况,需要你去排查解决。
-
GPU 计算的门道:Codex 发布时,需要预测负载容量要求,核心经验就是,应该从你需要的延迟要求 (整体延迟、token 数量、首个 token 时间)出发,而不是从 GPU 能支持的性能去推算。每次模型迭代都会大幅改变负载模式。
-
在大型 Python 代码库中工作:当有大量开发者同时维护一个仓库时,你必须增加各种 「防误操作」 机制,比如 「默认可用」、「主干分支保持干净」、「不容易被误用」 等。这些都需要通过规范和工具来系统性保障。
最后,Calvin 表示,如果你是创业者,觉得公司没进展,建议深入反思如何才能取得更多进展,或者加入顶级实验室。目前来看,AGI 的竞争是三强争霸:OpenAI、Anthropic、谷歌。每家路子不同,在任何一家工作都会大开眼界。
本文来自微信公众号:机器之心