GPT-5 发布，普通人必看的 8 件事

猜您喜欢

8 月 26 日 A 股分析：沪指微跌 0.39%，创业板指下挫 0.75%，主力资金大幅净流出 776 亿，LED 与虚拟现实板块逆势吸金

4 周之前

被 GLP-1 概念「带飞」，仅一个月股价暴涨 147.69%，常山药业自己也慌了

3 月之前

北京时间 8 月 8 日的凌晨，GPT-5 正式发布。

抛开内容不说，这个日子就很符合我们的品味，非常吉利。整个发布会内容非常丰富，展示了各种跑分评测，还有一些看起来很炫，但在日常生活中实用性不高的小程序，同时也分享了对开发者等专业群体非常有价值的案例。

不管我们如何评价 ChatGPT，这个产品在人工智能历史上的地位，肯定是无法撼动的，就跟 iPhone 在智能手机发展史上的地位一样。但是从另一个角度来看，现在的智能手机，无论是苹果还是安卓，每个版本之间，也已经几乎没有跨越台阶式的进步了。

ChatGPT 也是如此，GPT-1 在 2018 年 6 月发布，GPT-2 在 2019 年 2 月推出，GPT-3 在 2020 年问世，GPT-4 的发布就到了 2023 年。

GPT-4 相比前一代的 GPT-3.5，有几个跨时代的进步：

第一，它具备多模态识别图片能力；

第二，上下文处理长度从大约 4000 个 token 增加到 12 万个；

第三，生成的文本更加人性化，也就是更像人类写的东西，而之前的 GPT-3.5 版本还有非常强的机械感。

正因为从 GPT-3 到 GPT-4 的能力，是一次跨越式的能力提升，因此在过去两年中，无论是从业者还是普通用户，内心中都怀有一个期待，那就是 GPT-5 将会是什么样子？

我总结了八条，我们依次看看。

GPT-5 统一命名权

ChatGPT 用户能感受到的巨大变化，是 GPT-5 统一了命名权。

因为在之前，如果打开 ChatGPT，里面光模型就有 4o、o1、4.1、4.5、o3、o3 Pro 等不同选择，每个模型下面还有自己自定义的使用场景，比如有些适合推理，有些能画图，还有一些在写作方面表现得很好。

但是，不管是新用户，还是每天都在使用的重度用户，在做任务之前都要纠结一下，我到底用哪个模型更好？用完之后，内心也会有强烈的不安全感，那就是「万一其他模型的表现更好呢？」

这次 OpenAI 用统一的 GPT-5 取代了之前的多个模型版本，在内部提供了一个类似「路由器」的机制，用来智能处理用户的请求。

举个例子，它会自动识别用户的需求，根据任务的复杂性进行优化处理。例如，如果你问「北京的天气怎么样」或「根据北京今天的天气，应该穿什么衣服」，默认模型会快速回答，不需要经过复杂推理。

但是，如果你问：「这个周末要去北京玩一天，如何避开下雨和堵车时间段，并给出两个适合家庭出行的方案」。这种问题就需要调用更强的推理模型来处理。

再进一步，如果你提出的是一个更复杂的任务，比如：「为一场五万人的大型音乐会做极端天气应急预案，并且参考我上传的市政指南、场地方合同和保险条款，输出一份应急预案指挥手册，要求里面包括角色、流程、话术和待办清单」，这种超复杂问题就需要使用更强大的 Pro 版本来处理了。

大家千万不要小看统一名字的价值，虽然很多重度用户常常质疑为什么不能自己选择 o3 版本来推理，为什么不能自己选择 4.5 版本来写作，但对于 ChatGPT 这样一个每周活跃用户已经达到 7 亿的产品来说，降低用户使用时的决策难度，是一件非常重要的事情。

这就像在高中学到秦朝历史的时候，我曾经对「把秦始皇统一度量衡这件事情的地位放到这么高」很不理解。

后来当我做了产研工作之后，才深刻地体会到不同团队、不同公司统一话语体系，技术上统一接口语言是一件多么重要的事情。

顺便说句题外话，不久前我在一本书中看到，秦始皇并不是公元前 221 年统一六国后，才一声令下颁布诏书统一度量衡的。

从湖南发掘出的一枚秦简显示，在统一六国前一年，秦国就已经在自己新占领的地区开始推行标准衡器，由地方官员一个县一个县地落地实行了。

在我们公司五层，有一间会议室的外墙上写着田溯宁老师对我们启发很大的一句话，就是「把复杂留给自己，把简单留给用户」。

对于 GPT-5 来说，背后的 AI 智能决策体系一定非常复杂，但这正是它的使命。对于用户来说，最重要的是能不能用最短的时间，解决自己的任务。从这个角度看，统一之前混乱的模型，是一个无论对内还是对外都能降低干扰的选择。

各项指标霸榜，但这并不重要

第二条，各项指标霸榜，但这并不重要。

GPT-5 的编程能力相比前代，有极大的提升。现在大部分模型发布的时候，总要秀自己在各种测试里的排名。

但我认为这种测试排行意义不大，就像我们找一个同事来解决问题时，根本不会关心他当年是不是河南省的高考状元，也不会关心他在大学里有没有挂科，我们只会关心手头的这个活儿他能不能干好。

不过从社交媒体和很多朋友的测试来看，在编程这个领域上，无论是准确性、速度还是处理复杂任务的稳定性，GPT-5 都比之前的 o3 版本有非常大的提升。

如果你不是做互联网行业的，或者不是做技术工作的，可能会很疑惑：为什么这么多 AI 工具，都如此关注 AI 编程？为什么今年这么多 AI 编程以及周边产品如此火爆？为什么每个大厂都在做自己的 AI 编程产品？

我来分享一下为什么大家都在卷 AI 编程。

首先，对于 AI 能力的发展来说，需要有标准化的任务，来检验 AI 到底能不能处理复杂任务，而编程就是这种任务。结果是不是合格一目了然，代码能运行能完成任务，那么这个 AI 的能力就是强大的。

哪怕 AI 非常努力，写了几万行代码，但如果最终不能运行，或者无法实现需求，那么这个 AI 的能力就是不足的。

其他类型的任务都没有编程任务这么简单粗暴。例如写作，有很多技术团队做自己的产品宣传时，会这么说：「我们的产品不仅仅是写一篇几千字的文章，我们还能写代码、画图、做视频。」

其实，他们低估了「写文章」的难度。例如，同样是三千字的文章，高中生写的和莫言写的，怎么可能难度一样呢？而且每个人，对「什么是好文章」其实是没有共识的。

所以写文章、画图、做视频这些要求个人品味的技能，很难像 AI 编程一样进行标准化。例如，在这次 GPT-5 的发布会上，展示了一个让 AI 构建学习法语 APP 的项目，最终的完成度非常高，可以自定义词汇、修改界面设计，还有标准发音可供练习。

发布会上还展示了一个任务：输入某公司的大量数据，模型在 5 分钟内创建出一个可视化的财务数据看板。这在传统的数据研发流程中，至少需要大半天的时间，还得是那种经验非常丰富的数据工程师才能完成。

顺着这个方向发展，至少有一个趋势改变是会发生的。那就是各个岗位的人，在 AI 的帮助下，都能顺手写一个能解决精确任务的小工具，例如批量处理一大批复杂表格，或让 AI 每次直播后对每分钟的数据进行详细复盘。编程将不仅仅是程序员的专属技能。

当然，GPT-5 虽然在编程方面进步很大，但大部分测试过的人仍然表示，整体水平还没有赶上它的竞争对手 Claude，还需要努力。

幻觉更低

第三条，幻觉率大幅度降低。

经常使用 AI 的同学，一定有被 AI 幻觉坑过的惨痛经历。特别是随着 AI 能力的提升，如果不是特别有警惕性或是特别资深，AI 的许多幻觉回答会比真实答案更具迷惑性。

而这次 OpenAI 特别投入大量精力进行优化。例如，在网络搜索时，GPT-5 出现幻觉或事实错误的可能性比 GPT-4o 版本低 45%，而在思考推理时，GPT-5 比 o3 版本包含事实错误的可能性低 80%。

当然，除了回答中大幅度减少事实错误之外，GPT-5 还会进行判断，对于一些明显无法完成的任务，它会明确表示自身能力的局限性和无法完成的任务。

这个迭代非常必要，因为之前版本的 ChatGPT 有一个问题，就是太听话了。它会默认无条件服从你，无论你要干啥，它都会先认为自己能干，然后去找办法，找不到的话，就开始胡编乱造。

但其实，如果能清晰地告诉用户，自己哪些任务能完成，哪些任务可能需要其他工具或者是人类自己去操作，这更符合未来人机协作的共同发展要求。

此外，今年 OpenAI 还撤回过 GPT-4o 的一次迭代版本，原因就是这个版本上线之后，发现 AI 对用户表现得非常谄媚，用过于热情甚至让人尴尬的语言去夸奖用户，从提问的问题到观察的角度，像是影视剧中阿谀奉承的奸臣。所以这次的 GPT-5 特别指出会降低之前版本的亲切度，一些不必要的表情符号也会减少。官方博客上提到，使用 GPT-5 更像跟一位拥有博士级智力水平且乐于助人的朋友聊天。

通过这几个迭代可以看出，OpenAI 想要追求的是，AI 和人类进行高质量和有建设性的对话。因为在这个前提下，幻觉、过度承诺和谄媚巴结，都会让人类用户对 AI 产生不信任的感觉。而这次 GPT-5 的很多迭代，其实在提高可靠性上下了很大的功夫。

API 使用成本更低

第四条，对于开发者来说，这种通用模型的旗舰版本一定是非常贵的，想用上强大的功能，就要付出更多的费用。不过，这次 GPT-5 显著降低了 API 的使用成本，输入 100 万 token 的内容只需要 1.25 美元，输出同样体量的内容则需要 10 美元。

没有对比就没有伤害，几个竞争对手的旗舰模型，都要远远超出这个费用。例如最贵的是 Claude Opus4.1，输入是 15 美元，输出是 75 美元，这个就是天价了。谷歌 Gemini 2.5 Pro 输入达到了 2.5 美元，输出 15 美元。甚至连 OpenAI 家自己的老一代模型，都要比这个更贵，所以这也能看出来，OpenAI 想用 GPT-5 的性价比在企业市场跑马圈地。

要知道上半年，互联网女王 Mary Meeker 发布的《AI 趋势报告 2025》中，展示了一组冷热自知的数据。从训练模型这个角度来看，顶级模型的训练成本 8 年内飙升了 2400 倍，从千万美元级别跃升到了 10 亿美元级别。但从使用角度来看，模型推理成本在两年内暴跌 99.7%。更直观点的说法是，两年前输出 100 万 token，企业成本需要 100 美元，而到了 2025 年，同样的任务只需要 0.3 美元，所以 Meeker 把这个叫作「人类技术史上前所未有的效率革命」。

连图表都出错，谁还能信任 AI？

第五条，来自顶尖精英团队的低级槽点。

聊完 GPT-5 的亮点，现在也该谈谈槽点了。因为在发布会上，出现了一个不可思议的超低级错误。那就是在展示 GPT-5 在编程能力测试中，不经过思考的 GPT-5 版本的准确率是 52.8%，而前一代的 o3 版本是 69.1%，但是显示在柱状图上，52.8% 竟然比 69.1% 显得更高大威猛。而就在同一张图上，o3 的 69.1% 和 4o 的 30.8%，柱状图的高度居然是一样的。

这两个低级失误，在咱们国内基本上是初中生都不会犯的错，但是现在却出现在一个全球顶尖 AI 团队最重要的产品发布会上。要知道他们中的任何一个人，要被 Meta 的扎克伯格挖走的话，年薪都能达到上亿美金。

看到这里的时候，我真的觉得有些恍惚。这并不是顶级 AI 公司第一次出现偶然失误了。之前在马斯克的 xAI 发布会上，也同样出现过图表的失真问题。在全球这么高关注度的一场发布会上，他们内部真的完全没有人去复核一下所有内容吗？甚至他们自己为什么没有让 GPT-5 来审核一下 PPT 呢？

这让我回忆起小学时班主任常对我说的一句话：「作为学生，笔都能忘带，这跟战士上战场忘记带枪有什么区别？」也难怪有网友在 X 上，直接质疑 OpenAI 团队说：「连图表都出错，谁还能信任你们的 AI 呢？」

不要低估长期价值

第六条，不要低估 GPT-5 的长期价值。

我刚才说了低级失误的槽点，包括网上也有大量的文章吐槽 GPT-5 这次发布，并没有跨时代的进步，OpenAI 似乎已经黔驴技穷了。

我特别能理解大家的期待，就是 GPT-5 已经预热和宣传了很长时间，我们都希望看到 AI 能够有更耀眼的表现。但是我想跟大家聊一个备受瞩目的运动，那就是男子百米赛跑。

我们知道，现在百米赛跑的奥运会纪录，是 2012 年牙买加飞人博尔特在伦敦创下的，成绩是 9 秒 63。世界纪录的创造者也是博尔特，他在 2009 年 8 月 16 日，第 12 届田径世锦赛上创造的 9 秒 58，至今无人打破。

我为什么要说这个运动呢？因为追溯到第一届雅典现代奥运会，1896 年，男子 100 米的首个奥运冠军是美国选手托马斯·平克，他的夺冠成绩是 12 秒，预赛中跑出了 11 秒 8。

这个成绩如果放在现在，在高中运动会上夺冠都比较有难度，但这就是人类当时的最快速度纪录。甚至在参与决赛的 5 个人中，只有他采用了蹲下起跑的方式，而其他人起跑姿态各种各样。托马斯·平克曾被人耻笑的起跑方式，在这一百年来，被继承下来并且一帧一帧地打磨。我记得当年刘翔最火的时候，他每场比赛的起步阶段，都是以 0.1 秒的刻度进行分析的。

说回百米赛跑，从 1896 年到 1968 年，人类跑得最快的一批人，都是为了跑进 10 秒大关而奋斗的。一直到 1968 年的墨西哥奥运会，吉姆·海因斯成绩为 9 秒 95，这是人类第一次突破 10 秒大关。在最近结束的 2024 年巴黎奥运会上，诺亚·莱尔斯的成绩为 9 秒 79。

你一定很好奇，这个百米赛跑和 AI 有什么关系？我想说的是，其实几十年前，不同奥运会之间的成绩提升，都是以半秒为刻度的。例如，1956 年是 10 秒 5，而 1960 年和 1964 年都是 10 秒，中间相差半秒。

而最近三届的成绩：2016 年 9 秒 81，2020 年 9 秒 80，2024 年 9 秒 79，中间的差距仅为 0.01 秒。提升虽微小，但我们必须承认，这批运动员放到几十年前，都是秒杀级的存在。

生成式人工智能发展的时间更短。我们更熟悉的真正意义上的 AI 工具，是 2022 年 11 月 30 日上线的 ChatGPT，到现在还不到三年。所以早期的版本能力提升，就好比百米 10 秒以前的比赛，看起来提升幅度很大，实际是因为之前的水平较低。

而这次 GPT-5 的很多提升之所以不引人注目，是因为我们已经用了太多强大的 AI 工具，因此过高的期待可能影响我们的判断。别过早下判断，让子弹再飞一会儿。让我们再观察一段时间。

别陷入「谁更厉害」的争论

第七条，别陷入「谁更厉害」的争论。

我已经在不少群里看到了观点完全对立的争论，有人夸就有人骂。其实，对于咱们同学来说大可不必，不管现在你能不能用上 ChatGPT 的最强模型，一定要相信再过三到六个月，ChatGPT 拥有的功能或者交互，一定会成为很多 AI 产品的标配。例如，过去的多模态、生图、推理模式，在 AI 发展史上都是里程碑。

那么，咱们国内的 AI 产品也会很快对齐，并且在很多方面可能进行超越或反杀。例如，ChatGPT 率先推出了推理模式，但是把推理模型发扬光大的，却是我们的 DeepSeek。

所以，我们可以在 GPT-5 这次迭代的功能上，去思考一些问题，比如：随着技术提升十倍，难度和费用降低十倍，半年后我可以在工作或生活中如何应用这些能力？

我看到幻觉率降低的处理方式以及 GPT-5 的 API 成本，就马上知道了 Get 笔记可以在哪些方面做准备，等待国内基础大模型的跟进。

狠起来连自己都打

第八条，我让 GPT-5 完成一个小任务，观看自己的官方发布会内容，并从一个路人的视角进行毒舌吐槽，完全不用顾虑 AI 的情绪。

我给你读几条 GPT-5 对自己发布会的吐槽，都是采用了「官方」和「路人」这两个角色来完成的对话。

官方：我们是最聪明，最快，最有用的模型。

路人：聪不聪明不知道，反正你最会推销自己。

官方：强大语音升级，更自然，更人性化。

路人：一开口就像广播主持人，安慰我就像在朗读鸡汤文。

官方：多模态能力全面升级，图像、语音、视频都能理解。

路人：你是能看图，就不能看我发的图，你是能听，却听不懂我在语音里骂你。

官方：Pro 用户享受 GPT-5，Team 企业版紧随其后。

路人：谢谢你告诉我，普通用户就该排队，等到下辈子。

官方：我们会持续优化每个模块，全面提升体验。

路人：体验是全面的，但问题也是全面的——啥都升级，啥都没变。

这才叫狠起来连自己都打，甚至 GPT-5 还贴心地问我是否要将内容制作成卡片海报，以便于发布在朋友圈或小红书。

所以，这也让我陷入了哲学问题一样的迷茫中。如果说 GPT-5 强大，这些吐槽显得在理；如果说 GPT-5 不强大，这些吐槽也都十分犀利。

最后，再说个最让人无语凝噎的功能更新。

在最新更新的 ChatGPT 手机 App 里，增加了一个设置选项，叫「重点色」。里面默认灰色，还提供了橙色、黄色、绿色、蓝色、粉色五个免费颜色。每月 20 美金的 Plus 会员才能用紫色，每月 200 美金的 Pro 会员才能用黑色。

那什么叫重点色呢？我只发现了两个地方会变化，一个是和 AI 对话时的气泡颜色，会变成你设置的颜色，另一个是底部工具栏的语音按钮会变色。也就是通过对话气泡颜色来区分会员等级，说实话，我作为一个每月掏 200 美金的冤大头会员，差点被这个功能气哭了。20 年前，我在 QQ 秀上充十块钱，还要送我一套杀马特时装呢，不会仅仅就给我送个定制颜色的口罩。

在这方面，ChatGPT 还有挺多东西要学。

本文来自微信公众号：快刀青衣，作者：快刀青衣