• 最新
  • 热门
  • 所有
  • 期货
  • 外汇
  • 股票
GPT-5离「神级AI」还有多远?

GPT-5 离 「神级 AI」 还有多远?

2025 年 8 月 9 日
股民必看:给你8个必须学习期货的理由!现金大奖等你来拿!

股民必看:给你 8 个必须学习期货的理由!现金大奖等你来拿!

2025 年 8 月 10 日
研究显示OpenAI新模型GPT-5能耗显著高于前代

研究显示 OpenAI 新模型 GPT-5 能耗显著高于前代

2025 年 8 月 10 日
难逃组装厂命运?AI服务器厂「艰难求生」 业内称显卡租赁价格较年初高点「腰斩」

农业银行传世之宝金条价格今天多少一克 (2025 年 08 月 09 日)

2025 年 8 月 10 日
需求端存在走弱预期 PVC上涨或难持续

特朗普:美俄在乌克兰问题上已 「非常接近」 达成协议

2025 年 8 月 10 日
马斯克疯了?AI不拼技术拼脱衣

马斯克疯了?AI 不拼技术拼脱衣

2025 年 8 月 10 日
「硬科技」指数携手上涨,半导体设备ETF易方达(159558)、芯片ETF易方达(516350)等产品助力布局板块龙头

【财经分析】 俄美领导人会晤为何选在阿拉斯加

2025 年 8 月 10 日
六福内地铂金多少钱一克(2025年06月27日)

每经品牌 100 指数重回 1100 点!近 20 只成分股本周市值增长超百亿元

2025 年 8 月 10 日
影响市场重大事件:陈茂波表态,稳定币有望为资本市场带来变革,把稳定币应用推广至不同场景

14K 金回收价格多少钱一克 (2025 年 08 月 09 日)

2025 年 8 月 10 日
美股收盘:纳指、英伟达续收新高 苹果创五年来最强周表现

美股收盘:纳指、英伟达续收新高 苹果创五年来最强周表现

2025 年 8 月 10 日
铑多少钱一克(2025年06月27日)

华熙生物前高管 45 万字手撕 「玻尿酸女王」,「财务造假」 内幕曝光

2025 年 8 月 10 日
6月30日乙二醇期货主力收报4267元 前20席位持仓呈现多空双增态势

18K 金回收价格多少钱一克 (2025 年 08 月 09 日)

2025 年 8 月 10 日
现货黄金震荡调整 美联储主席候选人仍然未定

新华社权威快报 |《绿水青山绘就美丽画卷——生态文明建设的中国创新与世界意义》 智库报告发布

2025 年 8 月 10 日
2025 年 8 月 10 日 星期日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票
  • 黄金
  • 期货
  • 外汇
  • 基金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票
  • 黄金
  • 期货
  • 外汇
  • 基金
2025 年 8 月 10 日 星期日
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
广告
首页 期货

GPT-5 离 「神级 AI」 还有多远?

来自 禾湖财经
2025 年 8 月 9 日
在 期货
0
GPT-5离「神级AI」还有多远?
34
SHARES
96
VIEWS


文 |  定焦 One,作者 | 王璐,编辑 | 魏佳

多次跳票后,GPT-5 终于亮相。

美国西部时间 8 月 7 日 (北京时间 8 月 8 日凌晨),明星 AI 创业公司 OpenAI 发布了新一代大模型 GPT-5,并向所有用户开放使用,包括免费用户。

这是 OpenAI 近年来最受关注的一次升级,其 CEO 萨姆·奥特曼 (Sam Altman) 在发布会上宣称,GPT-5 的能力已从 「大学生水平」 跃升至 「博士级专家」,并强调该模型在综合能力上已达到全球最高。

这次发布会的关键词可以简单概括为两个词:「专业」 和 「聪明」。「专业」 体现在它在健康、编程、教育等多个场景中展示了更强的能力,同时降低幻觉率,提升了可靠性;「聪明」 则主要是它首次采用集成架构,GPT-5 能够根据用户指令的复杂度,自动调用最合适的模型,无需用户手动切换,并支持更多个性化功能。

然而,外界反馈却较为平淡,部分用户和从业者认为,GPT-5「缺乏惊喜」。

这一方面是因为此前版本发布频繁,预期被不断拉高。

AI 从业者云中江树在发布会前便对 GPT-5 持观望态度,因为从过去几轮 GPT 的升级来看,实际表现往往低于宣传,但仍期待它这次能在推理和编程上带来突破,真正拓宽应用场景。

然而从目前来看,业界公认在推理能力上领先的模型仍是 GPT-o 系列和 DeepSeek-R1。GPT-5 的进步更多是对既有能力的优化,而非质的飞跃。

另一方面,尽管 GPT-5 降低了幻觉率,但发布会上出现的两处低级错误仍然引发争议。

一是它在解释伯努利效应时,错误地采用了被主流物理学教材已经证伪的 「等时通过理论」,「博士级 AI」 居然讲错高中物理。二是在制作图表时,GPT-5 某项评分 (52.8) 明明低于 o3 模型 (69.1),对应的柱状图却显示更高,这也让外界怀疑 GPT-5 的能力被夸大了。

GPT-5 的真正实力到底如何?会给行业带来哪些影响?

「神级」GPT-5,真的强吗?

发布会开场,萨姆·奥特曼便高赞 GPT-5 的强大,强调其相较前代模型已经发生质变。他表示,如果 GPT-4 像是和一位大学生进行交谈,GPT-5 则接近于博士级别专家。

为了证明这一点,OpenAI 公布了 Artificial Analysis 全套基准测试结果。数据显示,GPT-5(high) 达到 68 分,位列第一。GPT-5(medium)67 分,与 xAI 的 Grok 4 并列第二,而 DeepSeek R1 是 65 分,排在其后。

这些数字表明,GPT-5 在速度、可靠性和准确性上均处于行业领先地位,尤其在复杂推理、编程、医疗健康等领域表现突出。

例如,在医学领域,GPT-5 展示了对患者检查报告和各种医学术语的理解能力,还以此为基础提醒患者需要向医生咨询哪些问题,上下文理解与知识应用能力远高于之前的 GPT-4。

除了更加 「专业」,在使用体验上,GPT-5 变得更聪明了。

最大的改变是,OpenAI 采用了集成架构,首次将大语言模型 GPT 系列和推理模型 o 系列融合。这意味着,GPT-5 能够根据用户指令的复杂度,自主选择并调用最合适的模型,不再需要用户手动切换。

具体来说,GPT 系列是 OpenAI 最早构建的模型体系,聚焦自然语言处理、对话系统与文本生成,o 系列是 OpenAI 于 2023 年新设立的模型家族,聚焦结构化推理能力,强调模型的逻辑、分析、工具调用能力。o3 被视为 OpenAI 最强大的推理模型。

此外,GPT-5 还变得更像人。

一方面支持定制语音、语速调节等个性化功能,语音效果已十分接近真人,另一方面具备 「助理」 功能,比如链接谷歌日历、Gmail 等工具,自动识别未回复邮件、生成待办事项,提升使用者工作效率。

石榴数字人创始人沈仁奎评价,GPT-5 在多模态与工具整合上的升级,能显著提升实用性和交互体验 。其实时交互模型与深度推理模型之间的融合也更成熟,模型角色划分清晰,还具备长期记忆用户信息,能为用户提供更精准、更个性化的体验。

他认为,GPT-5 的 「模型群+路由系统 (判断问题难度从而自动调用最合适的模型)」 架构设计很值得借鉴,有助于大模型在不同任务之间智能调度与资源优化。

目前,GPT-5 已经面向免费、Plus、Pro 等用户开放,对企业和教育用户下周开放,按照企业级套餐计费。免费用户使用有额度限制,付费用户中,Plus 用户可以获得更高的使用额度,Pro 用户可专属访问 GPT-5 Pro,区别在于推理能力更强、响应更加快速。

发布会后,行业最关心的三个问题

本次发布会后,「定焦 One」 和几位资深从业者聊了聊,他们最关注 GPT-5 的三大变化。

一是幻觉率降低。

「幻觉」 是指大模型编造虚假信息,幻觉率越低,说明准确性越高,大模型越可靠。

披露的数据表明,GPT-5 在多个使用场景下的幻觉率相比前代模型有所下降。比如在联网搜索模式下,GPT-5 的幻觉率比 GPT-4o 低约 45%,而在深度思考模式下,幻觉率比 o3 低约 80%。

这意味着,其在回答准确性、逻辑一致性等方面有所提升,更适用于医疗、法律等对信息真实性要求极高的应用场景。

幻觉率的降低与多方面因素有关,这种改进背后,是训练数据、模型架构与推理策略的协同优化。

二是价格更具性价比。

GPT-5 包含 GPT-5、GPT-5 mini、GPT-5 nano 三个模型,API 调用价格分层设置,最低的是 GPT-5 nano,每百万输入 token 为 0.05 美元、输出为 0.40 美元,比 GPT-4 最便宜的模型还要低。相比老对手也有很大优势,GPT-5 的调用费仅为 Claude Opus 4 的十二分之一。

这对于中小企业与开发者而言,意味着更低的试错成本与更广泛的应用空间。

最后是在编程领域的突破。

这也是发布会上的重中之重,OpenAI 用了近一半的时间强调 GPT-5 的编程实力,官方称其为 「迄今为止最强大的编程模型 「。在现场演示中,GPT-5 仅凭一句提示词,就创建出网站、应用程序 App 和游戏,并支持复杂前端开发和大型代码库调试以及修复 bug 等功能。

OpenAI 甚至还邀请了被称为最强 AI 编程工具之一 Cursor 背后公司的联合创始人,在现场演示修复 bug。Cursor 方面表示,GPT-5 已经是 Cursor 用户的新用户默认选项。

从基准测试数据来看,GPT-5 的表现同样领先。在 SWE-bench Verified(评估 AI 编程能力) 中,GPT-5 思考后首次尝试的准确率达 74.9%,高于 GPT-o3 的 69.1% 和 GPT-4o 的 30.8,也领先于竞争对手 Anthropic 最新推出的 Claude Opus 4.1 和谷歌 DeepMind 的 Gemini 2.5 Pro。

云中江树告诉 「定焦 One」,大模型的编程能力之所以备受重视,是因为各大厂商都认可,在 AI 大模型训练中,最好的数据是形式化的数学语言,代码数据高度结构化、结果可验证、逻辑性强,是最具价值的语料类型。

一位从业者分析,采用分阶段、分领域的渐进式研究策略,能显著提升模型的综合性能。他还以 DeepSeek 的诞生过程为例,它先进行数学相关任务的专项研究,接着进行代码生成与理解任务的研究,最后应用到通用模型,最终出现了 DeepSeek-R1。

「这种路径能有效提升模型的逻辑推理和结构化思维能力。目前,国际科技巨头以及国内领先的 AI 研究机构,都在采用类似的渐进式策略。」 这位从业者表示。

目前来看,GPT-5 在编程能力上的提升已经得到了广泛认可,但在垂直领域适配、工具调用效率上还有提升空间。

一位软件工程师表示,相比 Anthropic 的 Claude、亚马逊的 CodeWhisperer 等垂直领域的 AI 编程工具,GPT-5 对特定技术栈的适配性可能存在不足。他觉得,GPT-5 的优势在于通用性,而非专业编程。

此外,在使用体验上,用户反馈也出现分化。有开发者称 GPT-5 生成效果惊艳,有人却遇到了 「生成网页无法点击、代码无法运行 「等问题,生成效果很不稳定。这也说明,尽管 GPT-5 在编程能力上取得突破,仍需时间和反馈不断迭代完善。

技术不算质变,但能推动 AI 商业化

尽管 GPT-5 实现了多维度的升级,但多位从业者认为,这更像是一次架构与工程优化升级,而非真正意义上的代际跃迁。

从产品实际表现来看,GPT-5 仍存在不少短板。

比如发布会上,它在回答伯努利效应解释等复杂科学问题,便暴露出了 AI 惯有的缺陷,在推理时只注重统计关联,而不理解内容本质。在生成图表时,还出现了 52.8 分的柱状图比 69.1 分更高的明显错误。尽管萨姆·奥特曼随后公开回应,暗示可能是 AI 尚未完全掌握 PPT 制作技巧,但还是引发外界对 GPT-5 能力的怀疑。

多位从业者认为,萨姆·奥特曼宣称的 「博士级专家」 能力,更像是场景化性能的堆砌,而非大模型认知能力有了突破,这与其前期过度宣传的 「神级能力」 存在很大差距。这也导致外界对本次 GPT-5 的评价一般。

不过,沈仁奎指出,虽然 GPT-5 并非是全行业颠覆式的升级,但在推动 AI 商业化上的作用不容低估。尤其是开放 API,为企业提供了极低门槛的接入方式,可能会成为许多企业快速部署 AI 能力的 「加速器」。

他观察到,目前一些垂直类企业,比如医药、生物科技等领域的企业以及 Uber、Salesforce 等已部署 GPT-5,应用于科研分析、客户服务与运营决策等环节。在部分新兴工具平台,比如 Cursor、Windsurf 等开发平台也已集成 GPT-5,来改善自身的编程效率与智能交互体验。企业们愿意积极拥抱 GPT-5,除了其能力有所升级外,也在于 「白菜价」 的 API 策略。

他认为三类企业会率先吃到 GPT-5 的红利,第一类为软件开发平台,利用 GPT-5 自动代码生成、调试与工具链集成,提升开发效率;第二类是专注于知识管理与决策系统的公司,GPT-5 能快速深入并解决金融、医药、法律等需复杂推理与辅助决策的场景;还有消费级智能服务类企业,它们涉及大量写作助手、学习平台与跨媒体内容创作服务,可借助 GPT-5 的多模态与个性化提升使用体验。

值得注意的是,OpenAI 这次还打起了 ToG 的主意。它与美国总务管理局进行合作,在未来 12 个月里,ChatGPT 企业版将对美国联邦政府开放,每个机构只需要支付 1 美元,所有员工便可无限制使用 OpenAI 的前沿大模型技术。

OpenAI 的以上种种动作,展现出借着 GPT-5 从 「平台工具」 加速向 「社会基础设施」 转型的野心。即便其能力未达 「神级」,但其所激发的商业潜力和行业联动效应,仍可能在未来掀起一波新的 AI 应用高潮。

某种意义上,GPT-5 带来的最大改变,或许不是模型本身,而是它所触发的生态。AI 的战争,已经从模型能力比拼,走向基础能力与商业落地的全面竞赛。

Scan

禾湖财经

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

股民必看:给你8个必须学习期货的理由!现金大奖等你来拿!

股民必看:给你 8 个必须学习期货的理由!现金大奖等你来拿!

2025 年 8 月 10 日
研究显示OpenAI新模型GPT-5能耗显著高于前代

研究显示 OpenAI 新模型 GPT-5 能耗显著高于前代

2025 年 8 月 10 日
难逃组装厂命运?AI服务器厂「艰难求生」 业内称显卡租赁价格较年初高点「腰斩」

农业银行传世之宝金条价格今天多少一克 (2025 年 08 月 09 日)

2025 年 8 月 10 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

OR

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录