直击谷歌 I/O 2025：谷歌 AI 眼镜剑指主流市场，未来拍电影全靠「打字」？

[ad_1]

文 | 大模型之家

AI 能生成分镜，“ 拍” 电影还会远吗？

北京时间 5 月 21 日凌晨，在 2025 年 Google I/O 开发者大会的主题演讲中，谷歌 CEO 桑达尔· 皮查伊以一句轻松的“ 双子座季节” 开场白，揭开了这场科技盛宴的序幕。他直言，在谷歌的“Gemini 时代”，技术突破不再受传统发布周期束缚，谷歌正以史无前例的速度将最前沿的 AI 模型推向全球用户。

皮查伊强调：“ 我们打破了‘ 性能与价格不可兼得’ 的行业魔咒。”Gemini 2.5 Pro 在性能飙升的同时，实现了成本的大幅优化。数据显示，Gemini 模型每秒生成输出令牌数已跻身全球前三，而单位计算成本较前代下降 40%。这一突破得益于谷歌第七代 TPU 芯片的赋能—— 这款专为大规模推理设计的芯片，性能较前代提升 10 倍，单计算仓算力达 42.5 ExaFLOPS，成为支撑谷歌 AI 基础设施的“ 超级引擎”。

技术突破正转化为触手可及的产品体验。皮查伊公布了一组数据：过去一年间，谷歌每月通过产品和 API 处理的 AI Token 数量从 9.7 万亿激增至 480 万亿，增幅超 50 倍；开发者生态同样迎来爆发式增长，超过 700 万开发者通过 Gemini API、Google AI Studio 和 Vertex AI 平台构建应用，较去年增长 5 倍。其中，Vertex AI 平台上的 Gemini 使用量更是飙升 40 倍。

在用户端，Gemini 应用的月活用户已突破 4 亿，Gemini 2.5 Pro 版本的使用量较前代增长 45%。搜索领域的革新尤为显著：AI 概览功能每月覆盖 15 亿用户，成为全球规模最大的生成式 AI 应用场景。皮查伊透露，谷歌搜索的“ 下一站” 将是 AI 驱动的交互模式升级，用户将体验到更自然、更个性化的信息获取方式。

不仅如此，Google 正通过三个研究项目，将实验转化为产品：

Project Starlight进化：Google Beam 开启 3D 通讯时代
历经数年研发，Project Starlight 的 3D 视频技术正式落地为全新平台 Google Beam。该平台通过 6 摄像头阵列捕捉用户动作，结合 AI 生成 3D 光场显示，实现毫米级头部追踪和 60 帧实时渲染。皮查伊现场演示了与惠普合作设备的沉浸式通话效果，并宣布首批测试设备将于年内推出。
Project Astra：跨语言对话的“ 无感翻译”
作为实时语音翻译技术的集大成者，Google Meet 现已支持英语与西班牙语的即时互译，未来几周将扩展至更多语种。演示中，系统精准还原了演讲者的语气、节奏甚至表情
Project Marina：智能代理的“ 操作系统”
定位为“ 网络交互智能体” 的 Project Marina，已具备多任务处理和教学-重复学习能力。皮查伊展示了其如何同时管理 10 项任务，并通过一次演示学习完成复杂操作。该技术将通过 Gemini API 开放给开发者，首批合作伙伴包括 Automation Anywhere 和 UiPath，预计夏季面向更广泛用户推出。

智能体生态：从工具到伙伴的进化

皮查伊将智能体（Agent）视为AI技术的“ 下一形态”。他现场演示了 Gemini 应用中的“ 代理模式”：用户只需设定需求系统即可自动调用 Project Marina 完成房源筛选、预约看房等操作，用户全程无需介入。这一功能将率先向订阅用户开放。

更深远的意义在于谷歌推动的“ 智能体互联计划”：通过开放的 Agent-to-Agent 协议和 Model Context Protocol，不同智能体可共享数据与工具，构建协作生态。皮查伊强调：“ 这不仅是技术升级，更是对‘ 人机协作’ 模式的重新定义。”

Gemini 2.5：AI能力系统性跃升，开启多模态智能纪元

Gemini 2.5 Pro 经过近期优化，在自然语言理解、代码生成、复杂推理及多模态处理（图像/视频）等领域全面突破性能边界，成为行业标杆。而轻量化模型 Gemini 2.5 Flash 则以 22% 的推理速度提升和更低资源消耗，提供与 Pro 相近的能力，计划 6 月率先开放开发者接入，重塑效率与成本的平衡。

本次升级的最大亮点在于原生多模态能力落地：

语音交互革新：全新文本转语音（TTS）技术支持 24 种语言无缝切换，可精准模拟人类语音中的情绪细节（如语速、语调变化），实现“ 情感化语音角色” 生成。
视觉到 3D 的极速转化：用户仅需上传草图并输入提示词，系统即可在数十秒内自动解析图像、生成可交互的 3D 模型并部署上线，全程无需专业 3D 开发知识。

此外，谷歌推出 AI 编程代理“Rose”，支持从代码生成、错误修复到版本迁移的全流程自动化，标志着 AI 从辅助工具进化为“ 异步执行开发者”。现场演示的文本生成视频技术结合新一代低延迟架构，生成效率较前代提升 5 倍，预示生成式 AI 在视频创作领域的爆发潜力。

强化“ 深度思考”，加速构建“世界模型”生态

谷歌表示，Gemini 2.5 Pro的核心突破之一，就是引入了“ 深度思考”（Deep Think）能力，标志着AI向通用智能迈出关键一步。

Gemini 2.5 Pro 通过集成谷歌最新推理架构，实现复杂任务下的“ 延时思考” 能力。参考 AlphaGo 的策略性决策逻辑，该模型在分配更多计算资源时，可输出更具逻辑纵深的分析结果。

作为原生多模态架构，Gemini 2.5 Pro 可跨文本、图像、音视频进行联合推理。更关键的是，谷歌正基于此构建“ 世界模型”—— 一个能实时映射物理规则、预测环境变化的虚拟智能体。现场演示中，Gemini 仅凭简单草图生成可交互 3D 场景，并通过 Gemini Robotics 子模型驱动机械臂完成动态抓取任务，展现 AI 从认知到行动的闭环能力。

视频理解模型Veo实现了更多物理世界层面的理解：能精准模拟物体运动轨迹、材质反光特性及重力影响，甚至预测多物体碰撞结果。这一能力将赋能机器人、XR 设备及物联网终端，使 AI 具备“ 预演现实” 的规划力。

谷歌现场展示了“Gemini Life” 场景：用户维修自行车时，AI 可同步调取说明书、分析故障视频、搜索教学资料、联系配件供应商，甚至通过语音交互协调维修流程。这种跨模态、主动式服务模式，预示着 AI 将从被动工具进化为能自主规划、串联任务的“ 数字伙伴”，重新定义人机协作边界。

从信息索引到智能助手，Google搜索在AI模式下走向“质变”

Google强调，AI模式并非独立产品，而是搜索体系的进化试验场。其终极目标是将搜索引擎从“ 信息检索工具” 升级为“ 思考伙伴”—— 用户不再被动接收链接，而是与具备判断力、执行力的智能体协同决策。当搜索能自主拆解问题、整合跨平台数据、预判用户需求时，一场关于人机协作的范式革命已悄然到来。

面对用户查询方式从关键词向复杂语境的转变，Google 推出基于 Gemini 2.5 重构的“AI 模式”，以多模态推理与全球信息整合能力重塑搜索体验。

技术层面，AI 模式通过 Query Decomposition 技术实现“ 查询拆解”：系统自动识别需深度推理的问题，拆分为数百个子任务，调用定制化 Gemini 模型执行海量搜索，最终生成结构化报告—— 融合网页、知识图谱、地图等数据，附带来源验证、对比图表及可视化分析。例如，用户可一键获取球员使用新型球棒后的击球率趋势图，或跨平台比对红袜队比赛门票价格并完成订票流程。

个性化则是另一大亮点。Google 即将推出“ 个人情境” 功能，搜索结果可以结合 Gmail 中的行程信息、用户的偏好数据等做出更贴合生活的推荐。例如，当用户搜索周末活动建议时，系统会知道其刚刚订了户外餐厅，或订阅了某个画廊的信息展，并提供匹配推荐。同时，用户对自己的信息接入权限具有完全控制权。

除了文本和数据的处理能力，AI 模式还全面升级了视觉搜索体验。Google Lens 的月活跃用户已超 15 亿，而 AI 模式引入了 Project Astra 的实时视觉交互功能——“ 实时搜索”。用户可以通过镜头直接展示问题场景，如 DIY 项目、科学实验或复杂设备操作，搜索引擎则仿佛“ 视频通话中的助手”，在实时画面中给出精准指引。通过 AI 眼镜的多模态互动，正成为“下一代搜索”的关键入口。

图像与视频生成的质变：Imagen 4 与 Veo 3 齐发

在生成式内容方面，Google带来了新一代图像模型Imagen 4和视频模型Veo 3。Imagen 4 强化了图文混排、细节表现和构图逻辑，能够根据简单的描述生成用于音乐节、品牌活动等场景的高质量海报。而 Veo 3 则实现了视频生成的一个质变—— 首次引入“ 原声音频生成”（Native Audio Generation），不仅画面栩栩如生，背景音效与角色对话也可一并生成，实现真正意义上的沉浸式内容生产。

Veo 3 所展现的能力，标志着生成式 AI 正在重塑影视制作的整个流程。Google 透露，已与电影制作行业展开深入合作，探索 AI 生成内容的专业化路径。

谷歌还首次揭示了 Gemini Agent 模式下的多模态操作方式。这是一个可在 Chrome 中工作、支持多任务协作的 AI 代理，能够实时理解网页语境、对比评论、自动整理信息，为用户提供上下文感知的帮助。

会上，谷歌还发布了Lyria，这是一款能够生成高保真、专业级音频的新模型。无论是独唱还是合唱，其生成的音乐在细节和情感表达上都展现出强烈的感染力。

在生成内容日益逼真的背景下，谷歌延续其在媒体透明化上的探索。早在两年前推出的“SynthID” 水印技术，如今已覆盖超过 100 亿条生成内容，并获得进一步升级。此次更新引入了多模态检测器，不仅能识别图像是否含有隐形水印，也可以判断音频、文本及视频是否部分或完全由 AI 生成。

这一技术的扩展不仅是技术性的进步，更是回应社会对于 AI 内容来源可追溯性的迫切需求。谷歌强调，他们正扩大与全球合作伙伴的协作，以将此类可识别机制推广到更广泛的生成式媒体生态中。

颠覆创意生成范式，AI 视频创作新引擎 Flow

作为活动的一大亮点，谷歌发布了一款专为创意人士打造的AI视频制作工具——Flow。这款工具集成了Veo、Imagen和Gemini，是一个从灵感萌芽到成片输出的完整内容生产引擎，意在重塑创意素材的生成方式。

Flow 不仅仅是一个视频工具，它是一个能与创作者的构思实时互动的 AI 伙伴。通过自然语言输入，创作者可以设定人物、场景、情节，甚至详细到镜头调度和画面风格。谷歌在现场演示了一个案例：一位祖父希望制造一辆“ 能飞的小汽车” 送给孙子。创作者只需描述角色和剧情设定，Flow 便可即时生成画面素材；再通过轻松的拖放和编辑，逐步将片段串联为完整短片。

创作过程中，用户不仅可以添加镜头，更能定义每一个镜头的情绪、节奏与画面风格。Flow具备保持风格一致性的能力，使得即便是由多个生成模块构建的作品也具有统一的美术表现力。更重要的是，所有素材都可以被导出至主流视频剪辑软件，创作者仍然拥有对最终成品的完全掌控。

谷歌强调，Flow 不是在取代导演与编剧的角色，而是在构建一种新的创作流程：灵感涌现时，AI 可以立即响应；创作陷入瓶颈时，AI 可以提供提示和延展。从某种意义上，它帮助创作者“ 看见” 那些尚未成形的想法。

在 AI 的辅助下，故事结构在眼前展开，角色仿佛拥有了自己的生命。创作者从“ 努力去做”，逐渐转变为“ 纯粹地表达”，这也许正是生成式 AI 对创意产业最深远的改变。

Gemini进入 XR 设备，智能眼镜走向量产

继 Android 16 与 WearOS 6 的发布后，谷歌正式将 AI 助手 Gemini 嵌入到更广泛的设备形态，从手机走向手表、汽车仪表盘、电视，再一步扩展到全新的 XR 平台。

为了应对用户在不同场景下的使用需求，谷歌发布了XR领域首个Android平台——Android XR。这一平台支持从沉浸式头显到轻巧便携的智能眼镜，打破了传统单一设备的限制。谷歌明确指出，XR 不是一个通用方案，而是一个多形态协同生态。在处理工作或娱乐时，用户可以佩戴高性能头显；而在移动场景中，轻便的眼镜则成为理想助手。

这一战略正在由谷歌与三星、高通联合推进。首款搭载 Android XR 的设备是三星的 Project Moohan 头戴装置，通过 Google Maps XR 功能与 Gemini 整合，用户只需发出语音指令，便能沉浸式“ 瞬移” 到全球任意地点。在体育应用中，例如 MLB，用户可以仿佛置身球场，实时获取球员数据和赛事分析。

谷歌在现场演示中首次揭示了新款搭载 Android XR 的智能眼镜—— 这款设备历经十年探索而成，强调全天佩戴的舒适性与技术集成能力。它内置摄像头、麦克风、扬声器和可选的私密显示镜片，支持全语音交互，不需掏出手机即可完成导航、搜索、通信等操作。

通过与 Gemini 联动，这款眼镜具备“ 所见即搜索” 的能力。用户看见一个咖啡杯上的 Logo，即可让 Gemini 识别品牌、显示地图、预约时间，甚至播放相关音乐。这一切，都无需动手操作。现场还展示了实时翻译功能，不同语言的对话被同时翻译为英文浮现在镜片中，打破语言壁垒。

目前，首批智能眼镜产品已进入可信测试阶段，并将在近期开放开发者平台。谷歌还宣布将与时尚眼镜品牌 Gentle Monster 和 Wabby Parker 合作，打造首批基于 Android XR 的消费级智能眼镜，通过可日常佩戴的时尚配件，打入主流市场。

AI普惠时代的“谷歌答案”：下一步的AI，不再抽象

“ 十年前，我们谈论 AI 的可能性；今天，我们正在见证其从理论到实践的转化”。可以见得，谷歌正通过整合基础模型研发、三维交互技术、智能代理系统及个性化服务等领域能力，构建全栈 AI 技术架构。

不难预见，随着其生态系统向硬件终端的持续渗透，人工智能与物理世界的深度融合进程已呈现明确的发展轨迹，将为产业价值的提升带来更多确定性。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

[ad_2]