文 | 参商,作者 | 西梅汁,编辑 | 星奈
国内大模型发展趋势|4 月份解读
MCP 成共识,AI 智能体爆发加速
通用 Agent 正从 「工具」 跃迁为 「智能伙伴」,成为 AI 大模型落地的重要载体。在 Manus AI 以高融资与估值引爆市场后,百度、字节等大厂迅速入局:字节推出 B 端办公产品 「扣子空间」,深度整合飞书生态;百度则瞄准 C 端用户推出 「心响」,通过生活化模板降低使用门槛。二者路径分化,但目标一致——将 AI Agent 嵌入现有生态,激活用户粘性与商业增长。
在这样的行业趋势下,MCP 作为"万能插座"的技术突破,正在重塑 AI Agent 的产业。众多开发者和企业纷纷将目光聚焦于 MCP,将其视为推动 Agent 生态开放的重要力量。一方面,MCP 的特性使得开发者能够更加自由地在上面构建和创新各类 Agent 应用,不再受制于特定的封闭生态,激发了整个行业的创造力和活力。另一方面,对用户而言,MCP 的广泛应用意味着他们可以更加轻松地获取和使用来自不同开发者和平台的 Agent 服务,享受更加丰富多彩的智能化体验,进一步促进了 AI Agent 在各领域的普及和应用。
那么,随着 MCP 的浪潮兴起,AI Agent 的发展也将引来新的高潮。开发者的创新热情被充分点燃,他们在 MCP 的基础上不断优化和拓展 Agent 的功能与应用场景,使其能够更好地满足市场和用户需求。同时,MCP 的开放性也吸引了更多的资源和资本涌入这一领域,为 AI Agent 的研发和推广提供了强有力的支持。
在市场竞争的推动下,Agent 的性能将不断提升,用户体验也会越来越出色,从而形成一个良性循环,加速推动整个 AI Agent 生态的爆发式增长。
AI 暗战进行时:大厂组织架构频频调整
近期,国内大厂在 AI 大模型领域的组织架构调整,反映出行业从 「算力堆砌」 向 「效率优化+场景适配」 的战略转向。
例如,腾讯将混元大模型研发体系重组为语言与多模态两大部门,强化垂直场景协同;阿里开源 Qwen3 系列模型,并全面支持 MCP 协议,推动模型与支付宝、高德地图等生态工具的深度整合,凸显低成本与开源策略的技术普惠性;字节跳动则通过合并 AI Lab 与 Seed 部门,集中资源突破强化学习与稀疏模型架构,将推理成本降低 83%。这无疑不表明,企业正通过技术路径分化 (像模型轻量化、端侧部署) 降低商业化门槛,同时加速 AI 在多维度场景下的渗透。
不仅如此,各家通过开源协议与跨行业合作重构生态话语权。例如,百度、阿里等推动的 MCP 协议标准化接口,打破数据孤岛并吸引开发者共建工具链;腾讯云与比亚迪合作企业级知识库,字节 「扣子空间」 支持自定义插件接入,百度地图 API 兼容 MCP 后,日均处理千万级导航请求,均体现生态协同的深化。同时,云服务商以低价策略抢占市场,手机与车企则借助 Deepseek 实现差异化功能升级,形成 「技术-场景-商业」 闭环。这种开放生态不仅降低同质化风险,还推动硬件创新。
而面对 AI 人才争夺白热化,大厂从规模扩张转向精准布局。字节跳动引入 Google DeepMind 前高管吴永辉,取消季度考核以支持长期研究;快手成立独立可灵 AI 事业部,通过灵活架构保持视觉模型竞争力;阿里校招 80% 岗位倾斜 AI,并启动 「反选项目」 机制打破层级限制。同时,复合型人才需求激增,倒逼企业内部重组,以提升研发与产品化协同效率。也在揭示,组织架构的敏捷性与人才质量正成为 AI 竞赛的核心变量。
一场马拉松,跑出人形机器人产业加速度
前段时间,2025 年北京亦庄半程马拉松中的人形机器人参赛事件,虽因机器人的"翻跟斗"和跑错方向引发一众网友调侃,却真实反映了行业在现实场景中的技术探索与挑战。这场活动不仅是对机器人续航、稳定性与耐力的测试,更成为具身智能技术落地的试金石。
随着国内大模型技术的快速发展,多模态与预训练模型的突破为机器人提供了更强大的感知与交互能力,使其在复杂环境中的自主决策与适应性显著提升,而这场马拉松恰是技术迭代与场景验证的关键节点,推动行业从实验室走向真实世界。
目前,国内人形机器人产业正呈现年轻化与创新驱动的趋势,以宇树科技、智元机器人为代表的初创企业迅速崛起,依托大模型技术优化动作流畅度与环境反馈能力。例如,宇树机器人通过春晚表演与商业落地展示了技术成熟度,而智元机器人千台量产下线则标志着规模化应用的初步尝试。这些进展背后,是 AI 大模型与具身智能的深度融合——生成式 AI 赋予机器人更自然的人机交互能力,多模态模型则强化其物理世界的理解与响应,为制造业、服务业等场景的实用化奠定基础。
尽管人形机器人仍面临技术瓶颈与公众认知偏差的双重挑战,但其发展前景与战略价值不容忽视。当前展示的"马拉松""跳舞"等场景仅是技术验证的起点,未来需依托大模型驱动的持续创新,攻克动作稳定性、能源效率等核心难题。国内政策支持与资本投入加速了产学研协同,而真实场景的反复测试将倒逼技术迭代。随着 AI 技术与机器人硬件的深度融合,人形机器人有望从"科技秀场"走向工业生产线、家庭服务等广泛领域,成为新一轮科技革命的重要载体。
国内主要大模型进展
百度
4 月 25 日,Create2025 百度 AI 开发者大会在武汉举办,大会以"模型的世界,应用的天下"为主题,聚焦大模型技术突破与产业应用落地。百度创始人李彦宏出席大会并发表了题为 《模型的世界应用的天下》 的演讲,发布了两大模型和多款热门 AI 应用,强调了应用在 AI 发展中的核心地位。
具体来看,百度发布了文心大模型 4.5 Turbo 和深度思考模型 X1 Turbo。文心 4.5 Turbo 相比文心 4.5 效果更佳、成本更低,基于文心 4.5 Turbo,文心 X1 升级到 X1 Turbo,性能提升的同时,具备更先进的思维链,问答、创作、逻辑推理、工具调用和多模态能力进一步增强。
据称,这两款新模型的价格仅为 DeepSeek 的 25%。这一价格优势,将有助于百度在大模型市场中获得更大的市场份额,特别是在企业级应用领域。
上线通用超级智能体产品 "心响"APP,其以 "AI 任务完成引擎" 为核心,已覆盖知识解析、旅游规划、学习办公等十大场景超 200 个任务类型,未来计划将任务类型扩展至 10 万种以上。
在数字人领域,百度推出高说服力数字人,可实时调整表情与动作,应用于电商直播、游戏等领域。同时发布的沧舟 OS 是全球首个内容领域操作系统,包括 Chatfile plus 和三大库三器。
从宣布文心一言全面免费和文心大模型 4.5 开源,到举办 Create2025 百度 AI 开发者大会发布文心大模型 4.5 Turbo 和 X1 Turbo 两款新模型,以及多款 AI 应用和扶持计划,百度正在找回自己的主场。
阿里
4 月 29 日凌晨,阿里 Qwen3 王炸发布,杀疯海外,一举登顶全球最强开源模型。
此次,Qwen3 开源模型包含 8 款不同尺寸,包括两款 MoE 模型:Qwen3-235B-A22B(2350 多亿总参数、 220 多亿激活参数),以及 Qwen3-30B-A3B(300 亿总参数、30 亿激活参数);以及六个 Dense 模型:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。
Qwen3 支持思考模式和非思考模式,根据不同任务进行控制模型进行 「思考」 的程度,成为国内首家实现 「混合推理」 的模型。
4 月 27 日,夸克 AI 超级框发布全新 AI 相机,上新"拍照问夸克"功能。基于视觉理解与思考推理的强大模型能力,夸克 AI 超级框从视觉出发创新下一代搜索体验,进一步理解和回答物理世界中的各类问题。作为阿里巴巴 AI 旗舰应用,夸克 AI 超级框持续快速迭代,提升超级智能体的多模态能力,打造用户生活、工作、学习的 AI 超级入口。
4 月 17 日,阿里通义万相 「首尾帧生视频模型」 开源,该模型参数量为 14B,是业界首个百亿参数规模的开源首尾帧视频模型。它可根据用户指定的开始和结束图片,生成一段能衔接首尾画面的 720p 高清视频,此次升级将能满足用户更可控、更定制化的视频生成需求。
用户可在通义万相官网直接免费体验该模型,或在 Github、Hugging Face、魔搭社区下载模型本地部署后进行二次开发。
4 月 14 日,阿里云百炼上线业界首个全生命周期 MCP(模型连接协议) 服务,这是阿里云在 AI 基础设施领域的重要布局。该服务无需用户管理资源、开发部署、工程运维等工作,仅需 5 分钟即可快速搭建一个专属 MCP Agent,大幅降低了 AI Agent 的开发门槛。
另外,百炼平台预置了 MCP 广场、MCP 管理、MCP 调用三大能力,大幅降低 Agent 开发的门槛和成本,只需 5 分钟,就能搭建出企业级 MCP Agent。
自今年全面押注 AI 技术以来,阿里巴巴一直以极快的节奏推出 AI 产品。从计划发布通义千问 3.0,到召开 AI 势能大会展示 AI 基础设施和应用成果,再到正式发布并开源新一代通义千问模型 Qwen3,阿里巴巴展示了其在 AI 领域的领导力和开放合作的态度。
DeepSeek
4 月 30 日,DeepSeek 在 Hugging Face 平台发布其最新超大规模数学定理证明模型 DeepSeek-Prover-V2-671B,参数量高达 6710 亿,是前代版本 V1.5 的近百倍,刷新开源数学推理模型体量上限。该模型专注于形式化数学证明任务,适用于自动定理验证、逻辑推理训练、Lean4 教学等场景,基于 DeepSeek-V3 架构,采用混合专家设计,支持超长 163K tokens 上下文处理。
字节跳动
4 月份,字节跳动主要围绕大模型技术、AI 智能设备、组织架构调整以及 AI Agent 应用等方面展开了一系列动作。
4 月 18 日,字节跳动测试 Agent 产品"扣子空间"。这款产品被定位为"AI 实习生"和"领域专家",用户可调用不同领域专家 Agent 协同完成任务。
扣子空间的核心功能是让用户可以选择精通各项技能的通用实习生,也可以选择行业的领域专家,通过与 AI 的互动完成工作。例如,用户可以要求扣子规划三天人文旅游行程并整理成文档形式输出,并可设置任务完成或暂停后 2 小时内的限时规则。这种"AI 实习生"的定位,使得扣子空间在办公自动化领域具有广阔的应用前景。
4 月 17 日,字节跳动旗下的云和 AI 服务平台 「火山引擎」 面向企业市场发布了更强的模型——豆包 1.5・深度思考模型,这也是字节跳动旗下 AI 应用豆包 App 背后的推理模型首次亮相。一同推出的,还有豆包・文生图模型 3.0、以及升级版的视觉理解模型。
对于这次发布的模型,火山引擎总裁谭待认为,"深度思考模型是构建 Agent 的基础,模型要有能力做好思考、规划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent 才能更好地处理复杂任务。"
4 月 16 日,字节跳动宣布将 AI Lab 团队整体并入 Seed 部门,聚焦文生图模型 (如 Seedream 3.0) 和语言大模型研发。此次调整旨在优化资源分配,加速 AGI(人工通用智能) 技术落地。
这一组织架构调整反映了字节跳动对 AI 业务的战略重新定位。通过将 AI Lab 团队并入 Seed 部门,字节跳动希望整合技术资源,形成更集中的研发力量,加速在关键领域的技术突破。同时,这一调整也表明字节跳动更加注重 AI 技术的商业化落地,希望通过 Seed 部门的统筹,推动 AI 技术在实际业务场景中的应用与价值实现。
4 月 12 日,The Information 援引知情人士消息报道,字节跳动正计划推出自研的 AI 智能眼镜,并已开始与供应链进行沟通,商讨功能、技术方案、成本控制与上市节奏。这一消息标志着字节跳动正式进军 AI 智能眼镜市场,将智能眼镜作为其 AI 生态的重要组成部分。
从 AI 智能眼镜的研发,到大模型技术的持续迭代,再到 AI Agent 产品的推出,字节跳动正在构建一个全方位的 AI 技术与应用生态。
腾讯
腾讯 4 月份在 AI 领域的布局展现了其在算力基础设施、模型能力提升、人才战略和组织架构方面的全方位投入。
4 月 29 日,腾讯对其混元大模型研发体系进行了全面重构,主要是围绕算力、算法和数据三大核心板块展开,通过优化团队部署和加码研发投入,推动混元大模型的持续发展。调整后,腾讯成立了两个新的部门:大语言模型部和多模态模型部,分别负责探索大语言模型和多模态大模型的前沿技术,持续迭代基础模型,提升模型能力。同时,腾讯将进一步加强大模型数据能力和平台底座建设。
4 月 23 日,腾讯宣布混元 3D 生成模型全新升级,v2.5 新版本在建模精细度上大幅提升,总参数量从 1B 提升至 10B,有效面片数增加超 10 倍,实现超高清的几何细节建模,表面更平整、边缘更锐利、细节更丰富,有效几何分辨率达到 1024,就像从标清升级到了超清画质。
混元 3D AI 创作引擎全面更新至 v2.5 模型底座,同时免费生成额度翻倍,提升至每天 20 次。混元 3D 生成 API 也已正式上线腾讯云,面向企业和开发者开放。腾讯混元积极拥抱开源生态,混元 3D 1.0、2.0 基础模型及基于 2.0 模型的加速、多视图和轻量级模型均已开源,Github 总 star 数超 1.2 万。
4 月 17 日,腾讯宣布启动史上最大就业计划,三年内将新增 28000 个实习岗位并加大转化录用,2025 年将迎来 10000 名校招实习生,有六成面向技术人才开放。
腾讯透露,今年开放的校招实习岗位涵盖技术、产品、设计、市场、职能等五大类 70 余种岗位,包括大模型、研发、算法、市场、策划、运营、销售、美术等多个岗位职能,同时加大对人工智能、大数据、云计算、游戏引擎、数字内容等技术类岗位的招聘力度,技术类岗位占比超 60%。
腾讯通过"技术架构重组+产品能力升级+人才梯队建设"三维发力,持续巩固 AI 大模型领域竞争力。
科大讯飞
4 月 20 日,科大讯飞宣布星火 X1 在数学、代码、逻辑推理、文本生成等多项通用能力上取得显著提升。其模型参数量比业界同类模型小一个数量级,但性能却更加优越。
星火 X1 作为业界首个基于全国产算力训练的深度推理大模型此次升级在数学、代码、逻辑推理、文本生成等通用任务上效果显著提升,特别是在模型参数比业界同类模型小一个数量级的情况下,依然保持了卓越的性能。
据悉,星火 X1 API 已同步上线讯飞开放平台,面向广大开发者和企业开放服务。
360
4 月 23 日,360 旗下纳米 AI 正式发布 「MCP 万能工具箱」,万能工具箱基于 MCP 而生,已接入超过 110 款工具,覆盖办公协作、学术、生活服务、搜索引擎、金融、媒体娱乐、数据抓取等多种场景,且工具免费、可一键安装、安全可信。目前,用户可在纳米 AI 客户端直接调用各类工具,还能用工具创建属于自己的智能体,提升工作效率,方便自身生活。
据官方称,纳米 AI 这次上线的 MCP 万能工具箱,是本着打造 「AI 应用基础设施」 的目标在反复打磨,面对频频曝出的 AI 安全问题,纳米 AI 在其万能工具箱的开发过程中专门为所有工具做了安全检测,能够解决行业普遍面临的 MCP 服务安全和信任等问题,确保用户能在安心、安全的环境下使用。
智谱
4 月 15 日,智谱正式向中国证监会北京证监局提交上市辅导备案,辅导机构为中国国际金融股份有限公司 (中金公司)。这一举动标志着智谱 AI 正式启动 A 股 IPO 上市进程,成为"大模型六小虎"中首家冲刺上市的企业。
智谱上市辅导工作计划从 2025 年 4 月到 10 月大致持续半年,分为摸底调查、集中整改、申报准备三阶段。根据时间安排,智谱计划在今年 8 月-10 月完成 IPO 辅导。若一切顺利,智谱年内有望迈出 IPO 申报的第一步。这意味着智谱 AI 有望成为 A 股"大模型第一股" 。
同日,智谱还发布新一代开源模型 GLM-4-32B-0414 系列,包含基座 (Chat)、推理、沉思模型权重,有 9B 和 32B 两个尺寸,并遵循宽松的 MIT License,完全开源,不限制商用,无需申请。其中,GLM-Z1-32B-0414 推理模型以 320 亿个参数,在部分任务的性能表现上,可媲美参数高达 6710 亿的 DeepSeek-V3/R1。
4 月 14 日,智谱宣布 AutoGLM 沉思核心链路的模型和技术正式开源。AutoGLM 沉思是一个能探究开放式问题,并根据结果执行操作的自主智能体 (AI Agent),它于 3 月 31 日在中关村论坛上发布。
AutoGLM 沉思的技术演进路径包括:GLM-4 基座模型→GLM-Z1 推理模型→GLM-Z1-Rumination 沉思模型→AutoGLM 模型。这一模型能够模拟人类的思维过程,完成从数据检索、分析到生成报告,真正推动 AI Agent 进入"边想边干"的阶段。
商汤
4 月 10 日,在 2025 商汤技术交流日活动中,商汤重磅推出全新升级的"日日新 SenseNova V6"大模型体系,通过多模态长思维链训练、全局记忆、强化学习的技术突破,形成领先的多模态推理能力,并突破成本边界。
除了发布日日新 V6 大模型体系外,商汤科技还推出了商汤大装置 SenseCore 2.0 全新升级版本。作为最懂大模型的 AI 基础设施,SenseCore 2.0 致力于为企业提供敏捷、灵活、可靠的全栈 AI 基础设施支持。
为促进大模型技术的落地应用,商汤科技还宣布发放"1 亿元代金券",旨在全栈赋能场景落地,加速 AI 技术在实际业务中的应用和推广。这一举措将为合作伙伴和开发者提供更实质性的支持,共同构建繁荣的 AI 生态系统。
月之暗面
4 月 16 日,月之暗面 Kimi 社区功能开始内测,预计本月底正式上线。该社区功能由 AI 抓取热点新闻生成内容,正在邀请频道号入驻。这一举措旨在打造一个 AI 加持的资讯聚合体,而非仅仅模仿小红书等现有平台。
Kimi 社区功能的推出是月之暗面在用户体验上的最新尝试,旨在提供更丰富、更互动的内容体验。通过 AI 技术赋能内容创作和分发,月之暗面希望打造一个具有差异化竞争优势的内容平台。
值得注意的是,Kimi 社区功能与之前报道的内容社区产品可能存在关联,或者是同一产品的不同阶段。无论是社区功能还是内容社区产品,都反映了月之暗面在产品创新方面的积极探索,以及对用户需求的深刻理解。
4 月 26 日,kimi 发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。
Kimi-Audio 模型的发布是月之暗面开源战略的重要组成部分。此前,月之暗面已经开源了视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,这两款模型在保持参数规模轻量的同时,展现出极强的性能。开源策略不仅提升了月之暗面的技术影响力,也为 AI 行业的发展做出了贡献。
阶跃星辰
4 月 27 日,阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。
一句话总结:Step1X-Edit,不只能 「改图」,更能 「听得懂、改得准、保得住」。
目前该功能已上线阶跃 AI 官网和阶跃 AI App
生数科技
4 月 22 日,生数科技最新上线的全新 Vidu Q1 视频大模型,同时登上多个权威文生视频、图生视频基准测试榜单的第一。该模型可支持生成 1080p 分辨率 5 秒视频,生成效果清晰稳定,已在网页端 (Vidu.cn)、手机端上线。相较 2.0 版本,Vidu Q1 进一步提升了语义理解、画质、动作、美学、逼真和丝滑程度,首尾帧衔接更加流畅,上传两张图就能生成一镜到底的自然运镜。
4 月 27 日,清华系的智谱 AI 与生数科技宣布达成重大战略合作,共同推进国产大模型的技术创新与产业落地。作为两家清华系明星 AI 企业,智谱 AI 和生数科技将基于各自在大语言模型和多模态生成模型的技术积累和优势,在联合研发、产品联动、解决方案整合、行业协同等多方面强强联合。