日前,第 42 届国际机器学习大会 (ICML 2025) 在加拿大温哥华会议中心盛大举行,基于在前沿技术领域的多年探索与深耕,作业帮技术团队成功在该顶会发表重要研究成果。团队创新性地推出基于能量的偏好模型 (EBM) 及能量偏好对齐 (EPA) 方法,在大语言模型人机偏好对齐任务中,性能全方位超越传统方案,为智能教育场景提供了更为精准、稳定的技术支持,AI 在教育领域的落地探索有了突破性的进展。
作为机器学习领域的国际顶级盛会,大会吸引了全球顶尖研究者踊跃参与,共收到 12107 篇有效投稿,经过严格的双盲评审,最终 3260 篇论文成功入选,录用率约为 26.9%。在如此激烈的竞争环境下,作业帮的论文作为 AI+教育领域的代表性成果脱颖而出,更加突出其研究的创新性与重要价值。
智能交互作为智能教育中的重要场景,需要严谨的解题步骤、通俗易懂的讲解语言,对 AI 模型的理解能力提出了更高的要求。论文背景中显示,过往传统方法多依赖 Bradley-Terry 偏好模型 (BTM),但该模型存在 「最优解不唯一」 这一先天性缺陷。这一弊端使得基于有限数据训练的模型在面对复杂多变的教学场景时,难以给出最优的响应,极大程度上干扰了学生的学习体验,也限制了智能教育工具效能的发挥。
作业帮团队瞄准能量基偏好模型 (EBM),从理论底层实现关键突破。该模型借助全局归一化处理方式,能够天然适配诸如学生多样化答题思路这类无限候选空间,确保最优解具有唯一性。同时,它还能严格契合 「模型预测与真实偏好线性一致」 这一关键条件,从根本上化解了传统模型的不稳定性问题,为后续技术优化与应用拓展奠定了坚实的理论基石。
基于这一创新性理论,团队进一步精心设计出具备高实用性的 EPA 方法。该方法运用 「优质答案 + 强干扰答案 + 弱干扰答案」 的三重对比训练机制,赋能模型在有限数据条件下,也能够精准捕捉教育场景中千头万绪的细微偏好。依据实验数据所示,在 Alpaca Eval 2.0 等权威基准测试场景中,EPA 方法的胜率相较于传统 DPO 方法,最高可提升 4 个百分点。尤其在高复杂度场景里,其表现更为稳健,过拟合风险大幅降低。
然而,由于教育场景的低容错率,对 AI 的偏好理解精准度要求近乎苛刻。以数学学科为例,同一道数学题往往存在多种解法,这就亟需模型精准无误地识别 『步骤规范』『逻辑清晰』 等细微差异。EBM 模型的独特优势恰恰体现在对这类复杂偏好的深度挖掘与捕捉能力上。 据了解,该技术在未来将深度嵌入智能解题、个性化辅导等学习场景中,助力 AI 更加精准地洞察学生学习需求与学校的教学习惯,持续为用户带来体验升级。
作为教育科技领域的领先企业,作业帮依托 「教育+科技」 的双引擎优势,持续在前沿技术领域深入探索,积极推动 AI 技术在教育场景中的应用落地。此次在 ICML 2025 上发表的技术成果,既是对作业帮 AI 技术实力的高度认可,也推动了大模型对齐技术的进步,为智能教育产业注入了全新的强劲动力。