• 最新
  • 热门
  • 所有
  • 期货
  • 外汇
  • 股票
双创板块承压,创业板ETF(159915)、科创板50ETF(588080)等产品聚焦科技创新机遇

DiT 在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

2025 年 8 月 21 日
牧原股份上半年净利润同比增1169.77% 拟合计分红50.02亿元

牧原股份上半年净利润同比增 1169.77% 拟合计分红 50.02 亿元

2025 年 8 月 21 日
辛巴又要退网,但谁来收拾他留下的「烂摊子」?

辛巴又要退网,但谁来收拾他留下的 「烂摊子」?

2025 年 8 月 21 日
难逃组装厂命运?AI服务器厂「艰难求生」 业内称显卡租赁价格较年初高点「腰斩」

水贝黄金价格今天多少一克 (2025 年 08 月 19 日)

2025 年 8 月 21 日
中信信托中标千亿破产服务信托,助力房企纾困突围

国家金融监管总局征求意见,事关商业银行并购贷款管理

2025 年 8 月 21 日
逮住OpenAI「猛薅」!Meta据悉又挖走四位知名研究人员

广东支持企业投资建设针对民商用领域的卫星星座,鼓励采购卫星相关数据产品;全球首个手机 Agent 问世——《投资早参》

2025 年 8 月 21 日
采购积极性难有明显提升 PVC短期或区间偏弱震荡

采购积极性难有明显提升 PVC 短期或区间偏弱震荡

2025 年 8 月 21 日
今日金条回收价格多少钱一克(2025年06月27日)

超 90 亿元主力资金狂涌!科创半导体 ETF(588170) 收涨 3.99%

2025 年 8 月 21 日
省心还是添乱?AI旅游助手在争议中前进

省心还是添乱?AI 旅游助手在争议中前进

2025 年 8 月 21 日
6月国产游戏版号创22年以来单月新高,游戏ETF(516010)涨超4.3%

金山办公放不下协同梦

2025 年 8 月 21 日
今日pd950钯金回收价格查询(2025年06月27日)

水贝铂金多少钱一克 (2025 年 08 月 19 日) 参考价格

2025 年 8 月 21 日
涨跌幅限制放宽至10%,哪些ST股迎调整?业内建议避免盲目追涨杀跌

李强在北京调研生物医药产业发展时强调 加大高质量科技供给和政策支持 着力推动生物医药产业提质升级

2025 年 8 月 21 日
六福内地铂金多少钱一克(2025年06月27日)

市场购销氛围清淡 玉米短期或延续震荡偏弱判断

2025 年 8 月 21 日
2025 年 8 月 21 日 星期四
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票
  • 黄金
  • 期货
  • 外汇
  • 基金
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票
  • 黄金
  • 期货
  • 外汇
  • 基金
2025 年 8 月 21 日 星期四
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
广告
首页 行业新闻

DiT 在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

来自 禾湖财经
2025 年 8 月 21 日
在 行业新闻
0
双创板块承压,创业板ETF(159915)、科创板50ETF(588080)等产品聚焦科技创新机遇
37
SHARES
105
VIEWS



DiT 在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学 「兄弟们,DiT 是错的!」 最近一篇帖子在 X 上引发了很大的讨论,有博主表示 DiT 存在架构上的缺陷,并附上一张论文截图。图 1. 我们引入了 TREAD,这是一种能够显著提升基于 token 的扩散模型骨干网络训练效率的训练策略。当应用于标准的 DiT 骨干网络时,我们在无引导 FID 指标上实现了 14/37 倍的训练速度提升,同时也收敛到了更好的生成质量。图中横轴代表训练时间 (以 A100 GPU 的小时数为单位,log 尺度,从 100 小时到 10000 小时),纵轴代表 FID 分数 (越低越好,代表生成图像质量越高)。博主认为,这个图的核心信息不是 TREAD 的速度优势,而是 DiT 的 FID 过早稳定,暗示 DiT 可能存在 「隐性架构缺陷」,导致其无法继续从数据中学习。博主提到的论文发表于今年 1 月 (3 月更新 v2),介绍了一种名为 TREAD 的新方法,该工作通过一种创新的 「令牌路由」(token routing) 机制,在不改变模型架构的情况下,极大地提升了训练效率和生成图像的质量,从而在速度和性能上都显著超越了 DiT 模型。具体而言,TREAD 在训练过程中使用 「部分令牌集」(partial token set)vs「完整令牌集」(full token set),通过预定义路由保存信息并重新引入到更深层,跳过部分计算以减少成本,同时仅用于训练阶段,推理时仍采用标准设置。这与 MaskDiT 等方法类似,但更高效。论文标题:TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training 论文地址:https://arxiv.org/abs/2501.04765 代码:https://github.com/CompVis/tread 博主在后续回复中逐步展开了对 DiT 的批判,并解释 TREAD 如何暴露这些问题。博主指出,该论文揭示了 DiT 模型的设计缺陷。具体来说,研究发现在训练过程中,如果将模型中的一部分计算单元替换为 「恒等函数」(Identity Function)——也就是让这些单元什么计算都不做,仅仅是 「直通」 数据,相当于被临时禁用了——模型的最终评估分数反而会提高。接着博主指出 DiT 的两个 「可疑」 的设计:整个架构都使用 「后层归一化」(Post-LayerNorm) 博主认为 DiT 使用了一种已知不太稳定的技术 (后层归一化),来处理一个数值范围变化极其剧烈的任务 (扩散过程)。adaLN-zero 博主认为,这个模型虽然整体上自称是 「Transformer」 架构,但在处理最关键的 「指导信息」(即条件数据) 时,并没有使用强大的 Transformer,而是用了一个非常简单的 MLP 网络 (多层感知机)。更具体地,adaLN-zero 通过完全覆盖注意力单元的输入,并注入任意偏置来覆盖输出,这限制了模型的表达能力,相当于 「讨厌注意力操作」(hate the attention operation),从而削弱了 DiT 的整体潜力。博主还提到与早期论文相关的 LayerNorm 研究,指出 LayerNorm 的偏置和增益参数可能对梯度调整影响更大,而非真正改善模型性能。他认为,adaLN-zero 正是利用了这一点,名为 「梯度调节」,实则像是在 「给小模型偷偷注入过拟合的偏置」。论文标题:Understanding and Improving Layer Normalization 论文地址:https://arxiv.org/abs/1911.07013 看了这篇帖子,DiT 的作者,纽约大学计算机科学助理教授谢赛宁有些忍不住了。在 2022 年,谢赛宁发表了 DiT 的论文,这是扩散模式首次和 Transformer 相结合。论文标题:Scalable Diffusion Models with Transformers 论文链接:https://arxiv.org/pdf/2212.09748 在 DiT 问世之后,Transformer 逐步代替原始扩散模型中的 U-Net,在图像和视频生成任务中生成高质量的结果。其核心思想是采用 Transformer 代替传统的卷积神经网络作为扩散模型的主干网络。这一方法业已成为 Sora 和 Stable Diffusion 3 的基础架构,同时也确定了 DiT 的学术地位。在 DiT 论文刚刚问世时,就已接连受到质疑,甚至以 「缺乏创新」 为由被 CVPR 2023 拒稿。这一次面对 DiT 在数学和形式上都 「是错的」 的论调,谢赛宁发推做出了几点回应。从字里行间来看,谢赛宁对这个帖子多少有些情绪:我知道原帖是在钓鱼骗点击率,但我还是咬一下钩……坦白讲,每个研究者的梦想其实就是发现自己的架构是错的。如果它永远都没问题,那才是真正的大问题。我们每天都在用 SiT、REPA、REPA-E 等方法试图打破 DiT,但这需要基于假设、做实验、进行验证,而不是只在脑子里扮演式地做科学……否则,你得出的结论不仅仅是错的,而是根本连错都谈不上。也难怪谢赛宁语气有些不善,原帖博主的一些说法可能有些拱火的嫌疑:谢赛宁也从技术角度对于原帖子提出的一些问题进行了回复,在对原帖的部分问题进行了反驳后,他也同样说明了 DiT 架构目前存在一些硬伤。截至今天,DiT 的问题:tread 更接近于 stochastic depth,我认为它的收敛性来自正则化效应,这让表示能力更强 (注意推理过程是标准的——所有模块都会处理所有 token);这是非常有意思的工作,但和原帖说的完全不是一回事。Lightning DiT 已经是经过验证的稳健升级版 (结合了 swiglu、rmsnorm、rope、patch size=1),有条件就应该优先使用它。没有任何证据表明 post-norm 会带来负面影响。过去一年最大的改进点在于内部表示学习:最早是 REPA,但现在有很多方法 (例如 tokenizer 层面的修正:VA-VAE/REPA-E,把语义 token 拼接进噪声潜变量、解耦式架构如 DDT,或者通过分散损失、自表示对齐等正则化手段)。始终优先采用随机插值/流匹配 (SiT 在这里应该是基线)。对于时间嵌入,使用 AdaLN-zero;但遇到更复杂的分布 (如文本嵌入) 时,应采用交叉注意力。不过要用对方式——采用 PixArt 风格的共享 AdaLN,否则会白白浪费 30% 的参数。真正的 「硬伤」 其实是 DiT 里的 sd-vae:这是显而易见却长期被忽视的问题——它臃肿低效 (处理 256×256 图像竟需要 445.87 GFlops?)、不是端到端的。像 VA-VAE 和 REPA-E 只是部分修复,更多进展还在路上。评论网友也对回应中提到的技术细节感兴趣,谢赛宁也都对相关疑惑做出了回复:算法的迭代进步总是伴随着对现有算法的质疑,虽说所谓 「不破不立」,但 DiT 仍然在擂台中央,不是么?

Scan

禾湖财经

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

牧原股份上半年净利润同比增1169.77% 拟合计分红50.02亿元

牧原股份上半年净利润同比增 1169.77% 拟合计分红 50.02 亿元

2025 年 8 月 21 日
辛巴又要退网,但谁来收拾他留下的「烂摊子」?

辛巴又要退网,但谁来收拾他留下的 「烂摊子」?

2025 年 8 月 21 日
难逃组装厂命运?AI服务器厂「艰难求生」 业内称显卡租赁价格较年初高点「腰斩」

水贝黄金价格今天多少一克 (2025 年 08 月 19 日)

2025 年 8 月 21 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

OR

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录