AI魔法学院客服
训练魔法
Sora物理悖谬的几何解释
本文分析了Sora视频生成模型的技术路线和缺陷。Sora声称是“作为世界模拟的视频生成模型”,但其技术路线无法正确模拟世界的物理规律。文章指出,Sora存在以下几个问题: 1. 用概率统计的相关性无法精确表达物理定律的因果性。虽然Sora将视频分解成时空令牌并学习它们之间的连接概率,但这种相关性无法精确表达物理定律的因果性。因此,在生成视频时,Sora无法准确模拟物理过程的因果关系,导致生成的视频在某些情况下出现悖谬。 2. Sora缺乏全局观念。虽然Transformer可以学习临近时空令牌间的连接概率,但无法判断全局的合理性。这导致Sora生成的视频在局部上可能很合理,但在整体上却可能出现荒谬的情况。文章指出,这种全局观念可能来自于物理中的重力场、人体工程学或生物学等深层次的自然科学和人文科学背景,而目前的Transformer还无法真正悟出这些全局观点。 3. Sora忽略了物理过程中最为关键的临界(灾变)态。由于临界态样本的稀缺以及扩散模型将稳恒态数据流形的边界模糊化,Sora无法生成临界态的视频。这导致Sora生成的视频在某些情况下出现稳恒态之间的跳跃,而缺乏物理过程中最为关键的临界态。文章提出,基于几何方法的最优传输理论框架可以精确检测到稳恒态数据流形的边界,从而强调了临界态事件的生成,避免了不同稳恒态之间的横跳。 综上所述,虽然Sora在视频生成方面取得了一定的成果,但其技术路线存在缺陷,无法精确模拟物理规律。文章呼吁年轻的读者们积极投身于这个伟大的转折点,用自己的聪明才智推动科技与社会的发展。同时,文章也提出了基于几何方法的最优传输理论框架作为一种可能的解决方案,以克服Sora等数据驱动世界模拟模型的缺陷。