卓游屋

Sora到底懂不懂物理世界?AI视频生成相关资讯一览

2024-2-20   小编:lb

部分研究者同意这样的观点,但也有不少人反对。

Yann LeCun:生成视频的过程与基于世界模型的因果预测完全不同

图灵奖得主 Yann LeCun 率先亮明观点。在他看来,仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。

他接着讲到,模型生成逼真视频的空间非常大,视频生成系统只需要产生一个合理的示例就算成功。不过对于一个真实视频而言,其合理的后续延续空间却非常小,生成这些延续的代表性片段,特别是在特定行动条件下,任务难度更大。此外生成视频的后续内容不仅成本高昂,实际上也毫无意义。

因此,Yann LeCun 认为,更理想的做法是生成视频后续内容的抽象表达,并消除与我们可能所采取动作无关的场景中的细节。

当然,他借此又 PR 了一波 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构),认为上述做法正是它的核心思想。JEPA 不是生成式的,而是在表示空间中进行预测。与重建像素的生成式架构(如变分自编码器)、掩码自编码器、去噪自编码器相比,联合嵌入架构(如 Meta 前几天推出的 AI 视频模型 V-JEPA)可以产生更优秀的视觉输入表达。

Sora到底懂不懂物理世界?AI视频生成相关资讯一览图片4

François Chollet:只让 AI 看视频学不成世界模型

Keras 之父 François Chollet 则阐述了更细致的观点。他认为,像 Sora 这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?

Sora到底懂不懂物理世界?AI视频生成相关资讯一览图片5

Chollet 强调,这些问题至关重要,因为它们决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作现实世界的可靠模拟。

Sora到底懂不懂物理世界?AI视频生成相关资讯一览图片6

Chollet 通过海盗船在咖啡杯中缠斗的例子,讨论了模型能否准确反映水的行为等物理现象,或者仅仅是创造了一种幻想拼贴。这里,他指出模型目前更倾向于后者,即依赖于数据插值和潜空间拼贴来生成图像,而不是真实的物理模拟。有人将这种行为类比为人类做梦,认为 Sora 其实只是达到了人类做梦的水平,但是逻辑能力依然不行。

Sora到底懂不懂物理世界?AI视频生成相关资讯一览图片7

Sora 生成的人类考古视频,椅子在画面中凭空出现,而且不受重力影响漂浮在空中。

Chollet 指出,通过机器学习模型拟合大量数据点后形成的高维曲线(大曲线)在预测物理世界方面是存在局限的。在特定条件下,大数据驱动的模型能够有效捕捉和模拟现实世界的某些复杂动态,比如预测天气、模拟风洞实验等。但这种方法在理解和泛化到新情况时存在局限。模型的预测能力依赖于其训练数据的范围和质量,对于那些超出训练数据分布的新情况,模型可能无法准确预测。

Sora到底懂不懂物理世界?AI视频生成相关资讯一览图片8

Sora到底懂不懂物理世界?AI视频生成相关资讯一览图片9

最新游戏

火爆手游

推荐下载

相关游戏

相关文章

Sora到底懂不懂物理世界?AI视频生成相关资讯一览[多图] sora是什么? sora软件概率意思详解[多图] OpenAI Sora怎么用?OpenAI Sora使用方法一览[多图] OpenAI Sora在线使用入口 OpenAI文生图模型Sora免费下载地址分享[多图] openai sora怎么安装 openai sora软件安装教程分享[多图]

网友评论

    加载更多
    回复 [1楼 ]取消回复