Odyssey的AI模型可以将视频转化为互动世界

总部位于伦敦的人工智能实验室 Odyssey 发布了一项研究预览，旨在将视频转化为交互式世界。Odyssey 团队最初专注于电影和游戏制作的世界模型，如今却意外发现了一种潜在的全新娱乐媒介。

Odyssey 的 AI 模型生成的交互式视频能够实时响应输入。您可以使用键盘、手机、控制器，甚至语音命令与其进行交互。Odyssey 的员工将其称为“Holodeck 的早期版本”。

底层人工智能每 40 毫秒就能生成逼真的视频帧。这意味着，当你按下按钮或做出手势时，视频几乎会立即做出响应，营造出你正在影响这个数字世界的幻觉。

奥德赛表示：“今天的体验就像探索一个充满故障的梦境——原始、不稳定，但无疑是全新的。” 我们这里谈论的并非精致的 3A 游戏级视觉效果，至少目前还不是。

让我们先来聊聊技术层面的问题。这种人工智能生成的交互式视频技术与标准视频游戏或 CGI 有何不同？这一切都源于 Odyssey 所谓的“世界模型”。

与一次性生成整个片段的传统视频模型不同，世界模型会逐帧工作，根据当前状态和用户输入预测接下来的内容。这类似于大型语言模型预测序列中下一个单词的方式，但复杂程度要高得多，因为我们讨论的是高分辨率视频帧，而不是单词。

正如 Odyssey 所说，“世界模型的核心是一个以动作为条件的动态模型”。每次你互动时，该模型都会获取当前状态、你的动作以及发生事件的历史记录，然后据此生成下一帧视频。

最终的结果比传统游戏更加自然流畅，也更加难以预测。游戏中没有预先设定的逻辑，比如“如果玩家做了 X，那么 Y 就会发生”——相反，AI 会根据观看无数视频所积累的经验，对接下来会发生什么做出最佳猜测。

构建这样的系统并非易事。AI 生成的交互式视频面临的最大挑战之一是如何保持其长期稳定性。当你根据前一帧生成每一帧时，小错误可能会迅速累积（AI 研究人员将这种现象称为“漂移”）。

为了解决这个问题，Odyssey 采用了他们所谓的“窄分布模型”——本质上是用通用视频片段对 AI 进行预训练，然后在更小的环境中进行微调。这种权衡意味着多样性减少，但稳定性更高，因此不会出现混乱的情况。

该公司表示，他们已经在下一代模型上取得了“快速进展”，该模型显然展现出“更丰富的像素、动态和动作”。

实时运行所有这些尖端的人工智能技术并不便宜。目前，支持这种体验的基础设施成本在每用户每小时 0.80 至 1.60 英镑（1-2 个用户）之间，依赖于分布在美国和欧盟各地的 H100 GPU 集群。

对于流媒体视频来说，这听起来可能很贵，但与制作传统游戏或电影内容相比，这已经非常便宜了。Odyssey 预计，随着模型效率的提高，这些成本将进一步下降。

纵观历史，新技术催生了新的叙事形式——从洞穴壁画到书籍、摄影、广播、电影和电子游戏。Odyssey 认为，AI 生成的交互式视频是这一变革的下一步。

如果他们是对的，我们或许正在目睹某种东西的雏形，它将彻底改变娱乐、教育、广告等领域。想象一下，通过培训视频，你可以练习所学的技能；又或者，通过旅行体验，你可以坐在沙发上探索目的地。

目前的研究预览显然只是朝着这一愿景迈出的一小步，与其说是最终产品，不如说是概念验证。然而，当人工智能生成的世界成为互动游乐场而非仅仅是被动体验时，它却能带来令人着迷的前景。