总部位于伦敦的人工智能实验室 Odyssey 发布了一项研究预览,旨在将视频转化为交互式世界。Odyssey 团队最初专注于电影和游戏制作的世界模型,如今却意外发现了一种潜在的全新娱乐媒介。
Odyssey 的 AI 模型生成的交互式视频能够实时响应输入。您可以使用键盘、手机、控制器,甚至语音命令与其进行交互。Odyssey 的员工将其称为“Holodeck 的早期版本”。
底层人工智能每 40 毫秒就能生成逼真的视频帧。这意味着,当你按下按钮或做出手势时,视频几乎会立即做出响应,营造出你正在影响这个数字世界的幻觉。
奥德赛表示:“今天的体验就像探索一个充满故障的梦境——原始、不稳定,但无疑是全新的。” 我们这里谈论的并非精致的 3A 游戏级视觉效果,至少目前还不是。
不是您的标准视频技术
让我们先来聊聊技术层面的问题。这种人工智能生成的交互式视频技术与标准视频游戏或 CGI 有何不同?这一切都源于 Odyssey 所谓的“世界模型”。
与一次性生成整个片段的传统视频模型不同,世界模型会逐帧工作,根据当前状态和用户输入预测接下来的内容。这类似于大型语言模型预测序列中下一个单词的方式,但复杂程度要高得多,因为我们讨论的是高分辨率视频帧,而不是单词。
正如 Odyssey 所说,“世界模型的核心是一个以动作为条件的动态模型”。每次你互动时,该模型都会获取当前状态、你的动作以及发生事件的历史记录,然后据此生成下一帧视频。
最终的结果比传统游戏更加自然流畅,也更加难以预测。游戏中没有预先设定的逻辑,比如“如果玩家做了 X,那么 Y 就会发生”——相反,AI 会根据观看无数视频所积累的经验,对接下来会发生什么做出最佳猜测。
Odyssey 利用 AI 生成的视频应对历史性挑战
构建这样的系统并非易事。AI 生成的交互式视频面临的最大挑战之一是如何保持其长期稳定性。当你根据前一帧生成每一帧时,小错误可能会迅速累积(AI 研究人员将这种现象称为“漂移”)。
为了解决这个问题,Odyssey 采用了他们所谓的“窄分布模型”——本质上是用通用视频片段对 AI 进行预训练,然后在更小的环境中进行微调。这种权衡意味着多样性减少,但稳定性更高,因此不会出现混乱的情况。
该公司表示,他们已经在下一代模型上取得了“快速进展”,该模型显然展现出“更丰富的像素、动态和动作”。
实时运行所有这些尖端的人工智能技术并不便宜。目前,支持这种体验的基础设施成本在每用户每小时 0.80 至 1.60 英镑(1-2 个用户)之间,依赖于分布在美国和欧盟各地的 H100 GPU 集群。
对于流媒体视频来说,这听起来可能很贵,但与制作传统游戏或电影内容相比,这已经非常便宜了。Odyssey 预计,随着模型效率的提高,这些成本将进一步下降。
互动视频:下一个讲故事的媒介?
纵观历史,新技术催生了新的叙事形式——从洞穴壁画到书籍、摄影、广播、电影和电子游戏。Odyssey 认为,AI 生成的交互式视频是这一变革的下一步。
如果他们是对的,我们或许正在目睹某种东西的雏形,它将彻底改变娱乐、教育、广告等领域。想象一下,通过培训视频,你可以练习所学的技能;又或者,通过旅行体验,你可以坐在沙发上探索目的地。
目前的研究预览显然只是朝着这一愿景迈出的一小步,与其说是最终产品,不如说是概念验证。然而,当人工智能生成的世界成为互动游乐场而非仅仅是被动体验时,它却能带来令人着迷的前景。