a16z：新时代的“皮克斯”，AI 将如何融合电影与游戏？|币安官网平台

下个世纪的皮克斯不会通过传统的电影或动画诞生，而是通过互动视频。

作者：Jonathan Lai

编译：深潮TechFlow

在过去的一个世纪中,技术变革催生了许多我们最喜爱的故事。以1930年代为例,迪士尼发明了多平面摄影机，并首次制作了声音同步的全彩动画。这项技术突破促成了开创性动画电影《白雪公主和七个小矮人》的诞生。"

在 1940 年代，漫威和 DC 漫画崛起，被誉为“漫画的黄金时代”，这得益于四色旋转印刷机和胶印技术的广泛应用，使漫画得以大规模印刷。该技术的局限性——低分辨率、有限的色调范围、在廉价新闻纸上的点阵印刷——形成了我们今天仍能识别的标志性“纸浆”外观。

同样，皮克斯在 1980 年代也处于独特的地位，可以利用新技术平台——计算机和 3D 图形。联合创始人埃德温·卡特穆尔 (Edwin Catmull) 是 NYIT 计算机图形实验室和卢卡斯影业的早期研究人员，开辟了基础 CGI 概念，后来推出了第一部完全由计算机生成的动画长片《玩具总动员》。皮克斯的图形渲染套件 Renderman 至今已应用于超过 500 部电影。

在每一波技术浪潮中，最初作为新奇事物的早期原型逐步演变为深度叙事的新格式，由一代又一代的新创作者引领。今天，我们相信下一个皮克斯即将诞生。生成式人工智能 (Generative AI) 正在推动创意叙事的根本性转变，使新一代人类创作者能够以全新的方式讲述故事。

具体而言，我们认为下个世纪的皮克斯不会通过传统的电影或动画诞生，而是通过互动视频。这种新的叙事格式将会模糊视频游戏与电视/电影之间的界限——将深度叙事与观众的主动性和“游戏”融合，开启一个巨大的新市场。

游戏：现代叙事的前沿

今天有两个主要浪潮正在涌现，这可能加速新一代叙事公司的形成：

消费者向互动媒体（而不是线性/被动媒体，即电视/电影）的转变

由生成式人工智能驱动的技术进步

在过去的 30 年中，我们看到消费者的转变持续加深，游戏和互动媒体在每一代人中变得越来越受欢迎。对于 Z 世代及更年轻一代，游戏现在是他们花费闲暇时间的首选，胜过了电视和电影。2019 年，Netflix 首席执行官里德·哈斯廷斯曾在一封给股东的信中表示：“我们与 Fortnite 的竞争（并且常常输给它）超过了 HBO。”对于大多数家庭来说，问题是“我们在玩什么”而非“我们在看什么”。

尽管电视、电影和书籍仍然讲述引人入胜的故事，但许多最具创新性和成功的新故事如今正是在游戏中讲述的。比如《哈利·波特》。开放世界角色扮演游戏《霍格沃茨的遗产》让玩家体验成为霍格沃茨新生的沉浸感，前所未有。这款游戏是 2023 年的畅销作品，上市时收入超过 10 亿美元，票房超越了除最后一部《哈利·波特：死亡圣器（下）》外的所有《哈利·波特》电影（10.3 亿美元）。

游戏知识产权（IP）最近在电视和电影改编中也取得了巨大成功。顽皮狗的《最后的生还者》在 2023 年成为 HBO Max 收视率最高的剧集，每集平均有 3200 万观众。《超级马里奥兄弟》电影以 14 亿美元的票房创造了动画电影全球首个周末的最大开局。此外，还有备受好评的《辐射》剧集、派拉蒙的《光环》剧集、汤姆·霍兰德的《古墓丽影》电影、迈克尔·贝的《Skibidi Toilet》电影——还有很多。

互动媒体如此强大的一个关键原因是，积极参与有助于建立对故事或宇宙的亲密感。玩游戏一小时的注意力远胜于被动看电视一小时。许多游戏也具有社交性，核心设计中融入了多人机制。最令人难忘的故事往往是我们与亲友共同创作和分享的。

观众在多个媒介（观看、游戏、创作、分享）中与知识产权持续互动,这使得故事不仅仅成为娱乐，还成为个人身份的一部分。神奇的转变发生在一个人从单纯的"《哈利·波特》观众"成长为"忠实的波特迷"时，后者更具持久性，围绕曾是单人活动的内容建立身份和多人社区。

总的来说，尽管我们历史上最伟大的故事是在线性媒体中讲述的，但展望未来，游戏和互动媒体将成为未来故事的讲述之地——因此我们相信下一个世纪最重要的叙事公司将会在这里诞生。

互动视频：叙事与游戏的结合

鉴于游戏在文化中的主导地位，我们相信下一个皮克斯将通过一种将叙事与游戏结合的媒体格式出现。我们看到的一种潜力巨大的格式是互动视频。

首先，什么是互动视频，它与视频游戏有什么不同？在视频游戏中，开发者将一组资源预先加载到游戏引擎中。例如，在《超级马里奥兄弟》中，艺术家设计了马里奥角色、树木和背景。程序员设定马里奥在玩家按下“A”按钮后跳跃 50 像素。跳跃帧利用传统的图形管线渲染。这导致游戏架构高度确定性和计算性，开发者完全控制。

而互动视频则是完全依赖神经网络实时生成帧。除了创意提示（可以是文本或代表性图像）外，不需要上传或创建任何资源。实时 AI 图像模型接收玩家输入（例如“上”按钮），并概率性地推测下一个生成的游戏帧。

互动视频的前景在于将电视和电影的可及性与叙事深度融合，同时结合视频游戏的动态、玩家驱动的系统。每个人都知道如何观看电视并跟随线性故事。通过增加基于玩家输入实时生成的视频，我们可以创造个性化和无限的游戏体验——这可能使媒体作品能够吸引粉丝数千小时。暴雪的《魔兽世界》已经超过 20 年，今天仍然保留着约 700 万的订阅用户。

互动视频还提供多种消费方式——观众可以像观看电视节目一样轻松享受内容，也可以在其他时候主动在移动设备或手柄上进行游戏。让粉丝以尽可能多的方式体验他们最喜欢的知识产权宇宙是跨媒体叙事的核心，这有助于增强对知识产权的亲密感。

在过去十年中，许多叙事者尝试实现互动视频的愿景。一个早期的突破是 Telltale 的《行尸走肉》——这是一个基于罗伯特·柯克曼的漫画系列的互动体验，玩家观看动画场景的展开，但在关键时刻通过对话和快速反应事件做出选择。这些选择——例如决定在僵尸袭击中拯救哪个角色——创造了个性化的故事变体，使每次游戏体验都与众不同。《行尸走肉》于 2012 年推出，取得了巨大的成功——获得了多个年度游戏奖，并至今销量超过 2800 万份。

2017 年，Netflix 也进入互动视频领域——从动画作品《猫咪书籍》开始，最终发布了备受好评的《黑镜：潘达斯奈奇》，这是一部真人电影，观众为一位年轻程序员在改编幻想书籍为视频游戏的过程中做出选择。潘达斯奈奇成为假日现象，吸引了一批狂热粉丝，他们制作流程图以记录电影的每一个可能结局。

然而，尽管获得了积极评价，潘达斯奈奇和《行尸走肉》都面临着生存危机——手动创建定义该格式的无数分支故事的时间和成本都过于昂贵。随着 Telltale 扩展到多个项目，他们在开发者中建立了加班文化，开发者抱怨“疲劳和被烧尽”。叙事质量受到影响——虽然《行尸走肉》起初的 Metacritic 评分是 89，但四年后 Telltale 发布他们最大的 IP 之一《蝙蝠侠》时却只获得了不尽如人意的 64 分。2018 年，Telltale 宣布破产，未能建立可持续的商业模式。

对于《潘达斯奈奇》，剧组拍摄了 250 个视频片段，包括 5 个多小时的镜头，以解释电影的 5 个结局。预算和制作时间据报道是标准《黑镜》剧集的两倍，节目制作人表示项目的复杂性相当于“同时制作 4 集”。最终在 2024 年，Netflix 决定关闭整个互动特别节目部门——转而制作传统游戏。

直到现在，互动视频项目的内容成本与游戏时间呈线性关系——没有办法绕过这个问题。然而，生成式人工智能模型的进步可能是推动互动视频规模化的关键。

生成模型将很快足够快以支持互动视频

最近在图像生成模型蒸馏方面的进展令人惊叹。在 2023 年，潜在一致性模型和 SDXL Turbo 的发布显著提升了图像生成的速度和效率，使得高分辨率渲染只需一步，而以前需要 20-30 步，成本也降低了超过 30 倍。生成视频的想法——一系列具有帧间变化的一致图像——突然变得极具可行性。

今年早些时候，OpenAI 引起了广泛关注，宣布推出 Sora，这是一个文本到视频模型，可以生成最长 1 分钟的视频，同时确保视觉一致性。没过多久，Luma AI 发布了速度更快的视频模型 Dream Machine，能够在 120 秒内生成 120 帧（约 5 秒的视频）。Luma 最近分享他们在短短 7 周内吸引了惊人的 1000 万用户。上个月，Hedra Labs 发布了 Character-1，这是一个以角色为重点的多模态视频模型，可以在 90 秒内生成 60 秒的视频，展现表现丰富的人类情感和配音。而 Runway 最近推出了 Gen-3 Turbo，一个可以在仅 15 秒内渲染出 10 秒片段的模型。

今天，一位有抱负的电影制作人可以快速从文本提示或参考图像生成几分钟的 720p 高清视频内容，并可以与起始或结束关键帧配对以增加具体性。Runway 还开发了一套编辑工具，提供对扩散生成的视频进行更精细控制，包括帧内摄像机控制、帧插值和运动画笔。Luma 和 Hedra 也将在不久后推出各自的创作者工具套件。

尽管制作工作流程仍处于早期阶段，但我们已经遇到了几位内容创作者，他们正在使用这些工具讲述故事。Resemblance AI 创建了 Nexus 1945，这是一个引人注目的 3 分钟的二战替代历史故事，由 Luma、Midjourney 和 Eleven Labs 制作。独立电影制作人 Uncanny Harry 与 Hedra 一起创作了一部赛博朋克短片，创作者们还制作了音乐视频、预告片、旅行视频博客，甚至快餐汉堡广告。自 2022 年以来， Runway 每年都会举办人工智能电影节，评选出 10 部优秀的 AI 制作短片。

需要特别指出的是，当前仍存在一些局限性——由提示生成的 2 分钟片段与由专业团队制作的 2 小时长片之间在叙事质量和控制方面仍存在明显差距。根据提示或图像生成创作者所想要的内容往往很困难，即使是经验丰富的提示工程师通常也会放弃大部分生成的内容。AI 创作者 Abel Art 报告称，生成 1 分钟连贯视频需要约 500 个视频。图像一致性通常在连续视频播放一两分钟后开始失效，并且通常需要手动编辑，这就是为什么今天大多数生成视频的时长限制在约 1 分钟的原因。

对于大多数专业好莱坞制片厂来说，扩散模型生成的视频可以用于前期制作中的故事板，以可视化场景或角色的样子，但并不能取代现场拍摄。在后期制作中也有机会使用 AI 进行音频和视觉效果处理，但总体而言，AI 创作者工具套件与已经经历了数十年投资的传统工作流程相比，仍然处于早期发展阶段。

在短期内，生成视频最大的机会之一在于发展新的媒体格式，如互动视频和短片。互动视频已经被分割成短的 1-2 分钟片段，根据玩家的选择，并且通常是动画或风格化的，可以使用较低分辨率的素材。更重要的是，通过扩散模型创建这些短视频的成本比 Telltale / Bandersnatch 时期更具性价比——Abel Art 估计来自 Luma 的 1 分钟视频成本为 125 美元，相当于租用一天的电影镜头的费用。

尽管今天生成视频的质量可能不一致，但像 ReelShort 和 DramaBox这样的垂直短视频的流行已经证明观众对低制作价值的剧集短片电视的需求。尽管评论家抱怨摄影业余且剧本公式化，ReelShort 仍然推动了超过 3000 万次下载和每月收入超过 1000 万美元，推出了成千上万部迷你系列，如《禁忌欲望：阿尔法的爱》。

互动视频面临的最大技术障碍是达到足够快的帧生成速度，以便实时生成内容。Dream Machine 目前每秒生成约 1 帧。现代游戏主机的最低可接受目标是稳定的 30 FPS，而 60 FPS 则是黄金标准。在 PAB 等技术的帮助下，这在某些视频类型上可以提高到 10-20 FPS，但仍然速度不足。

现状：互动视频的格局

考虑到我们看到的基础硬件和模型的改进速度，我们估计距离商业上可行的完全生成的互动视频还有大约 2 年的距离。

今天，我们看到微软研究和 OpenAI 等参与者在研究领域取得了进展，致力于互动视频的端到端的基础模型。微软的模型旨在生成完全“可玩世界”的三维环境。OpenAI 展示了 Sora 的一个演示，该模型能够进行“零样本”的 Minecraft 模拟：“Sora 可以同时控制 Minecraft 中玩家的行动，高保真度地渲染世界及其动态。”

在 2024 年 2 月，Google DeepMind 发布了其自己的端到端互动视频基础模型 Genie。Genie 的独特之处在于其潜在动作模型，该模型推断一对视频帧之间的潜在动作。通过 30 万小时的平台视频的训练，Genie 学会了识别角色动作，例如如何越过障碍物。这个潜在动作模型与视频分词器相结合，输入到动态模型中，该模型预测下一个帧，从而构建出一个互动视频。

在应用层面，我们已经看到一些团队在探索新型互动视频体验。许多公司正在致力于制作生成型电影或电视节目，围绕当前模型的局限性进行设计和开发。我们还看到一些团队在 AI 原生游戏引擎中加入视频元素。

Ilumine 的 Latens 正在开发一个“清醒梦模拟器”，用户在梦境中行走时实时生成画面内容。这种轻微的延迟有助于营造超现实的体验。开放源代码社区 Deforum 的开发者正在创建沉浸式互动视频的现实世界的装置。Dynamic 正在开发一个模拟引擎，用户可以以第一人称视角控制机器人，使用完全生成的视频。

在电视和电影领域，Fable Studio 正在开发 Showrunner，这是一个 AI 流媒体服务，允许粉丝改编自己版本的热门节目。Fable 的概念验证项目《南方公园 AI》去年夏天首播时获得了 800 万次观看量。Solo Twin 和 Uncanny Harry 是两个位于前沿的 AI 电影制作工作室。Alterverse 创建了一个受 D&D 启发的互动视频角色扮演游戏，社区决定接下来会发生什么。Late Night Labs 是一个新的顶级电影制作公司，将 AI 集成到创作过程中。Odyssey 正在开发一个由 4 个生成模型驱动的视觉叙事平台。

随着电影和游戏之间的界限模糊，我们将会出现 AI 原生游戏引擎和工具，为创作者赋予更多控制权。 Series AI 开发了 Rho Engine，这是一个用于 AI 游戏开发的端到端平台，并利用其平台与主要知识产权持有者共同开发原创作品。我们还看到 Rosebud AI、Astrocade 和 Videogame AI 推出的 AI 创作套件，让新手编程或艺术的人能够迅速入门制作互动体验。

这些新的 AI 创作套件将为讲故事创造市场机会，使新一类公民创作者能够利用提示工程、视觉草图和语音识别将他们的想象力付诸实践。

谁将打造互动版皮克斯？

皮克斯能够利用计算机和 3D 图形的基础技术变革来创建一个标志性的公司。如今，在生成 AI 领域也正在经历类似的浪潮。然而，重要的是要记住，皮克斯的成功在很大程度上归功于《玩具总动员》及由约翰·拉塞特领导的世界级故事团队创作的经典动画电影。人类创造力结合新技术，创造出了最优秀的故事。

同样，我们相信下一个皮克斯将需要成为一个世界级的互动故事工作室以及一家顶尖的科技公司。鉴于 AI 研究迅速发展，创意团队需要与 AI 团队密切合作，融合叙事和游戏设计与技术创新。皮克斯拥有一个独特的团队，融合了艺术与技术，并与迪士尼建立了合作关系。今天的机会在于一个新团队能够将游戏、电影和 AI 的学科融合在一起。

需要明确的是，这将是一个巨大的挑战，而不仅仅受限于技术。这个团队需要探索新的方式，让人类讲故事者与 AI 工具合作工作，以增强而非削弱他们的想象力。此外，还有许多法律和伦理障碍亟待解决——除非创作者能证明对用于训练模型的所有数据的拥有权，否则 AI 生成的创意作品的法律所有权和版权保护依然不清晰。训练数据背后原始作家、艺术家和制作人的补偿问题也亟待解决。

然而，今天也很明确的是，对新互动体验的需求非常旺盛。从长远来看，下一个皮克斯不仅可以创造互动故事，还可以构建完整的虚拟世界。我们之前探讨过无尽游戏的潜力——动态世界融合实时关卡生成、个性化叙事和智能代理——类似于 HBO 的《西部世界》构想。互动视频解决了将《西部世界》变为现实的最大挑战之一——快速生成大量个性化、高质量的互动内容。

有一天，借助 AI 的帮助，我们可能会通过构建一个故事世界来开启创作过程——一个我们设想完全形成的知识产权世界，包含角色、叙事线、视觉等——然后生成我们希望为观众或特定情境提供的各种媒体产品。这将是跨媒体叙事的最终发展，完全模糊传统媒体形式的界限。

皮克斯、迪士尼和漫威都能够创造出难以忘怀的世界，这些世界成为了粉丝身份的核心部分。下一个互动皮克斯的机会在于利用生成性 AI 达到相同的目标——创造新的故事世界，模糊传统叙事格式的界限，从而创造出前所未见的世界。