魔鸽动态-OpenAI请了7个艺术家，给我们秀了一下Sora能达到什么水平 - 上海魔鸽数据

OpenAI请了7个艺术家，给我们秀了一下Sora能达到什么水平

2024-03-28 | 魔鸽运营组

OpenAI在官方声明中提到，尽管Sora仍有诸多方面有待完善，但他们已经目睹了这个模型如何神奇地将创意人员的构想转化为生动逼真的现实画面。

以下是部分艺术家精心创作的作品，以及他们对于Sora如何融入他们的工作流程和业务模式的初步见解。

1.《气球头》，Shy kids

总部位于加拿大多伦多的Shy kids是一家多媒体制作公司，他们借助Sora成功制作了一部关于气球人的短片。这部短片由沃尔特·伍德曼（Walter Woodman）、西德尼·利德尔（Sidney Leeder）以及帕特里克·塞德伯格（Patrick Cederberg）三位创作者联手完成

谈及这次创作体验，充当导演的伍德曼说：“Sora在创造看似真实的事物方面表现出色，但更让我们激动的是它创造完全超现实内容的能力。这无疑是抽象表现主义的新纪元。” 对于整个行业而言，伍德曼也寄予了厚望：“来自世界各地的人们，他们的故事已经准备就绪，现在终于有了向世界展示他们内心世界的绝佳机会。”

2.保罗·特里罗（Paul Trillo），导演

特里罗是一位多才多艺的艺术家、作家及导演，其作品赢得了《滚石》与《纽约客》等权威媒体的赞誉。他的作品已经19次被列入Vimeo员工精选，这是对他在Vimeo平台上制作的最优秀短片的高度认可。

谈及Sora对他的影响，特里罗说：“使用Sora，我第一次感受到了作为电影制作人的无限自由。它让我摆脱了时间、金钱以及他人许可的束缚，使我得以大胆创新，以前所未有的方式进行构想和实验。”他的实验视频正是这一创作理念的生动体现，他称：“当你不再局限于复制旧有的事物，而是能够借助Sora将我们从未有机会一窥的崭新、超乎想象的理念变为现实时，那种力量是最震撼人心的。”

3.尼克·克莱维洛夫（Nik Kleverov），Native Foreign的创意总监

Native Foreign是一家坐落于加州洛杉矶的创意公司，通过专注于品牌叙事、动作和标题设计，以及领先的生成式人工智能工作流程，荣获了艾美奖的提名。作为公司的联合创始人兼创意总监，克莱维洛夫巧妙地运用Sora这一工具，“将抽象的概念具象化，为品牌合作伙伴迅速迭代创意”，从而打破了传统预算限制对创意叙事的束缚。

克莱维洛夫分享了他的使用体验：“我习惯于在行动中思考，而当我使用Sora时，我真切地感受到了将任何奇思妙想转化为现实的无限可能。”

4.奥古斯特·坎普（August Kamp），艺术家、音乐家

坎普是一位音乐家、研究员、创意活动家和多学科艺术家，他对于Sora的评价充满了激动与期待。

她解释道：“Sora对我来说，无疑是一个里程碑式的转折点。作为艺术家，我长久以来都受到想象力和创作手段的束缚，视野难以拓展。然而，Sora让我能够直观地构建并迭代电影视觉效果，为我开启了一条崭新的艺术道路。现在，我迫不及待地想要一睹这些工具在未来会催生出怎样丰富多彩、别具一格的故事形式。”

5.约瑟芬·米勒（Josephine Miller），创意总监

米勒是伦敦Oraar工作室的联合创始人兼创意总监，专注于3D视觉、增强现实和数字时尚的设计。

米勒说：“Sora真正挖掘出了我多年积累的想法的潜力，这些想法在过去由于技术限制一直未能实现。它让我能够以惊人的高质量迅速构思游戏，这不仅对我的创作过程构成了新的挑战，更帮助我在叙事技巧上取得了显著的进步。如今，我能够在更少的技术束缚下，将想象力转化为现实。”

6.唐·艾伦·史蒂文森三世（Don Allen Stevenson III），数字AR/XR艺术家

唐·艾伦·史蒂文森三世是一位才华横溢的创作者、演讲家及顾问，其职业生涯起始于梦工厂动画。他跨越多个领域，与众多科技和娱乐公司紧密合作，深入探索混合现实（MR）、虚拟现实（VR）以及人工智能的应用。他说：“很长一段时间以来，我一直在制作增强现实混合生物，这些生物是我脑海中极富创意的组合。而现在，Sora的出现为我提供了更为简便的原型制作方法，使我能够轻松地将3D角色完全构建于空间计算机之中。”

唐·艾伦·史蒂文森三世对Sora的“怪异”特性尤为赞赏，认为这是其最大的优势所在。他解释道：“Sora不受传统物理定律或思维模式的束缚，这使得我在与其合作时，能够将注意力从繁琐的技术障碍中解脱出来，转而专注于纯粹的创造力。Sora为我打开了一个即时可视化和快速生成原型的世界，让我能够将更多的时间和精力集中在真正重要的地方，即塑造角色所期望的情感影响。”

7.亚历山大·雷本（Alex Reben），雕塑家、艺术家、OpenAI的驻地艺术家

雷本是一位在艺术领域耕耘了十年的艺术家，始终在以其独特的视角探索人工智能中人性的幽默与荒谬。他致力于将人工智能生成的图像转化为现实世界中的3D雕塑，通过手工的方式让这些虚拟创作得以实体化。

谈及Sora的使用经验，雷本表示：“Sora为我提供了一个全新的起点，让我能够更深入地开发3D雕塑。在这一过程中，我的思考逐渐转向了摄影测量领域，以及它在雕塑制作中的潜在应用。特别是将视频转换为3D模型的前景，让我倍感兴奋。这不仅为我打开了新的创作思路，也预示着人工智能系统正逐步超越其原有的界限，展现出更为广阔的应用前景。”

Sora这么牛背后全靠算力撑着

Sora以其惊艳世界的视频场景生成能力而令人瞩目，然而，对于渴望运用该模型的艺术家们而言，其背后的算力需求可能并非易事。

近期，Factorial Funds针对Sora的成本进行了详细预算，核心结论如下：

——Sora的训练过程需要庞大的算力支撑，预计每月将消耗4200至10500个英伟达H100 GPU的运算资源。

——每个英伟达H100 GPU的运算能力极限估计为每小时能够生成约5分钟的视频。与大语言模型相比，像Sora这样的基于扩散的模型推理成本要高得多，甚至高出几个数量级。

——随着类Sora模型的广泛应用，推理计算的需求将逐渐超过训练计算。这一“转折点”预计将在生成1530万至3810万分钟的视频时到来，此后，用于推理的计算量将超越原始训练所需的计算量。值得一提的是，目前每天上传至TikTok的视频高达1700万分钟，而YouTube则达到4300万分钟。

——假设TikTok（占据所有视频分钟数的50%）和YouTube（占据所有视频分钟数的15%）等流行平台的视频生成大量采用人工智能技术，并综合考虑硬件的利用率和使用模式，预计用于推理的峰值需求将达到约72万个英伟达H100 GPU。

总而言之，尽管Sora在视频生成的质量和能力方面取得了显著进展，但其背后的算力需求，尤其是GPU推理计算的需求，也可能随之大幅增加。

Sora的技术细节

Sora是一款扩散模型，与OpenAI的DALL-E和Stability AI的Stable Diffusion等知名模型齐名。最近，Runway、Genmo和Pika等公司也在积极探索视频生成领域，它们很可能同样运用了扩散模型的原理。

从更宏观的视角来看，扩散模型是一种先进的生成式机器学习模型。它通过逐步学习逆转数据中添加随机噪声的过程，从而生成与训练数据（如图像或视频）相似的新数据。这一过程中，模型从纯噪声模式开始，逐步去除噪声，完善模式，直至生成连贯且详细的输出。

这与大语言模型的工作方式形成了鲜明对比。大语言模型在迭代过程中，逐个生成token（称为自回归采样）。一旦token生成，便无法更改。当我们使用像Perplexity或ChatGPT这样的工具时，可以观察到这种效果：答案逐渐一个字一个字地出现，仿佛有人在实时打字。

在公布Sora的同时，OpenAI还发布了一份技术报告，揭示了其设计似乎受到了“带转换器可扩展扩散模型”研究论文的启发。该论文介绍了一种基于转换器的架构，名为DiT（Diffusion Transformers的缩写），专门用于图像生成。看来，Sora将这一创新工作进一步拓展到了视频生成领域。结合Sora的技术报告与DiT论文，我们可以勾勒出Sora模型工作的相当清晰的轮廓。

Sora具有三个重要部分：1）它并非在像素空间中操作，而是在潜在空间中执行扩散（即潜在扩散，Latent Diffusion）；2）它采用了转换器架构；3）它似乎利用了庞大的数据集进行训练。

1.潜在扩散

我们可以使用扩散来逐个生成每个像素，但这种做法在计算上是极其低效的。为了提高效率，我们首先将像素映射到一个具有压缩因子的潜在表示空间。在这个更为紧凑的潜在空间中执行扩散过程，然后再从潜在空间解码回像素空间。这种映射方法极大地降低了计算复杂度：举例来说，我们只需要生成64x64 = 4,096个潜在扩散变量，而不必在512x512 = 262,144个像素上执行扩散。这一开创性的思想正是“基于潜在扩散模型的高分辨率图像合成”研究论文的核心，也是Stable Diffusion等模型的基础。

图注：从像素(左)到潜在表示空间的映射示意图

DiT和Sora都巧妙地运用了这种潜在空间扩散的方法。对于Sora而言，还有一个重要的考虑因素，那就是视频具有时间维度。视频本质上是图像的时间序列，即一系列连续的帧。根据Sora的技术报告，从像素到潜在空间的编码步骤不仅发生在空间维度上（即压缩每帧的宽度和高度），也发生在时间维度上（即压缩连续帧之间的信息）。

2.转换器

DiT和Sora都摒弃了传统的U-Net体系结构，转而采用了更为灵活的转换器体系结构。这一创新之举尤为重要，因为DiT论文的作者发现，使用转换器能够实现更为可预测的扩散过程。具体来说，随着训练计算量的增加（无论是通过延长训练时间、增大模型规模，还是两者兼而有之），模型的性能将稳步提升。Sora的技术报告也针对视频生成领域提到了类似的观察。

图注：模型质量如何作为训练计算的函数得到改善

这种扩散行为可以通过所谓的扩散定律进行量化，这一性质在大语言模型和其他模态的自回归模型中已经得到了深入研究。利用规模优势以获得更好的模型性能，是大语言模型快速发展的重要驱动力之一。鉴于图像和视频生成任务同样具备这种属性，我们有理由期待在这些领域也能应用相同的扩散策略。

3.数据集

训练Sora这样的模型所需的最后一个关键因素是标记数据，我们认为这是最重要的秘密。要训练像Sora这样的文本转视频模型，我们需要对视频及其对应的文本描述进行详尽的标注。OpenAI在公开信息中并未过多透露其数据集的具体情况，但他们确实提到数据集规模庞大。

此外，OpenAI还公布了一种为图像添加详细文本标签的方法，这种方法被用于收集DALL-E 3的数据集。其基本思路是，首先在一个标记的子集上训练一个标注器模型，然后利用这个模型自动为剩余的子集添加标签。这种高效且准确的数据标注方式很可能也被应用到了Sora的数据集准备过程中。

计算成本估计

Factorial Funds对Sora训练和推理所需的计算量进行了深入探究，这对于预测未来算力需求至关重要。然而，需要明确的是，由于Sora模型的具体大小和数据集细节并未公开，因此以下估计存在一定的不确定性，因此在参考时应持谨慎态度。

1.从DiT到Sora的外推训练计算

首先，我们回顾了DiT的相关信息，这一模型显然为Sora提供了基础架构，并可以据此推断其计算数据。最大的DiT模型DiT- xl有675M个参数，并以约10²¹ flops的总计算预算进行训练。为便于理解，我们可以提供参照，它相当于这相当于0.4个英伟达H100 1个月（或单个H100 12天）的计算量。

但值得注意的是，DiT仅模拟图像，而Sora则是一个视频模型。考虑到Sora能够生成长达1分钟的视频，且通常以24fps编码，这意味着一个视频由多达1440帧组成。然而，Sora的像素到潜在映射似乎实现了空间和时间上的压缩。若假设与DiT相同的压缩率（8倍），则潜在空间中仅包含180帧。因此，在将DiT的计算量外推到视频模型时，我们得到了一个相对于DiT的180倍计算乘数。

此外，我们推测Sora的参数量明显大于675M。基于当前的技术趋势，我们估计一个拥有20B参数的模型是切实可行的，这将使计算量相对于DiT增加30倍。

最后，我们假设Sora是在比DiT更大的数据集上进行训练的。虽然DiT在批大小为256的情况下训练了3M个步骤，总共使用了768M张图像（需要注意的是，由于ImageNet仅包含14M张图像，因此相同的数据被多次重复使用），但我们对Sora的数据集知之甚少。考虑到Sora可能接受了图像和视频的混合训练，我们做了一个简化假设，即Sora的数据集由50%的静态图像和50%的视频组成，且其规模比DiT使用的数据集大10到100倍。然而，考虑到DiT在相同数据上的重复训练可能并非最优策略，我们认为计算乘数为4到10倍是一个更为合理的假设。

综合以上因素，并考虑数据集规模对计算影响的低估和高估情况，我们得到以下计算范围：

低数据集估计：10²¹ FLOPS × 30 × 4 × (180 / 2) ≈ 1.1 × 10²⁵ FLOPS

高数据集估计：10²¹ FLOPS × 30 × 10 × (180 / 2) ≈ 2.7 × 10²⁵ FLOPS

这相当于每月将消耗4200至10500个英伟达H100 GPU的运算资源。

2.推理计算与训练计算

我们倾向于深入探讨的另一个核心要素是训练计算与推理计算之间的对比。从概念层面来看，训练计算虽然规模庞大，但属于一次性投入，仅发生一次。相比之下，推理计算虽然规模较小，但每次使用模型时都需要进行计算。因此，随着用户数量的增长，推理计算的需求也会相应扩展，并在模型得到广泛应用时变得尤为重要。

因此，考察“转折点”具有实际意义，即推理计算量超过训练计算量的那个临界点。

图注：DiT(左)和Sora(右)训练计算与推理计算的比较

基于上述数据，我们再次借助DiT来推测Sora的情况。对于DiT，其最大模型（DiT-xl）每步消耗约524×10⁹ FLOPS。生成单个图像需要250个扩散步骤，总计达到1.31×10¹² FLOPS。我们观察到，在生成约760万张图像后，推理计算量开始超过训练计算量，占据主导地位。作为参考，用户每天上传到Instagram的图片数量约为9500万张。

对于Sora，我们估算其FLOPS为524×10⁹ FLOPS × 30 × 180 ≈ 2.8×10¹⁵ FLOPS。假设每个视频同样需要250个扩散步骤，则每个视频的总计算量将达到7.08×10¹⁵ FLOPS。参考数据表明，英伟达H100每小时能生成约5分钟的视频。当生成的视频时长达到1530万分钟（低估）至3810万分钟（高估）时，推理计算量将超过训练计算量。作为参考，每天上传到YouTube的视频时长约为4300万分钟。

需要注意的是，推理过程中不仅仅涉及FLOPS。例如，内存带宽也是一个关键因素。此外，业界正在积极研究减少扩散步骤数量的方法，这有望降低计算密集度，从而加快推理速度。同时，训练和推理过程中的FLOPS利用率也可能存在差异，因此在分析时需要考虑这一因素。

3.跨不同模型的推理计算

我们还对不同模态下的各类模型进行了深入研究，分析每个输出单位的推理计算表现。此研究的核心目的在于揭示不同类别模型的计算密集度，这对计算规划及需求预测具有直接影响。值得注意的是，各个模型的输出单位各有特色，其运行方式也截然不同：对于Sora，单个输出表现为时长1分钟的视频；对于DiT，则是分辨率为512x512像素的图像；而对于Llama 2和GPT-4，我们将单个输出定义为包含1000个文本token的单个文档。

图注：各模型每单位输出推理计算比较：Sora的推断估计在计算成本上显著高出其他模型几个数量级

在对比中，我们囊括了Sora、DiT-XL、LLama 270b以及GPT-4，并利用对数尺度对它们的FLOPS进行了相互对照。对于Sora和DiT，我们依据上述推断进行了估算。而对于Llama 2和GPT-4，我们采用了FLOPS = 2 × 参数数 × 生成token数的经验法则公式来估算其FLOPS数量。特别地，对于GPT-4，我们假设其模型结构为混合专家（MoE）模型，每个专家拥有220B个参数。然而，需要明确的是，GPT-4的这些相关数字尚未得到OpenAI的官方确认，因此我们在使用时需持审慎态度。

从对比结果中，我们可以看到，基于扩散的模型如DiT和Sora在推理成本上显著高于其他模型：DiT-xl（拥有675M参数）的推理计算量与LLama 2（拥有70B参数）大致相当。更为显著的是，Sora在推理工作负载上的成本甚至比GPT-4高出几个数量级。

然而，我们必须再次强调，上述许多数据都是基于简化假设的估算结果。例如，这些估算并未考虑GPU的实际FLOPS利用率、内存容量及带宽的限制，以及推测解码等高级技术的影响。

如果类Sora模型获得显著的市场份额，

则进行推理计算

为了评估Sora模型大规模运行所需的计算资源，我们基于其计算需求推断了所需的英伟达H100 GPU数量。这一推断基于一个前提：人工智能生成的视频在TikTok和YouTube等热门视频平台上取得了显著的市场渗透率。

我们设定了以下假设：每个英伟达H100 GPU每小时能够产生5分钟的视频内容，这意味着每天每个GPU能够生成120分钟的视频。然而，考虑到TikTok和YouTube上庞大的视频生成量，我们需要对比这些平台的日常视频生成量与Sora模型的潜在贡献。

TikTok每天的视频生成量达到了1700万分钟，若假设其中50%由AI生成，那么每天AI在TikTok上贡献的视频时长为850万分钟。而在YouTube上，每天的视频生成量约为4300万分钟，若假设其中有15%是由AI生成的短视频，那么AI在YouTube上每天生成的视频时长将达到645万分钟。

将这两个平台的AI生成视频时长相加，我们得到AI每天总共生成的视频时长为1495万分钟。然后，我们将这一总时长除以每个H100 GPU每天能生成的视频时长，得出为了支持这些AI生成的视频，大约需要12.46万个英伟达H100 GPU。

然而，考虑到多个实际因素，如FLOPS利用率、创作者的峰值需求以及创作者可能会生成多个候选视频等，我们的计算变得更为复杂。综合考虑这些因素，我们预计在需求高峰时，可能需要高达72万个英伟达H100 GPU来支持Sora模型的大规模运行。

这一数字不仅反映了生成式人工智能模型的日益普及，更凸显了推理计算将在其中的主导地位。特别是对于像Sora这样的基于扩散的模型，其计算需求更是显著。

值得注意的是，随着扩散模型的广泛应用，其推理计算需求将进一步大幅增长。然而，我们也看到了一些积极的解决方向。通过更优化的推理技术以及跨堆栈的其他优化方案，我们有望在一定程度上缓解这一挑战。（编译/金鹿）

原文链接：查看原文