竞争日益激烈的 AI 视频技术竞赛在周一出现了新的转折,总部位于旧金山的初创公司Luma AI宣布了其 Dream Machine 视频生成模型的应用程序编程接口 (API),而就在几个小时前,竞争对手 AI 视频初创公司 Runway 也宣布了自己的 API。
Dream Machine API 允许用户(无论是个人软件开发人员、初创公司创始人还是大型企业团队的工程师)在 Luma 的热门视频生成模型上构建应用程序和服务。
因此,它应该会将 AI 视频技术带给全球更多的应用、团队和用户,并将在 Luma AI 网站之外实现一类全新的 AI 视频生成功能。在 API 发布之前,使用 Dream Machine 制作 AI 生成的视频的唯一方式是通过 Luma 的网站。
Dream Machine 和 Runway 等人工智能视频模型的工作原理是,对数百万个之前发布的视频片段进行训练(在某些情况下,无需明确许可或补偿),并将它们转换成称为“嵌入”的数学结构,然后可以根据用户的文本提示或他们上传的静止图像(模型会自动将其转换为动态图像)生成相似或概念相关的视觉效果。
此外,与竞争对手纽约 Runway 不同(Runway分别通过 Google Forms 候补名单为小型团队和大型企业推出了两个版本的 API), Dream Machine 的 API 现在就可以开始使用。目前,纽约 AI 代码库 Hugging Face 的开发人员已经在公共 Hugging Face 网站上实现了一个演示版本.
Luma AI 联合创始人兼首席执行官 Amit Jain 在一份新闻稿中解释了公司的愿景,他表示:“我们的创意智慧现已可供全球开发商和建筑商使用。通过 Luma 的研究和工程,我们的目标是开启视觉探索和创作的富足时代,这样人们就可以尝试更多的想法,构建更好的叙事,让那些以前从未有过的人讲述不同的故事。”
Luma 的 Dream Machine API 和 Runway 的 API 都是在 Adobe 预览其“企业安全” Firefly Video AI 模型(仅使用公共领域或 Adobe 直接授权的数据进行训练)后一个周末推出的。但目前,Adobe 的 Firefly Video 仅通过候补名单供个人用户使用,而不是通过 API 供企业和团队在其上构建单独的应用程序。
Dream Machine 的快速崛起
Dream Machine 于 2024 年 6 月作为公开测试版首次亮相,其高度的真实感、相对较快的生成时间和可访问性立即让用户和 AI 创造者惊叹不已——尤其是面对OpenAI 仍然保密的 Sora 模型时。
Luma 此前还通过其 Discord 服务器发布了一款名为 Genie 的静态图像 3D 资产生成 AI 模型。该公司最近升级了 Dream Machine ,通过下拉菜单选择相机动作,增加了更多控制功能。
Luma AI 发言人 Caroline Ingeborn 通过电子邮件回复 VentureBeat 称,现在 Dream Machine 声称是“世界上最受欢迎的视频模型”,基于“用户数量和代数指标”。
Luma Dream Machine API 特性和能力
Dream Machine API 由最新版本的 Dream Machine (v1.6) 提供支持,并提供多种先进的视频生成工具:
•文本转视频:用户只需提供文本指令即可生成视频,无需提示工程。
•图像到视频:使用自然语言命令可以将静态图像立即转换为高质量的动画。
•关键帧控制:开发人员可以使用开始和结束关键帧来指导视频创作,控制叙事流程。
•视频扩展和循环:API 使用户能够扩展视频序列或创建无缝循环,非常适合 UI 视觉效果或营销内容。
•摄像机运动控制:此功能让用户通过简单的文本输入来指导视频场景,提供对生成的视频的视角和运动的精细控制。
•可变纵横比:API 可以生成针对不同平台优化的视频,从而消除视频和图像编辑的复杂性。
Dream Machine API 旨在简化视频创作流程。开发人员无需借助复杂的视频编辑工具,便可将这些功能集成到自己的应用程序中,让用户专注于讲述故事和创作。
可访问性和定价
Luma AI 使用 Dream Machine API 的核心目标之一是使高质量视频创作的访问变得民主化。
Jain 强调了该公司致力于让这项技术广泛普及,他表示:“我们相信要让尽可能多的人能够使用这些强大的技术。这就是我们在 Dream Machine 发布时所做的,我们学到了很多东西。我很高兴能与开发人员一起学习,看看他们用 Dream Machine 打造出什么。”
该 API 的价格具有竞争力,每生成一百万像素收费 0.32 美元,相当于生成一段 5 秒、分辨率为 720p、每秒 24 帧的视频收费 0.35 美元。
这种定价模式确保即使是规模较小的开发商也可以尝试和利用该平台,而无需面临高昂的成本。
然而,由于 Runway 并未公开发布定价,因此目前无法对两者的价值进行比较。
适合企业扩展
虽然 Dream Machine API 向所有开发人员开放,但 Luma AI 还推出了“Scale”选项,以迎合更大的公司和组织。
此选项提供更高的速率限制和个性化的入职和工程支持。
据 Jain 介绍,Scale 选项是对企业客户需求的直接回应:“自 Dream Machine 成立第一天起,我们就收到了来自大型公司和组织的极大兴趣,他们询问我们是否可以访问我们的模型。所以今天,我们很高兴推出 Scale 选项,为客户及其广泛的用例提供服务。”
负责任地使用和适度
Luma AI 表示,它使用多层审核系统,将人工智能过滤器与人工监督相结合,以确保其技术得到负责任地使用并符合法律标准。
使用 API 的开发人员可以定制审核设置以适合其特定市场和用户群。
Luma AI 还采取措施保护用户的隐私和所有权。除非获得用户的明确许可,否则通过 API 生成的输入和输出不会用于训练 Luma 的 AI 模型,从而确保知识产权不受侵犯。
然而,Luma 和所有其他 AI 视频生成模型提供商都受到了人类艺术家和活动家的批评,他们认为这项技术 — — 据推测是在网络上的视频上进行训练的,在某些情况下(可能很多)没有向所有者提供许可或补偿 — — 本质上是剥削性的,甚至可能侵犯版权。
尽管如此,人工智能视频提供商目前仍不气馁。随着 Dream Machine API 的推出,Luma AI 旨在进一步推动网络上的人工智能视频创作,使开发人员能够轻松构建创新的视频工具,并让用户能够进一步使用工具来表达他们的想象力。