文 | 读娱,作者|零壹
3 月份以来,AI 和短剧再次成为视听行业的核心关键词。在近日举办的第十二届中国网络视听大会上,国家广播电视总局网络视听司司长冯胜勇在论坛致辞中表示 「提出一个问题往往比解决一个问题更重要」 的时代来临。
无论是爱奇艺、芒果 TV、腾讯视频等综合视频平台,还是抖音、快手、哔哩哔哩,AIGC、微短剧+几乎是所有行业大佬的核心议题,无可置疑的风口中央。
在 Sora 发布后,以即梦、快手为代表的国产 AI 视频大模型在短短一年多时间里加速,经历了从 「跟跑」 到局部领先的过程。
而从内容端的反馈来看,从早期的代表性 AI 短剧如去年的 《山海奇镜之劈波斩浪》 和 《三星堆:未来启示录》,到今年来话题性颇高的 《美猴王》《无名特工队》 和 《红衣大叔用 AI 带我穿越》《兴安岭诡事》,以及发布预告不久的单元剧集 《新世界加载中》,技术进步和内容创作者不断探索后的内容质感迭代是明显的。
但即便进步显著,截至目前一个很明显的事实是,AI 短剧所引发的讨论更多仍停留在技术层面,内容本身收获的正面评价是非常有限的。总结过往作品的大众反馈来看,迄今为止 AI 短剧的的几个主要问题是:
叙事方面,连贯性不足,单镜头时长普遍低于 5 秒,依赖快速剪辑规避动作逻辑缺陷,镜头语言单一、动态 PPT 拼接感严重;
视觉层面,人物表情僵硬、口型与发音错位、情绪表达失真导致恐怖谷效应,普遍以单一角色动态场景呈现,缺乏多角色之间的交互,复杂场景模拟缺陷明显,普遍问题是精细度有余而真实性不足,乍一看惊艳,再一看穿帮。
题材和创意层面,剧情类几乎全部集中于玄幻、科幻赛道,此外还有文化科普类短纪录片的形式呈现,其目的显然是发挥 AI 在视觉奇观打造上的优势,而尽量降低在一致性、现实性层面上的不足。
而更为隐蔽的问题则是内容创意,以现有 AI 大模型产出的剧本大纲和分镜脚本可用性是非常有限的,要么完全缺失逻辑性,「不是现在的人类能接受的艺术」,比如 《红衣大叔用 AI 带我穿越》;要么则是网文和网大叙事模版的套用,在 AI 技术的外皮下包裹一些极为粗糙和陈旧的精神内核,这部分是目前的主流 AI 短剧内容,都缺乏艺术层面的突破性,如果是这样那么 AI 短剧相较于普通微短剧,似乎称不上有明显优势可言。
这些问题在 2025 年 3 月来看,比 2024 年的前期作品如 《白狐》《三星堆:未来启示录》 都有明显改善,但如今的 AI 短剧行业状态也许可以这么形容——「能够批量生产 59 分作品,但及格作品还在个位数,真正的高分作品还是零。」
也就是说,目前 AI 短剧还在 「有没有」 的阶段,但普通观众在乎的是 「好不好看」。
过去一年,AI 短剧的飞速发展和阶段性痛点
在探讨 AI 短剧的发展方向之前,我们不妨先总结下目前 AI 短剧的创作内容流程。通过参考一些 AI 短剧教程,并询问一些个人兴趣 AI 短剧创作者,纯 AI 流程的 AI 短剧实操过程基本是这样的:剧本生成-分镜脚本-图像生成-图生视频-剪辑优化。
剧本生成和分镜脚本可以借助 ChatGPT 或者 Deepseek、Claude 模型等辅助生产,以 Deepseek 为例,其可根据提示词生成包括场景编号、时长、景别、镜头运动、场景描述 (画面/光影)、关键音效在内的分镜脚本,并以表格形式呈现。
如下图是读娱让 deepseek 生成的一段中世纪克苏鲁悬疑风格的故事梗概和分镜脚本 (部分截图):
然后是文生图,随着创作者完善分镜脚本这一步后,再使用 MidJourney、可灵、即梦、vidu 等工具完成文生图,以合理的提示词形成视觉画面。
即梦等平台的故事创作模式支持批量导入分镜图片,以清晰化创作流程;
即梦的 「故事创作」 界面
接着是图生视频。将视觉图片按顺序保存后,通过可灵、即梦、Vidu 等图生视频工具使用首尾帧和提示词形成视频;
可灵的视频生成界面
最后通过 AI 音效、台词等方式添加声音部分、再进行剪辑优化最终成片。
这一流程的逻辑大体与传统影视产业一致,区别在于极大降低了剧本生成到分镜、拍摄制作的成本,有极为宽松的试错空间。
但对于目前的创作者而言,实际操作则远不如看上去那么简单。
一位个人 AI 短剧创作者告诉读娱,即便他只是基于兴趣来创作要求不算高,但他的 AI 短剧每一分钟成片都需要花费二、三十个小时的时间,一个重要的原因就是要选片并保持一致性,而把大量的时间花费在出三视图,以及调整提示词来 「抽卡」 上。「文生图和图生视频两个阶段都有很大的不确定性,而目前基本只有靠不断调整提示词并重复的方式,能不能有好的效果,有运气成分在里面。」
而在具体创作中的另一个矛盾是,要实现视频效果很容易依赖多图堆积下的抽奖结果,但这样的操作往往又容易导致一致性不足。
如果对效果有一定要求,从前期到后期依赖 AI 的自动化也是完全不现实的。比如目前的个人 AI 短剧往往是由大量 「一个镜头一个人说话」 的单一镜头拼接而来,与大众熟悉的影视语言有明显差距。如果想要实现更丰富的镜头效果,那么前期分镜基本不能指望用 deepseek 等 AI 模型直出直用,还是要靠创作者自己对镜头的理解来创作分镜脚本,因为 deepseek 的分镜很容易写的很丰富,但并不具备合理的镜头语言逻辑,也完全不会考虑在即梦、可灵等图生视频的局限性。
那么再回到行业的话题来说,目前 AI 短剧创作阶段的工具局限,也许可以归纳为 「确定性不足」 和 「集成度不够」。
前者主要体现在,创作者需要在文生图和图生视频两个阶段,为了一致性这个基本要求付出太多,不仅增加了大量工作量,也更难在视觉细节和镜头运动等层面进行过多调整,到底应该用怎样的提示词,怎样实现理想中的运镜等,存在玄学的成分;
后者则体现在目前的各个流程基本都要使用到多个 AI 工具,但不同工具之间没有协同性,像 deepseek 给你的脚本和提示词,根本不会考虑你在可灵、即梦上实现的效果如何。而市面上的一些集成的 AI 短剧平台则往往因为存在短板,导致功能虽全但实际价值却不高,比如昆仑万维的 AI 短剧平台 SkyReels 集成了剧本、分镜、3D 生成大模型等,声称能通过 AI 一键生成完整剧本、分镜、人物对白与 BGM,但实际应用的完成效果却也是问题多多,导致使用者并不算多。
所以目前主流内容才会是 「PPT 式 AI 短剧」。因为放弃或者减少多人交互、复杂运镜的不确定性,才能更高效地产出基本逻辑合格的内容。
但这样的内容,显然不可能是 AI 短剧的最佳模式。
AI 短剧未来爆发的主力,也许在 「普罗大众」
目前的 AI 短剧生产者,大致可以分为以下两类:
其一是专业影视机构和主流媒体,如此前博纳制作的 《三星堆:未来启示录》,央视制作的 《美猴王》、AI 全流程微短剧 《中国神话》《AI 看典籍》 等,类型往往是传统文化、科普纪录片等元素;
其二是个人创作者和基于个人创作者的小型 AI 工作室。如 《山海奇镜之劈波斩浪》《无名特攻队》 背后的创作者闲人一坤,其曾在接受采访时提及自己团队只有 10 人;而更多的个人创作者正在抖音、快手等平台上以雨后春笋的速度出现,个人即团队。
一个或许有些反直觉的现象或许是,个人创作者的作品质量未必比机构和团队差。目前抖音和快手上一些粉丝量仅数百的用户,已经能够产出运镜复杂、逻辑非常通顺的短片,观感已经很接近剧集,甚至还要超过上述经常见诸报端的这些 AI 作品。
以目前的 AI 短剧工具而言,团队的规模更多影响的是生产效率,而在生成质量上的优化边际效应很低。打个比方 10 个人的团队和 1 个人的团队,前者有把握能做得更多,却没把握做得更好。因为 AI 极大简化了 「制作出品」 的部分,但出品的差异化却完全依赖创作者的提示词熟练度和个人审美、镜头感等。
有几位创作者告诉读娱,在目前 AI 短剧效率和效果优化的实现,水平高下主要就体现在提示词和运镜能力上。有的创作者能把提示词写得极具画面感且与 AI 工具的协同性非常好,甚至可以仅凭借三到四张图片就生成出连贯的运镜,让观感往真人剧上大大靠拢。
结合当下的情况来看,对于 AI 短剧的未来发展,读娱姑且大胆做以下推断:
在专业影视制作领域,AI 会在创作流程中融为一体,随着 AI 作为技术噱头的标签被弱化,其存在感会越来越低,但应用场景则会越来越多。其实在当下的 3D 国漫行业中,AI 的使用已经超出了许多普通观众的意料了,此处不做展开。
而当下定义的 「AI 短剧」,其爆发会来自大众创作者的无穷智慧。随着创作门槛被极度降低,「一人剧组」 成为常态,普罗大众创意所产生的量变,会推动 AI 短剧的 「奇点」 出现。
除了网络视听大会上的集中讨论外,近期还有几个业内事件暗示着 AI 和短剧两个热点叠加的蕴藏能量正在剧增。
2025 年 3 月 28 日,OpenAI 发布了其最新的多模态模型 GPT-4o,这一技术突破再次引发了全球对 AI 生成内容的关注,网友通过 GPT-4o 生成的 「吉卜力风」 图片瞬间成为全球社交网络新兴热点,转换真实照片为梵高、皮克斯、南方公园等风格玩法也呈现出了惊人的和谐效果。
对于 AI 短剧而言,GPT-4o 直接处理多模态输入,在多轮交互中能精准的遵循指令,这种对叙事和角色设定一致性的赋能将极为可观。从一些业内人士使用后的反馈来看,GPT-4o 在一致性这方面的优势会很快体现在设计端,因为实用性大大提升,尤其在游戏领域、影视领域的概念图和分镜图等方面。OpenAI 的 CEO 萨姆·奥尔特曼表示,这将开启创作自由的新高峰。
而在快手近期的财报电话会上,快手联合创始人兼 CEO 程一笑表示有信心目前可灵 AI「图生视频」 功能的综合效果处于全球第一的位置。且截至 2025 年 2 月,可灵 AI 累计营业收入超 1 亿元,程一笑表示快手会不断升级以可灵为代表的 AI 商业化变现模式,力争可灵 AI 早日成为营收规模全球第一的视频生成 AI 应用。
国产 AI 视频大模型已从技术验证迈入规模化应用阶段,依托短视频平台的流量与数据优势,快速迭代并探索出可行的商业化路径。而未来竞争焦点将转向长视频叙事能力、多模态交互深度及产业渗透率,而技术开源与合规性很可能将成为下一阶段分水岭。
这两个事件其实都映照出一个未来——图片、视频 AI 的技术爆发还远未停止。
可灵的发展和商业化成就,其实反而映照出这 AI 视频平台的激烈竞争和快速进化程度,其商业化的实现也是这种竞争可持续的体现;
而 GPT-4o 能够用极为简单的方式生成连续图片,高度保持一致性。自媒体 《知危》 发布的文章就显示,作者只给了 GPT-4o 一张 Doge 图,GPT-4o 就帮他画好一整个 RPG 游戏。作者写道:「GPT-4o 展现了精准的指令遵循、惊人的图像一致性,这种能力,正是将技术从工具升华为创作伙伴的关键所在。」
而在可灵、即梦等平台上,已经有很多创作者将 GPT-4o 加入流程之中。
所谓创作自由的新高峰,其实就是目前制作层面门槛的进一步消除,而对个人创作者在提示词、视听审美、剧本情感等等层面的高层次考验更进一步。
此外,目前的多数 AI 短剧仍在 「模仿」 真人剧,而显然未来的可能性远不止此,在短视频平台上已经出现一些 「只有 AI 才能做出的剧」,差异化观感,主要来自创作者自己天马行空的脑洞。
在过去,一个普通人不太可能真正有机会去证实自己在影视创作上的天分。但如今 AI 短剧带来的最大变化,就是让每个人都真正有了成为编剧、导演的机会了,只需要极低的金钱成本,极低的试错成本,和提供给 AI 的无穷创意和精确指令。