请在此添加图片描述

本文作者:郭小新,腾讯IEG产品经理

大家好,我是郭小新,是一个爱动手的大厂AI产品经理,也是一个怀揣导演梦的影视创作小白。是否你也曾想过,用自己独特的视角讲述一个故事,却止步于复杂的影视制作门槛?

如果你心中也有想讲述的故事,本篇文章为你分享一个全新的影视创作工作流:即使你没有专业的影视制作技能和经验,你也能通过AI工具链从0到1实现影视作品的创作。

作品展示

如下作品是我在业余时间花了12小时,全流程通过AI工具链的辅助下原创的影视MV《老虎兄弟》。

并意外地在社交媒体上获得了不错的反响,在没有任何推广的情况下,短短7天内就在抖音上获得185个赞,播放量更是突破了20000次!

请在此添加图片描述

接下来我将毫无保留地分享我的整个AI工作流,带你一步步了解如何使用AI工具链,从零开始制作原创影视MV。

制作流

一. 工作流总览

影视MV制作的工作流具体如下,整体制作耗时约12个小时。

请在此添加图片描述

简单来说就是从有一个想法开始,到通过AI制作歌词,到使用AI创作音乐歌曲,最后使用AI制作视频,其中制作视频包括了:分镜脚本设计、虚拟歌手制作、MV动画制作,以及视频剪辑。

二. 歌词制作

1. 搭歌词框架

一首好听的歌曲是需要歌词框架,它分为很多不同层次的,例如前奏、副歌、主歌等。我通过与GPT协作,输出歌词制作的框架(具体如下),这样在后续的歌词及歌曲的生成质量更容易符合预期。

请在此添加图片描述

上图左侧是GPT提供的歌词撰写组件,右侧是我根据自己需要组合成的歌词生成框架

2. AI 生成歌词

这里我调试了几个prompt版本,最终引用了如下提示词进行歌词创作,其歌词生成的质量会更加符合预期,有需要的小伙伴欢迎自取。


Role

你是一个专业的歌曲作词人

Background

你作为中国著名作词人方文山的头号粉丝, 学习了他所有曾经撰写的歌词。你理解他作词的思考方式和风格,你会利用你学到的作词方式和风格,来进行歌词撰写。

Goals

改编一首儿歌《两只老虎》的歌词

Skills

  • 擅长歌词改编,不但可以保留原歌词的场景,还能进一步升华歌词,使其具有文学气质和波澜壮阔的意境

  • 擅长说唱风格,具备扎实的说唱歌词的撰写技巧,例如二押、三押、连韵等技巧

Output Format

请按以下的歌词结构输出创作内容

[instrumental intro][Verse 1]<歌词>[Chorus]<歌词>[Verse 2]<歌词>[Chorus]<歌词>[Bridge]<歌词>[Guitar solo][Chorus]<歌词>[Outro][End]

Workflow

作为一个专业的歌曲作词人,请使用你的[Skills]并按照[Output Format]完成[Goals]


即使调优了提示词,GPT输出的第一个版本的歌词也只是更接近自己预期,关于如何进一步打磨提升歌词的质感,这里我参考了吴恩达老师的分享《AI Agent 四大设计模式》,并借鉴了四种范式中的反思机制。

请在此添加图片描述

即大模型生成的第一个版本,然后让大模型去分析给出优化意见,再让大模型修改一个版本,如此循环往复、迭代多轮,几轮过去输出的歌词就可以非常接近自己预期,最后人工可以做一些微调(如下图)。

请在此添加图片描述

三. 歌曲制作

1. AI音乐工具

我先对目前市场上3个比较火的AI音乐生成工具进行评测对比,最终选择使用Suno来生成歌曲。

请在此添加图片描述

评测结果:以下评测仅针对中文歌曲生成,通过提供相同歌词、相同曲风的设定,对这3个工具生成的音乐进行评测对比,其中Suno在中文的发音准确性远高于Udio、同时在音乐生成的创意和质量高于天工音乐。

Udio

Udio严重存在中文歌词吐字不准,歌词丢失情况

推荐系数:1颗星

天工Skymusic

天工在曲风设定上比较特殊,需要用户提供一首音乐进行参考,在音乐生成相对缺乏创意,同时存在篡改歌词的情况,但作为国产AI其中文发音是最清晰准确

推荐系数:3颗星

Suno

Suno 中文歌词吐字相对准确,虽电音较强,但歌曲情感也比较丰富细腻

推荐系数:4颗星

2. AI音乐生成

Suno的创作界面非常简单,具体如下

请在此添加图片描述

这里补充下关于如何撰写歌曲的曲风prompt,这里推荐使用的提示词结构模板如下,有需要的话欢迎自取。


<音乐流派(如Kpop、Heavy Metal)>、<音乐风格(如Slow、Broadway)>、<情绪(如悲伤、愤怒)>、<乐器(如钢琴、吉他)>、<主题或场景>、<人声描述(如愤怒的男声、忧伤的女声)>


最后一步生成音乐,Suno每次会生成3首音乐,如果不满意就调整曲风的提示词或者直接重新生成,Suno单次生成的音乐最长是2分钟左右,已经非常接近一首完整的歌曲。

四. 视频制作

1. 分镜脚本设计

请在此添加图片描述

在开始进行MV制作之前,我依据歌词内容先对MV进行分镜设计,分镜脚本设计我认为这是一个非常重要的环节,它主要起到了3个作用:

1)提前规划内容:分镜脚本有助于提前规划MV的内容和结构,帮助思考如何更好地传达信息,确保MV可以具有清晰的叙述线索和流畅的视觉效果;
2)节省时间和资源:通过设计分镜脚本,可以事先决定哪些场景需要虚拟歌手,哪些场景需要AI生成画面及动画,从而在实际制作过程中大大节省时间和资源(毕竟AI制作的单位内容都是有成本的);
3)发挥灵感和创意:在设计分镜脚本的过程中,可以尝试不同的讲述方式来呈现MV内容,这个阶段由于主要是花时间找参考、寻灵感、反复构思、不断梳理,并没有实际的制作限制,所以可以自由的想象场景和效果;

请在此添加图片描述

上图是我制作MV所设计的分镜脚本

我坚信,未来使用AI进行影视创作的艺术家,只需专注于分镜脚本设计去提供1%的灵感,剩下99%的汗水让AI来做。

2. 虚拟歌手生成

目前市场上有3个口碑比较不错的AI工具,即通过人物照片来生成对口型的视频(目前主要用于演说场景),我尝试在演唱场景下对比其生成效果,最终我选择使用Heygen。

评测结果:以下评测仅针对演唱场景的生成效果,通过提供相同歌词、相同照片的设定,对这3个工具生成的视频进行评测对比,其中Heygen在口型匹配度上相对准确些 ,同时生成的人物动画效果也更加自然一些。

Heygen

口型匹配度:中偏上

动画效果:中

免费体验额度:2min

推荐系数:4颗星

奇妙元

口型匹配度:中

动画效果:中偏下

免费体验额度:1min

推荐系数:3颗星

DID

口型匹配度:下

动画效果:中

免费体验额度:2min

推荐系数:2颗星

如上都是收费工具,但均有一定的免费体验额度,另外也有一些对口型的开源工具,其中SadTalker(基于Stable Difffusion)生成的对口型视频效果应该是目前开源最强的(如下图)。

请在此添加图片描述

3. AI生图

MV的歌手形象以及场景画面的生成,我选择使用Midjourney

原因比较简单:我想要的MV质感和审美,只有Midjourney可以做出来。

这里主要分享下如何偷懒的撰写Midjourney提示词,我主要用了2种方式:

1)与GPT协同撰写

将对应的歌词丢入到GPT中,让GPT先理解歌词,然后让他去想象歌词所描绘的画面,并给出具体的文字描述及Midjourney的提示词,最后通过Midjourney去生成图片。(如下图案例)

请在此添加图片描述

2)小红书找灵感

我寻找提示词的灵感一般是在小红书,当然也有垂直社区专门分享AIGC的图片和提示词,如:ArtStation 、CivitAI、Liblib。

但是相比小红书,小红书更方便把碎片化的时间利用起来,突然有个想法,即可打开小红书去寻找内容,然后收藏起来,其内容质量也比较优质。

有时遇到喜欢的图片风格,博主却没有分享提示词,一般这个时候我会把图片保存下来,然后通过chatgpt分析图片获得图片描述信息,再结合Midjourney的Sref指令,如下图案例,基本可以还原自己喜欢的图片风格。(具体如何使用,详细可见网友的 MJ V6 Sref的使用技巧

请在此添加图片描述

一般生成视频的场景图片,除了需要风格一致性,有时还需保持角色一致性,这里推荐使用Midjourney的Cref的指令,如下图案例,我生成了一个橘色长发、身穿水手服的女孩,然后使用Cref指令生成后续的图片,可以发现女孩无论是外表还是服装基本可以和原图保持一致。(具体如何使用,详细可见网友的 MJ V6 Cref的使用技巧

请在此添加图片描述

4. AI图生动画

这是整个制作中最为耗时的环节,整个MV制作耗时约12个小时,其中AI图生动画的环节耗时占50%。

为保证视频画面的风格一致性,此环节主要是采用了图生动画的方式,由于现有图生动画的时长短、可控性弱,需要较强依赖不断的抽卡,因此非常耗时!

在Sora没出来之前,我们能玩的只能是4s。在4s时代,我目前用的最多的是Runway,其次是Dreamina、Pika、Pixverse,4个工具中Runway在本MV视频制作占比达到80%

在使用图生动画的AI工具,我主要关注以下3个维度:

1)可控性:工具提供的功能和选项,允许用户对视频内容进行精细调整;
2)细节保留度:在视频生成过程中,对原始素材细节的保持能力;
3)运动处理能力:工具处理视频运动和过渡时的流畅性和自然度;

Runway在如上的评估标准,表现出色的主要是在可控性以及细节保留度:

1)可控性:用户通过镜头控制和运动笔刷功能,能够实现对视频的细节进行较简单的调整;
2)细节保留度:在视频生成过程中,Runway对原始图片的细节能进行较出色的保留,从而保证图片到动画的还原;
3)运动处理:Runway在做一些小幅度的特定运动轨迹以及运镜,可以较好的处理运动的流畅性和自然度,但是在大幅度运动,Runway明显存在局限;

例如,这只抬头望向阳光的老虎,只需使用Runway的运动笔刷就能很快刷出来。而使用其他工具,无论如何调整提示词,都无法达到这样的效果,相比之下,Runway的可控性确实更强!

请在此添加图片描述

请在此添加图片描述

其他像一些小幅度的运镜、多对象的不同运动路径,其生成效果也是非常不错的

请在此添加图片描述

一张图片想要生成比较不错的动画效果,目前是少不了人工不断修改提示词、修改笔刷路径,反复不断的Roll,基本每张图片至少需要Roll个7-8次,这也是这个环节为啥非常耗时的原因。

请在此添加图片描述

Runway在生成小幅度的运动确实不错,但是让它生成一个物体大幅度的运动动画,它现在只能直接躺平。

例如,两只老虎在雪林奔跑的场景,我Roll了至少10次以上,无论怎么修改提示词和笔刷的运动轨迹,都是出不来效果。

请在此添加图片描述

而字节的Dreamina在大运动幅度这块,确实让我有些惊讶,同样在Dreamina去Roll上面这个画面,只是Roll了2次就能出来比较不错的效果。

请在此添加图片描述

当然Dreamina也有2个局限:

1)运动幅度过大,导致极难控制;

2)对特定风格的原始素材在细节保留还存在一定局限(尤其是动漫风格);

例如,一只身上带着蓝色火焰的老虎在河道行走,无论我如何调整提示词,在Dreamina生成的视频很难保留原始素材的白虎形象及火焰特效;

请在此添加图片描述

5. 视频剪辑

这是最后一个环节,在音效和剪辑上,这里都是人工操作。

但是胜在剪映是个好工具,所以这个环节完成的特别快,基本只需要1个小时左右。

请在此添加图片描述

以上,就是我使用AI工具链从0到1制作影视MV的全流程,希望能对你有所启发。

总结

写到最后,我坚信,AI始终只是工具,它可以大大降低人类创作的门槛,但无法替代你在创作过程中涌现的灵感与创造力

另外无论你是哪种形式的创作,无论使用的是AI还是非AI的工具,工具的本质都是为了方便人类更高效的创作。因此,不用拘泥于特定的工具包括AI,而是在成本与效益间去寻找最优解。

文章来源于腾讯云开发者社区,点击查看原文