用AI工具链从0到1制作MV，创作小白必看

请在此添加图片描述

本文作者：郭小新，腾讯IEG产品经理

大家好，我是郭小新，是一个爱动手的大厂AI产品经理，也是一个怀揣导演梦的影视创作小白。是否你也曾想过，用自己独特的视角讲述一个故事，却止步于复杂的影视制作门槛？

如果你心中也有想讲述的故事，本篇文章为你分享一个全新的影视创作工作流：即使你没有专业的影视制作技能和经验，你也能通过AI工具链从0到1实现影视作品的创作。

作品展示

如下作品是我在业余时间花了12小时，全流程通过AI工具链的辅助下原创的影视MV《老虎兄弟》。

并意外地在社交媒体上获得了不错的反响，在没有任何推广的情况下，短短7天内就在抖音上获得185个赞，播放量更是突破了20000次！

请在此添加图片描述

接下来我将毫无保留地分享我的整个AI工作流，带你一步步了解如何使用AI工具链，从零开始制作原创影视MV。

制作流

一. 工作流总览

影视MV制作的工作流具体如下，整体制作耗时约12个小时。

请在此添加图片描述

简单来说就是从有一个想法开始，到通过AI制作歌词，到使用AI创作音乐歌曲，最后使用AI制作视频，其中制作视频包括了：分镜脚本设计、虚拟歌手制作、MV动画制作，以及视频剪辑。

二. 歌词制作

1. 搭歌词框架

一首好听的歌曲是需要歌词框架，它分为很多不同层次的，例如前奏、副歌、主歌等。我通过与GPT协作，输出歌词制作的框架（具体如下），这样在后续的歌词及歌曲的生成质量更容易符合预期。

请在此添加图片描述

上图左侧是GPT提供的歌词撰写组件，右侧是我根据自己需要组合成的歌词生成框架

2. AI 生成歌词

这里我调试了几个prompt版本，最终引用了如下提示词进行歌词创作，其歌词生成的质量会更加符合预期，有需要的小伙伴欢迎自取。

Role

你是一个专业的歌曲作词人

Background

你作为中国著名作词人方文山的头号粉丝, 学习了他所有曾经撰写的歌词。你理解他作词的思考方式和风格，你会利用你学到的作词方式和风格，来进行歌词撰写。

Goals

改编一首儿歌《两只老虎》的歌词

Skills

擅长歌词改编，不但可以保留原歌词的场景，还能进一步升华歌词，使其具有文学气质和波澜壮阔的意境
擅长说唱风格，具备扎实的说唱歌词的撰写技巧，例如二押、三押、连韵等技巧

Output Format

请按以下的歌词结构输出创作内容

[instrumental intro][Verse 1]<歌词>[Chorus]<歌词>[Verse 2]<歌词>[Chorus]<歌词>[Bridge]<歌词>[Guitar solo][Chorus]<歌词>[Outro][End]

Workflow

作为一个专业的歌曲作词人，请使用你的[Skills]并按照[Output Format]完成[Goals]

即使调优了提示词，GPT输出的第一个版本的歌词也只是更接近自己预期，关于如何进一步打磨提升歌词的质感，这里我参考了吴恩达老师的分享《AI Agent 四大设计模式》，并借鉴了四种范式中的反思机制。

请在此添加图片描述

即大模型生成的第一个版本，然后让大模型去分析给出优化意见，再让大模型修改一个版本，如此循环往复、迭代多轮，几轮过去输出的歌词就可以非常接近自己预期，最后人工可以做一些微调（如下图）。

请在此添加图片描述

三. 歌曲制作

1. AI音乐工具

我先对目前市场上3个比较火的AI音乐生成工具进行评测对比，最终选择使用Suno来生成歌曲。

请在此添加图片描述

评测结果：以下评测仅针对中文歌曲生成，通过提供相同歌词、相同曲风的设定，对这3个工具生成的音乐进行评测对比，其中Suno在中文的发音准确性远高于Udio、同时在音乐生成的创意和质量高于天工音乐。

Udio

Udio严重存在中文歌词吐字不准，歌词丢失情况

推荐系数：1颗星

天工Skymusic

天工在曲风设定上比较特殊，需要用户提供一首音乐进行参考，在音乐生成相对缺乏创意，同时存在篡改歌词的情况，但作为国产AI其中文发音是最清晰准确

推荐系数：3颗星

Suno

Suno 中文歌词吐字相对准确，虽电音较强，但歌曲情感也比较丰富细腻

推荐系数：4颗星

2. AI音乐生成

Suno的创作界面非常简单，具体如下

请在此添加图片描述

这里补充下关于如何撰写歌曲的曲风prompt，这里推荐使用的提示词结构模板如下，有需要的话欢迎自取。

<音乐流派（如Kpop、Heavy Metal）>、<音乐风格（如Slow、Broadway）>、<情绪（如悲伤、愤怒）>、<乐器（如钢琴、吉他）>、<主题或场景>、<人声描述（如愤怒的男声、忧伤的女声）>

最后一步生成音乐，Suno每次会生成3首音乐，如果不满意就调整曲风的提示词或者直接重新生成，Suno单次生成的音乐最长是2分钟左右，已经非常接近一首完整的歌曲。

四. 视频制作

1. 分镜脚本设计

请在此添加图片描述

在开始进行MV制作之前，我依据歌词内容先对MV进行分镜设计，分镜脚本设计我认为这是一个非常重要的环节，它主要起到了3个作用：

1）提前规划内容：分镜脚本有助于提前规划MV的内容和结构，帮助思考如何更好地传达信息，确保MV可以具有清晰的叙述线索和流畅的视觉效果；
2）节省时间和资源：通过设计分镜脚本，可以事先决定哪些场景需要虚拟歌手，哪些场景需要AI生成画面及动画，从而在实际制作过程中大大节省时间和资源（毕竟AI制作的单位内容都是有成本的）；
3）发挥灵感和创意：在设计分镜脚本的过程中，可以尝试不同的讲述方式来呈现MV内容，这个阶段由于主要是花时间找参考、寻灵感、反复构思、不断梳理，并没有实际的制作限制，所以可以自由的想象场景和效果；

请在此添加图片描述

上图是我制作MV所设计的分镜脚本

我坚信，未来使用AI进行影视创作的艺术家，只需专注于分镜脚本设计去提供1%的灵感，剩下99%的汗水让AI来做。

2. 虚拟歌手生成

目前市场上有3个口碑比较不错的AI工具，即通过人物照片来生成对口型的视频（目前主要用于演说场景），我尝试在演唱场景下对比其生成效果，最终我选择使用Heygen。

评测结果：以下评测仅针对演唱场景的生成效果，通过提供相同歌词、相同照片的设定，对这3个工具生成的视频进行评测对比，其中Heygen在口型匹配度上相对准确些，同时生成的人物动画效果也更加自然一些。

Heygen

口型匹配度：中偏上

动画效果：中

免费体验额度：2min

推荐系数：4颗星

奇妙元

口型匹配度：中

动画效果：中偏下

免费体验额度：1min

推荐系数：3颗星

DID

口型匹配度：下

动画效果：中

免费体验额度：2min

推荐系数：2颗星

如上都是收费工具，但均有一定的免费体验额度，另外也有一些对口型的开源工具，其中SadTalker（基于Stable Difffusion）生成的对口型视频效果应该是目前开源最强的（如下图）。

请在此添加图片描述

3. AI生图

MV的歌手形象以及场景画面的生成，我选择使用Midjourney。

原因比较简单：我想要的MV质感和审美，只有Midjourney可以做出来。

这里主要分享下如何偷懒的撰写Midjourney提示词，我主要用了2种方式：

1）与GPT协同撰写

将对应的歌词丢入到GPT中，让GPT先理解歌词，然后让他去想象歌词所描绘的画面，并给出具体的文字描述及Midjourney的提示词，最后通过Midjourney去生成图片。（如下图案例）

请在此添加图片描述

2）小红书找灵感

我寻找提示词的灵感一般是在小红书，当然也有垂直社区专门分享AIGC的图片和提示词，如：ArtStation 、CivitAI、Liblib。

但是相比小红书，小红书更方便把碎片化的时间利用起来，突然有个想法，即可打开小红书去寻找内容，然后收藏起来，其内容质量也比较优质。

有时遇到喜欢的图片风格，博主却没有分享提示词，一般这个时候我会把图片保存下来，然后通过chatgpt分析图片获得图片描述信息，再结合Midjourney的Sref指令，如下图案例，基本可以还原自己喜欢的图片风格。（具体如何使用，详细可见网友的 MJ V6 Sref的使用技巧）

请在此添加图片描述

一般生成视频的场景图片，除了需要风格一致性，有时还需保持角色一致性，这里推荐使用Midjourney的Cref的指令，如下图案例，我生成了一个橘色长发、身穿水手服的女孩，然后使用Cref指令生成后续的图片，可以发现女孩无论是外表还是服装基本可以和原图保持一致。（具体如何使用，详细可见网友的 MJ V6 Cref的使用技巧）

请在此添加图片描述

4. AI图生动画

这是整个制作中最为耗时的环节，整个MV制作耗时约12个小时，其中AI图生动画的环节耗时占50%。

为保证视频画面的风格一致性，此环节主要是采用了图生动画的方式，由于现有图生动画的时长短、可控性弱，需要较强依赖不断的抽卡，因此非常耗时！

在Sora没出来之前，我们能玩的只能是4s。在4s时代，我目前用的最多的是Runway，其次是Dreamina、Pika、Pixverse，4个工具中Runway在本MV视频制作占比达到80%。

在使用图生动画的AI工具，我主要关注以下3个维度：

1）可控性：工具提供的功能和选项，允许用户对视频内容进行精细调整；
2）细节保留度：在视频生成过程中，对原始素材细节的保持能力；
3）运动处理能力：工具处理视频运动和过渡时的流畅性和自然度；

Runway在如上的评估标准，表现出色的主要是在可控性以及细节保留度：

1）可控性：用户通过镜头控制和运动笔刷功能，能够实现对视频的细节进行较简单的调整；
2）细节保留度：在视频生成过程中，Runway对原始图片的细节能进行较出色的保留，从而保证图片到动画的还原；
3）运动处理：Runway在做一些小幅度的特定运动轨迹以及运镜，可以较好的处理运动的流畅性和自然度，但是在大幅度运动，Runway明显存在局限；

例如，这只抬头望向阳光的老虎，只需使用Runway的运动笔刷就能很快刷出来。而使用其他工具，无论如何调整提示词，都无法达到这样的效果，相比之下，Runway的可控性确实更强！

请在此添加图片描述