大咖对谈 | 未来已来？音视频应用与创作的挑战及愿景 - 腾讯云专区

导语近段时间以来 AIGC 备受关注，在生成文章、代码，到图片、语音合成等领域都有广泛应用。随着技术的不断发展，AIGC 在音视频领域的应用也不断增多。AIGC 在音视频领域中有哪些应用前景和挑战？AIGC 是如何帮助我们创作出更加优秀的音视频内容？AIGC 的版权难题如何解决？AIGC 是会取代我们的工作还是能为我们创造更多价值？TVP 技术夜未眠第七期，我们邀请了腾讯云直播、媒体处理专家工程师赵军老师与上海交通大学电子工程系教授、图像所副所长、腾讯云 TVP 宋利老师，与我们进行了深入探讨。

AIGC：从自动生成到

跨越模态的全能选手

最近对于 AIGC 的讨论越来越多，但实际上人工智能创作经历了多次热潮。那么人工智能创作的发展历程经历了哪些阶段？AIGC 的应用已经涉及哪些领域？

宋利：

最近对 AIGC 的讨论非常多，但展开来说的话，其实从 18 年开始，人工智能创作就经历过一波热潮，当时讨论更多是 Creation，不是 Generate。当时主流技术是 CNN，从当时的相关论文及占比来看，AIGC 的比例较低，不到 20%，剩余 80% 的论文主要集中在计算机视觉任务的方向。后面 GAN 技术成熟，开启了生成方向的热潮，生成式 AI 就被提到比较高的地位了。然后从 GPT 开始就逐渐进入大众视野，并与 NLP、视觉任务等相结合，推动了 AIGC 在各领域的应用发展。目前，AIGC 已经成为了关注热点，但从技术的发展来看，它的重要性和关注度是逐渐发展和增强的，而不是突然出现的热点。

刚刚提到了 AIGC 应用，其实最早的应用是翻译，比如 2019 年开始一些线上大会上能看到的 AI 同声翻译，实际上是大模型的在后面起作用。随后大模型的作用开始涉及到图像和声音的处理，例如声音处理中的变声、特效，图像处理中的文生图、图生图。严格来说，特效其实属于上一波 AI 浪潮的热点产物，因为特效还不够 Generative，特效还是有一个基础的，比如人脸特效还是基于人脸基础去做特效。Generate 是完全从无到有的，比如根据一段文字描述直接生成，不再是把人脸变瘦或变胖的特效层面了。大家现在关注的 AIGC，应该是第二波的技术热点了，它更多地涉及到跨模态的生成，更多地增加了从隐空间产生出来的东西。

赵军：

我也注意到一个很有意思的点，国外并没有 AIGC 这个词，国外使用的是Generative AI，即生成式 AI。AIGC 是国内造词，可能是希望接近 PGC/UGC 的表达方式。这从某种程度上也说明了国外更偏向于从技术的角度去看待该概念，而国内则更偏向从应用的角度去看待。

AI大模型成为热点

关键算法仍有差距

从大数据到应用场景再到大模型，人工智能随时间的推移而不断演变，关注点也在不断转向。国内与国外的差距主要在哪里？在人工智能领域竞争中，国内具有哪些优势？需要关注哪些方向？

宋利：

这个话题最近讨论得比较多，我说点浅显的认识，大家都知道人工智能的三要素：数据、算力和算法模型。后面这三个要素变成了大数据、大算力网和大模型。这种演变是从小规模扩展到大规模的过程，并且它的内涵也在不断变化。此外，人们对人工智能在不同阶段所要解决的问题的关注点也在不断变化。2018 年之前，大数据是各企业的关注重点，但是在 2018 年之后，人们意识到仅仅依靠三要素的组合并不能实际落地，必须充分结合应用场景。于是一些公司开始将三要素与垂直领域的场景结合，比如金融、医疗、教育，所以才有了人工智能赋能千行百业的说法。而在今天，大家又把关注度放在大模型上，人们不只聚焦垂直行业了，开始关注通用的大知识体系。

在大模型领域，OpenAI 等国外公司暂时领先了我们，但是我们国家在数据和算力方面具有很大的优势，前段时间我国也提出了“东数西算”，并构建了基础的算力网，此外我们的数据非常充足。目前，大模型的竞争主要在算法上，我们在这方面还没有展示出来优势。印象中有几家公司宣传跟国外同行技术差距不大，但由于 OpenAI 的 GPT 不再开源以及其他方面的限制，使得无法准确预估实际的差距。总体而言，可能与国外同行竞争中稍有落后，还需要努力追赶和提升，但应该没有被甩得太远。

大模型这个故事再往后推演的话，你会发现下一步可能会沿着大数据的故事逻辑再讲一遍。到大模型的第二波浪潮时，可能不少公司会说要做垂直领域的大模型。回到我们 AIGC 的主题，这里面也挺有意思，AIGC 的 C 是 Content，如果 Content 是音频、图像、视频类型的话，好些 AIGC 模型其实不大，对算力要求也没那么大，甚至对数据的要求也没那么大，也不一定非走大模型的路线。这是我个人的一些浅显的认知。

赵军：

是的，像 OpenAI 的创始人也曾表达过对 GPT 这样的技术是否会继续发展存在疑虑。因为模型规模总会有一个上限，当模型变得越来越大时，边际效益会不断减少。另外，如前所说，在 AIGC 的场景中，国内做了很多场景类的创新。所以相较于海外，国内在场景类创新方面的发展可能更为迅速。

AIGC是取代工作还是创造价值？

在人工智能生成内容领域，国内称作 AIGC，而国外则称为 Generative AI。当前 AIGC 的应用场景是否会对我们的工作造成影响？AIGC 工具的产生会给我们的生产方式带来怎样的改变？

宋利：

我初步使用了几个新的工具，比如 Midjourney、Stable Diffusion 和一些比较流行的东西。我觉得从一个技术人的角度看这类工具，我们最希望是发明这类工具，而不仅仅是使用它们。其次是当其他人发明了一些基础性工具时，我们可以在此基础上进行改进，提供更好的用户体验，并创造更多的价值。

从使用工具的角度来看，这类工具的普及使得一些原本需要应用开发人员做的事情变得更简便，原来可能需要一位应用工程师来写 prompt，如果后续增加了 AutoGPT 的功能，你只要给任务就行了，这可能会导致一些应用开发人员的工作被替代。

但是，对于消费者或者应用人员来说，这种工具的出现并不一定是坏事，因为他们可以借助工具展现出自己的创造力和能动性，这需要人与机器深度协同。从当前的人工智能技术来看，人和机器的协同和磨合还将持续一段时间。对于一些人来说，这可能并不是轻松接受的事情，因为可能会感到自己的贡献正在被削弱。这也确实需要一个观念的转变，要认识到生产力、生产工具和生产关系之间有不断进化的可能。

赵军：

我最近尝试了一些新的工具，包括 ChatGPT、公司内部的体验工具、腾讯云产品以及我们自己的数智人等，个人感受是像 GPT 这类工具作为代表，大幅降低了技术门槛，但它同时也可能会影响应用工程师等职业，甚至会对内容创作者也会产生影响，因为这类工具使内容生产变得更加简单，而且不需要太多专业技能。但是它其实带来了一些新的职业，就像您刚才讲的 Prompt Engineer，短期来说，我觉得他还是会存在的。

另外，从哲学的角度来看，当前大部分的 AI 技术还是在挖掘已有数据和内容，而人的智慧具有多个方面，不仅仅是从历史中学习，它也可能在今天类似这种对话中碰撞出新的东西。AI 的创造能力在哪里？目前业界还未给出明确的答案，包括 ChatGPT 的开发者也在反思，GPT 的上限和边界在哪里？这些问题目前还没有得到完全的解答，我们也需要积极解决这些问题，逐步推动行业的发展。

AIGC在视频制作中的巨大挑战

我们可以畅想 AIGC 可以根据脚本和台词生成电影片段，这对于长视频制作来说是一个成本节省的好办法。在生成视频领域，AIGC 目前是否可以实现长视频生成？

宋利：

这项技术还处于早期阶段，目前研究和相关文章不是很多，但通过阅读一些文章，我发现这些文章主要是将图像扩展到视频领域。

例如，英伟达最近与慕尼黑大学联合发表的一项长视频合成工作，是建立在之前一篇图像论文的基础上，加入时间维度的 Stable Diffusion 模型，我认为这只是对扩散模型进行工程上的一些改进，并没有很大的革新。论文主要是在探索视频版的潜在扩散的基础模型，技术上还没有完全成熟。在此之前，大家更多关注的是图像领域，如果图像的应用得到更多的拓展，或许有价值更大，更值得期待。

由于视频生成的解空间较大，我认为短期内做长时间的视频可能还是有困难的。但可以尝试将其拆分成多个小片段，在工程上拼接成一个大视频。在电影制作上也有人使用类似的方法，比如利用知识图谱积累素材，然后用查询方式找到相应的素材，并用合适的方式将它们拼接在一起，生成相应的视频。

但如果要达到导演拍电影的水平，需要更多的创作空间。创作者可以借鉴导演的方法，例如李安的拍摄手法等，基于自己手里具有的素材，将其喂给模型，让模型帮助生成初始的检测结果，然后进一步完善。我认为这种过程需要人类与工具之间的双向交流，是个长期的过程。如果想要创作高水平的视频，可能需要一些新的方法。这是我的猜想，也许不太准确，但这是我的直观感受。

AIGC的版权难题如何解决

在 AI 机制生成的内容中，版权属于数据、生成内容的模型，还是调用方？以学术界和工业界的两种视角，如何鉴定版权归属？

宋利：

最近这个问题被广泛讨论。回顾前一波 Deepfake 出现时，也曾有很多激烈的讨论。此前网信办已经发布一份《生成式人工智能服务管理办法（征求意见稿）》。

我认为其中至少有两个问题需要考虑。首先，AIGC 的作品必须标注出它基于 AIGC 工具来创作的，并且标明逼真的程度。其次，创作的作品版权归谁所有，这涉及到素材和技术操作的难度。

例如可能有人在一个生成作品中使用了他的素材和风格，但借鉴的程度没有非常明显，也很难判断是从哪里生成出来的。如果这个生成工具是付费的，那么版权应该以创作者为主，但如果是在素材中进行小幅改动后生成的，那么版权归属比较难以判定。

我认为未来法律法规会规范这一问题，但在操作层面的技审上仍然是一个挑战，需要技术人员制定相应的度量尺度来实现技审。因此，我们需要关注技术方面的发展，并深化对版权问题的理解，以更好地应对人工智能生成内容的挑战。

赵军：

这个问题不仅仅是一个技术问题，法律法规的监管也是一个重要的方面。我个人的观点与宋老师比较类似，核心问题在于是否有人的智慧与劳动参与了创作。

如果人是一个使用方并且参与了相应的创作过程，不完全依靠系统生成，我认为这个归属权应该归于创作者。即便是使用像 Prompt engineering 这样的提示工程也是在做二次创作。

但是如果内容只是从素材库生成没有做出其他创造性行为，我认为归属权可能就不确定，这需要进一步地探讨。

AIGC发展，

硬件软件谁更重要

音视频处理需要大量计算和存储资源，有人认为要堆硬件，而另一些人认为该卷算法。AIGC 要发展，硬件和软件哪个更重要？

赵军：

从我的理解来看，整个领域的发展与音视频编码这一领域类似，硬件和软件两者相辅相成，同时也相互制约。

在硬件方面，过去几年行业的收益主要来自硬件的迭代，但现在存在一些挑战，例如硬件迭代在通用计算领域可能没有太多空间，因此一些公司开始专注于 AI 加速等特定领域。此外，如何充分利用 GPU 这些核心也是一个重要问题。

而在软件方面，算法的发展与硬件的能力相关联，需要与之搭配使用才能实现整体突破。以云计算为例，它基于分布式强大的计算能力，需要与云计算等软件技术结合，才能发挥作用。因此，硬件和软件两者的结合和配合是实现行业发展的关键。

我认为对于当前的 AIGC 数据处理而言，软件加硬件的结合是实现行业发展的重要趋势。只有两者相互融合，才能实现整体的突破。以 CPU 多核心发展为例，过去其频率无法提升，因此硬件成为了多核状态。在软件层面就需要适配这些多核，使其充分发挥算力。

因此，在优化方面，算法和软件的优化应是首要考虑，因为算法和软件的优化先带来更大的收益。只有当这些方面被充分优化时，硬件的效用才能最大化。尽管目前 AI 领域可能还没有充分考虑这些问题，但随着模型和应用场景的发展，优化和成本问题肯定会成为行业发展的关键。

AIGC将突破视频编解码

与传输的技术瓶颈吗？

AIGC 带来的内容生成方式的改变，是否会改变音视频编码、传输的方式？是否可能对音视频编码、传输产生冲击？

赵军：

目前在编码方面，整个行业面临一些挑战。在过去每隔十年中，压缩率的理论值可以提升 50%，但实际情况是压缩率大多只有 30% 左右，且技术复杂度很高。因此，在编码方面也存在瓶颈点。但是如果利用 AIGC 通过 AI 的方式生成内容，例如使用 prompt 的方式生成视频，是不是可以只传输 prompt，通过这种方式来大幅度减少需要传输的视频数据，从而提高效率。

以点播场景为例，使用 prompt 生成的内容只需要传输对应的 10 个问题，而不需要传输 5 秒的视频内容来做压缩，这样就可以大大减少传输的数据量。随着内容生成方式的变化，我们可能会看到内容生成的方式会影响编码和传输技术的发展。例如，谷歌的语音编码已经使用了一种类似的思想，将模型传输给端侧，然后再通过模型将内容恢复出来，从而实现传输效率的提高。

不过，目前这些想法还不成熟，需要进一步地研究和探索。但是我们可以想象到，这些新的内容生成方式会对传输技术的发展产生影响，例如在音/视频编码中，我们可以选择传输一个函数或者其他形式来实现编码和压缩。

AIGC革新，未来视频会议

不再需要真人出镜？

随着科技的不断发展和不断革新，人工智能技术正变得越来越普及。在这样的趋势下，这些技术将来还会如何改变我们的生活与工作体验？

宋利：

我之前和团队成员交流中提到，以后会议中，也许不需要真人出现了。至少在视频会议这个场景，我们完全可以用刚才赵军老师提到的逻辑。我可以使用一个音视频生成模型完成，前面配一个文本转语音技术，我们可以直接通过文字交流，而且可以使用 RTC、TTS 等技术进行模态转换和音视频通信。最后，我们每个人的 3D Avatar 或者 2D 图像可以张嘴说话，完全可以达到逼真的效果。

目前，我们团队也在尝试做可 Demo 的原型系统，但我们更多是基于学术研究的驱动。也想和赵军老师交流下，从工业界的视角，你了解到的目前产品级的系统，触及多少实际用户？

赵军：

目前腾讯云也在 AIGC 相关的产品方面做了一些尝试，虽然还没有达到像您上面提到的那样智能的程度。但是我们在 MPS 和云渲染方面做了一些探索，我们实际上做了一个驱动直播内容的产品。例如MPS，是一种云端音视频处理服务，可以基于 AI 的视频分析和处理，满足用户在各种场景下对视频的处理需求。最近我们还实现了一个预训练模型，可以将语音和图片等输入，驱动内容并模拟不同音色。这个应用在元宇宙中非常实用。

此外，我们还有一个智能生产平台——腾讯云智能创作平台。最近看到同事放出的一个 Demo，它在直播和短视频场景中也很有用。你可以录制一小段视频并提供讲稿，然后这个平台就能生成对应的讲解，即数字分身的效果。这样的话不需要进行大规模模型的训练，非常方便。这种场景也是 AIGC 的典型场景之一。

另外就是如何进一步提高工作效率。例如腾讯会议，它可以将会议内容转换成文字，并生成摘要和主题。这非常实用，而这也是 AIGC 和 ChatGPT 等技术的常见应用之一。在十年前我也做过一个类似的项目，是针对培训或者演讲类型的视频，怎么去提炼归纳其内容。目前腾讯会议已经提供了这一种将会议记录转换为文字摘要的功能，这对于后续观看录制内容的用户来说会非常方便。

通过 AIGC 等技术，可以在不同场景中提升生产力和用户体验，已经成为了未来发展的趋势。虽然目前还没有完美的解决方案，但是随着技术的不断改进和完善，它们将逐渐变得更加可靠和普及。

结语

展望未来，我们需要持续推动 AIGC 技术的发展，推进其在音视频领域的应用，以提高交互体验的精准度和效果。同时，我们也需要建立更加健全完善的 AIGC 技术标准与规范，推动技术的普及和应用的落地。相信在各方面的共同努力下，AIGC 技术在音视频领域中的应用将取得更加显著的成果，带来更加创新且激动人心的体验和应用场景。

如果您有音视频相关业务需求或想要进一步地了解腾讯云音视频产品内容，欢迎扫描下方二维码添加音视频小姐姐微信，与我们的产研团队深入沟通交流。

腾讯云音视频在音视频领域已有超过21年的技术积累，持续支持国内90%的音视频客户实现云上创新，独家具备RT-ONE™全球网络，在此基础上，构建了业界最完整的 PaaS 产品家族，并通过腾讯云视立方 RT-Cube™ 提供All in One 的终端SDK，助力客户一键获取众多腾讯云音视频能力。腾讯云音视频为全真互联时代，提供坚实的数字化助力。