一个产品经理能用AIGC做什么？

导语｜不要望文生义、不要似是而非、不要以偏概全。AIGC发展到什么地步

了？一个产品经理能用它做到什么地步？这里用个人实践告诉大家。

本文作者：alanxrhuang，腾讯PCG产品经理

前言

本文是AI绘图篇，文中图片基本为本人操作生成。

AI绘图现主流是两派：高完成度且商业化的Midjourney（大部分AI头像来源），开源的Stable Diffusion（大部分的AI绘图工具基于它搭建）。

二者底层原理是一样的，只是呈现到用户的应用层交互、交付不同。

1、底层原理

AI绘画是一种拼凑吗？如你认为AI做到的只是类似“把A画的鼻子、B画的嘴巴…排列组合成一个人”这种拼凑，那可以肯定地说：不是。

AI绘画的底层原理是扩散模型——AI通过学习现有作品的“清晰<->模糊<->文本”阶段_（实际更复杂）_，反向学会凭文/图就能进行“画面想象”。当让它画一个人时，它的想象顺序如下：

想象一个人的轮廓-》想象模糊图像-》想象更多细节..-》完成想象

引用一个苏剑林老师的比喻帮助大家理解：

我们可以将扩散过程想象为建楼，其中随机噪声是砖瓦水泥等原材料，样本数据是高楼大厦，所以生成模型就是一支用原材料建设高楼大厦的施工队。这个过程肯定很难的，但俗话说“破坏容易建设难”，建楼你不会，拆楼你总会了吧？

我们考虑将高楼大厦一步步地拆为砖瓦水泥的过程，当我们有了“拆楼”的中间过程x0，x1，，，，xT后，我们知道拆楼的每一步是如何完成的，那反过来不就是建楼的一步？如果我们能学会两者之间的变换关系，那么从xT出发，反复地执行一步建楼的过程，最终不就能造出高楼大厦x0出来了。

2、基本应用

0和1两个数，可排列组合成各式各样的程序。万物无论大尺度还是小尺度看，都有它的基本组成单元。

AI绘画应用层面上的基础单元是什么？文本和图片、图片和图片之间关联

1）文生图

你可通过几个prompt（关键词）+模型就生成出来一张图片，当有更定制化的需求（如让她看向观众），只需改下prompt就能达成：

2）图生图

你可以给出一张图片 or 某张图片的seed，加上文本_（非必要）描述生成出这张图片的变种（是的，人民群众最爱的头像制作）。_这里用刘亦菲的鲜花头像尝试生成新的头像：

同时，图生图有个基础的应用是，将模糊的图片变得更加清晰、局部改图（如只改掉刘亦菲的脸，其它地方不改），此类应用并不新鲜，不在此展开。

3、基础应用 - 持续改进

1）文本理解：使用更自然的语言，而不是prompt

“十年以后，全世界有50%工作会是提示词工程（prompt engineering），不会写提示词（prompt）的人会被淘汰。”=》个人反驳：prompt是新技术出现的阶段性特定产物，也可能很快被自然语言淘汰。

现在已经可以通过自然语言生成prompt _（如通过GPT）或 直接通过自然语言生成图片。如只需用“a woman holding a bouquet of pink roses in her hands and looking at the camera with a serious look on her face”_这段话，也能生成如下效果：