腾讯混元图像3.0上线LiblibAI，为千万创意工作者创作加速

近日，国内最大的一站式AI内容创作平台LiblibAI宣布上线腾讯旗下原生多模态生图模型混元图像3.0（HunyuanImage 3.0），以及腾讯优图视频特效模型Youtu-Video FX，以更强大、更丰富的模型能力助力平台上的千万图像创作者迸发灵感、高效创作。

用户可以通过LiblibAI平台上的图片视频生成器使用相关模型：

https://www.liblib.art/ai-tool/image-generator?modelid=21985968

LiblibAI是国内最大的AI内容创作平台，致力于专业场景下的AI内容创作与分享，为创意工作者提供专业、可靠、高效的AI时代创作工具。LiblibAI模型/图像创作者已突破两千万，日均保持数百万级创作交互，用户自主训练的原创AI模型与工作流超50万，累计生成图片逾5亿张。

此次上线的腾讯混元图像3.0模型，参数规模高达80B，是首个开源工业级原生多模态生图模型，也是目前效果最好、参数量最大的开源生图模型，效果对标业界头部闭源模型。

混元图像3.0具备常识并能够利用知识进行推理；同时语义理解准确度高，并具备极致美学质感，能生成真实的高质感图片；可以解析千字级别的复杂语义，生成长文本文字，整体图像生成效果业界领先。

原生多模态指在技术架构上，通过一个模型完成文字、图片、视频与音频等多个模态的输入与输出，而非通过多个模型的组合实现图文理解、图片生成等任务。混元图像3.0是业界首个开源工业级原生多模态生图模型。

这意味着，混元图像3.0不仅拥有生图模型的画画能力，还具备语言模型的思考能力和常识。它就像一个自带“大脑”的画家，可以利用智能去思考图像的布局、构图、笔触，利用世界知识去推理常识性的画面。

比如，用户只需要输入提示词：“创作一幅插画，解释爱因斯坦相对论”，模型就可以自主生成完整的相对论科普，无需用户描述逐格内容。

同时，混元图像3.0语义理解能力和美学质感也得到了大幅提升，可以实现对用户指令的精确生成，包括图片中的小字和长文本生成，都能较好地实现。

比如输入“你是一个小红书穿搭博主，请根据模特穿搭生成一张封面图片，要求： 1.画面左侧是模特的OOTD全身图；2.右侧是衣服的展示，分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包风格：实物摄影，要求真实，有氛围感，秋季美拉德色系穿搭”。

在这个提示词下，混元图像3.0可以准确地把左侧博主的穿搭分解成右侧单独的衣物。

再如有复杂文字要求的海报类需求，混元图像3.0也可以很好地生成。比如，升学季海报，主标题写着“志存高远，逐梦前行”，白色毛笔字，青春绿色调，一个青年背着书包，奔向象征校园的拱门/校门，天空中漂浮着尺子、三角板、画笔等相关元素。简约大气，扁平插画风格，下方副标语“青春启航，梦想花开”。

在这个提示词下，混元图像3.0可以准确地生成质感出众、图文并茂的海报图。

可以看到，混元图像3.0不仅能生成复杂文本、复杂漫画、表情包，还能生成生动有趣的科普插画。这些能力能够大幅提升插画师、设计师等视觉创作者的效率，原来可能需要画几个小时的漫画，现在可能只需要几分钟就能实现；同时，没有美术功底和设计经验的内容创作者，也能创作出更丰富、生动的视觉内容。

Liblib此次也上线了腾讯优图的视频特效模型Youtu-Video FX，用户通过上传图片和选择特效模板，即可生成一段特效视频，将静态图像转化为充满活力、动感、有趣的视频画面。其接口参数简洁清晰，能兼容多种格式、不同分辨率及各类长宽比的图片，适用于各类需动态视觉呈现的场景。

Youtu-Video FX内置60多种创意互动特效模版，每月持续更新，涵盖社交娱乐、电商素材生产、H5营销、影视内容制作等多场景。经过专门效果优化的模版，输出的成功率更高，进一步保证了用户体验。同时，依托腾讯自研的蒸馏加速技术，模型推理时长进一步缩短，成本显著降低，实现性能的领先性突破。

文章来源于腾讯云开发者社区，点击查看原文

腾讯云开发者社区

免费产品

推荐排行

官方网站

热门标签