近日,国内最大的一站式AI内容创作平台LiblibAI宣布上线腾讯旗下原生多模态生图模型混元图像3.0(HunyuanImage 3.0),以及腾讯优图视频特效模型Youtu-Video FX,以更强大、更丰富的模型能力助力平台上的千万图像创作者迸发灵感、高效创作。

用户可以通过LiblibAI平台上的图片视频生成器使用相关模型:

https://www.liblib.art/ai-tool/image-generator?modelid=21985968

图片

LiblibAI是国内最大的AI内容创作平台,致力于专业场景下的AI内容创作与分享,为创意工作者提供专业、可靠、高效的AI时代创作工具。LiblibAI模型/图像创作者已突破两千万,日均保持数百万级创作交互,用户自主训练的原创AI模型与工作流超50万,累计生成图片逾5亿张。

此次上线的腾讯混元图像3.0模型,参数规模高达80B,是首个开源工业级原生多模态生图模型,也是目前效果最好、参数量最大的开源生图模型,效果对标业界头部闭源模型。

混元图像3.0具备常识并能够利用知识进行推理;同时语义理解准确度高,并具备极致美学质感,能生成真实的高质感图片;可以解析千字级别的复杂语义,生成长文本文字,整体图像生成效果业界领先。

原生多模态指在技术架构上,通过一个模型完成文字、图片、视频与音频等多个模态的输入与输出,而非通过多个模型的组合实现图文理解、图片生成等任务。混元图像3.0是业界首个开源工业级原生多模态生图模型。

这意味着,混元图像3.0不仅拥有生图模型的画画能力,还具备语言模型的思考能力和常识。它就像一个自带“大脑”的画家,可以利用智能去思考图像的布局、构图、笔触,利用世界知识去推理常识性的画面。

比如,用户只需要输入提示词:“创作一幅插画,解释爱因斯坦相对论”,模型就可以自主生成完整的相对论科普,无需用户描述逐格内容。

图片

同时,混元图像3.0语义理解能力和美学质感也得到了大幅提升,可以实现对用户指令的精确生成,包括图片中的小字和长文本生成,都能较好地实现。

比如输入“你是一个小红书穿搭博主,请根据模特穿搭生成一张封面图片,要求: 1.画面左侧是模特的OOTD全身图;2.右侧是衣服的展示,分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包 风格:实物摄影,要求真实,有氛围感,秋季美拉德色系穿搭”。

在这个提示词下,混元图像3.0可以准确地把左侧博主的穿搭分解成右侧单独的衣物。

图片

再如有复杂文字要求的海报类需求,混元图像3.0也可以很好地生成。比如,升学季海报,主标题写着“志存高远,逐梦前行”,白色毛笔字,青春绿色调,一个青年背着书包,奔向象征校园的拱门/校门,天空中漂浮着尺子、三角板、画笔等相关元素。简约大气,扁平插画风格,下方副标语“青春启航,梦想花开”。

在这个提示词下,混元图像3.0可以准确地生成质感出众、图文并茂的海报图。

图片

可以看到,混元图像3.0不仅能生成复杂文本、复杂漫画、表情包,还能生成生动有趣的科普插画。这些能力能够大幅提升插画师、设计师等视觉创作者的效率,原来可能需要画几个小时的漫画,现在可能只需要几分钟就能实现;同时,没有美术功底和设计经验的内容创作者,也能创作出更丰富、生动的视觉内容。

Liblib此次也上线了腾讯优图的视频特效模型Youtu-Video FX,用户通过上传图片和选择特效模板,即可生成一段特效视频,将静态图像转化为充满活力、动感、有趣的视频画面。其接口参数简洁清晰,能兼容多种格式、不同分辨率及各类长宽比的图片,适用于各类需动态视觉呈现的场景。

Youtu-Video FX内置60多种创意互动特效模版,每月持续更新,涵盖社交娱乐、电商素材生产、H5营销、影视内容制作等多场景。经过专门效果优化的模版,输出的成功率更高,进一步保证了用户体验。同时,依托腾讯自研的蒸馏加速技术,模型推理时长进一步缩短,成本显著降低,实现性能的领先性突破。

文章来源于腾讯云开发者社区,点击查看原文