腾讯今日宣布混元图像模型2.1开源,支持原生2K生图和中英文原生输入。同时,腾讯还开源了“PromptEnhancer文本改写模型”,该模型可以自动补全用户输入的描述,如输入“画一只可爱的猫”,会自动补全为“橘色短毛猫趴在格子桌,爪边放饼干,水彩风”。此外,该模型支持中英文双向转换,用中文说“画带‘Dream’的星空蛋糕”也能精准呈现,避免表达模糊。
混元图像模型2.1支持长达1k tokens的复杂语义超长prompt,支持多主体分别描述与精确生成。例如,一幅由四个画格组成的卡通漫画,以2x2的网格形式排列,讲述了一只变色龙的难题。每个画格详细描绘了变色龙在不同环境下的变化,从完美的伪装到颜色系统的故障,整体呈现出线条清晰、色彩鲜明的四格漫画作品风格。
新版本对图像中文字的渲染和场景细节的把控更为稳定,减少了常见的文字错误与理解偏差。例如,一个充满未来感的泳池映照着深邃的宇宙,泳池表面闪耀着星云、旋转的星系和闪烁的星光。青色、洋红色和紫色的霓虹灯照亮整个区域,营造出赛博朋克氛围。泳池上方漂浮着紫色和粉色的文字“Prompt Enhancer”,周围环绕着柔和的光晕,在水面上投射出反射的光芒。背景是带有空灵光环和宇宙尘埃的遥远行星,增强了超现实梦幻的氛围。
混元图像模型2.1还支持生成各种风格,如真实感人物、漫画与搪胶手办等。例如,在酒馆外面,一个卖报的小男孩倚靠着一根大理石质地的罗马柱,蹲在地上专注地倾听酒馆内传来的钢琴声。酒馆内部,一个少女背对着镜头坐在老式木质钢琴前弹奏,莫奈的印象派画面营造出夏日浪漫宁静的氛围。
该模型具备视觉-语言多模态编码器,更好地理解场景描述、人物动作和细节需求。使用多语言的ByT5文本编码器增强文字渲染能力。结构化caption提供多层次的语义信息,大幅提升模型在复杂语义上的响应能力。创新性引入OCR agent和IP RAG,补齐通用VLM captioner在密集文本和世界知识描述短板。文生图模型采用单双流网络架构,拥有17B模型参数。Refiner模型采用类似图生图的条件生成结构,显著减少畸形并提升图像质感和清晰度。32倍压缩率VAE降低训练难度,2K图生成耗时与同类模型1K图生成耗时持平。多分辨率的repa loss加速模型收敛,meanflow推理加速首次在工业级模型上跑通,推理步数由100步降至8步,显著提升蒸馏效果。
混元文本改写模型(PromptEnhancer)是首个系统化的工业级改写模型,通过SFT训练和GRPO训练,使得文本生成的图像语义大幅度提升。该模型提出了涵盖6大类24个细粒度考点的AlignEvaluator奖励模型,支持同时中英文改写。