即梦4.0文生图实测：出组图+剧情图、角色一致性、人像真实度、海报生成

AI工具应用9个月前更新 admin

266 0 0

上篇文章，我们见识了即梦4.0“一句话P图”的强大威力。

https://www.ainav.cn/5049.html

这一篇就来实测即梦4.0图像生成功能，分别4部分：

1：组图生成功能，保留人像一致性

2：图文信息图+连续剧情图生成

2：生成图像的真实度

3：海报生成与文字的准确性

节省积分小操作：我发现如果在同一批生成的不同海报或者人像，风格和颜色分布或者人脸很相似，因为现在4.0生成一张图要1个积分了（不知道公测版本是不是这样），直接一个提示词生成图像，就要4个积分，消耗的很快，所以我在提示词中就要求AI生成4张不一样的图或者只生成2张图，这样就是一个提示词=1张图，就控制了积分消耗了/减少抽卡成本，嘻嘻，这也是多图生成的反向操作。

1. 组图生成功能，保留人像一致性

在上一次的评测中我发现了即梦4.0的图像编辑模型能够保持一致性，多图+文本还能够生成组图功能。

我在想既然你4.0支持多模态生图，同一模型能够实现 文生图、图像编辑、组图生图。

那么图像生成的时候是不是也像图像编辑那样保持一致性呢？是不是也可以在同一批次也能保持 组图生图 呢？

而且Nano banana模型也是能够一个提示词+图片=一次性出多张一致性的图，是不是你也能行？

所以我就测了几波，结果是真的可以，并且出图质感超级真实，同一批出图一致性也非常棒，构图画面也还不错。

下面就请欣赏2k原图，大家也可以仔细点开图看看一致性如何：

1：Y2K甜心辣妹风格

组图1要求的一致性：年轻女性，Y2K甜心辣妹打扮与服装，街拍，超广角摄影，蓝天背景，明亮日光，人物在白色摩天轮前面，有粉色滑板和玩偶

提示词：

生成4张组图图片系列，需要对人物特征（乌黑长发、妆容精致、年轻亚洲女性）、服装（身穿粉色印花上衣、粉色短裙，搭配白色长袜套与手臂套，脚踩粉色厚底鞋，整体为Y2K甜心辣妹风格）、背景（巨大的白色摩天轮前进行时尚街拍、蓝天）和画面美学（时尚街拍, 真实感照片, Y2K美学, 超广角镜头, 低角度拍摄, 明亮日光, 硬朗光线, 高对比度, 高饱和度, 鲜艳色彩, 蓝天背景, 动态构图, 青春活力, 夏日氛围）的一致性。

第一张图：她将一个粉色滑板垂直立在身前，身体前倾，双手在脸侧比出俏皮的手势，直视镜头，表情充满自信与活力。

第二张图：她坐在自己的粉色滑板上，身体微微前倾，怀里抱着一只玩偶，眼神专注地望向镜头。

第三张图：她侧身坐在地上，伸出一只手仿佛要触摸镜头，姿态舒展而俏皮，眼神充满互动感。

第四张图：她悠闲地坐在平放在地上的粉色滑板上，双手捧着一只可爱的白色玩偶靠近脸颊，身体坐姿端正，眼神直视镜头，流露出甜美而自信的气质。

原图图片来源于微信公众号：AI异能狂想录

图片来源于微信公众号：AI异能狂想录

原图图片来源于微信公众号：AI异能狂想录

2:哥特战斗女仆

组图2要求的一致性：年轻女性，面容冷酷，眼神锐利，带有凌乱感的黑色及肩短发和稀疏的刘海，身穿简约的全黑色现代战斗风格着装，搭配黑色短袜和厚底马丁靴，并佩戴着一把武士刀，背景屋顶天台，黄昏时间，强烈明暗对比，电影感抓拍，日系暗黑摄影风格

提示词：

生成4张组图图片系列，需要对以下元素保持一致性。

人物特征：年轻的亚洲女性，面容冷酷，眼神锐利。留着一头带有凌乱感的黑色及肩短发和稀疏的刘海。妆容干净略带攻击性，强调眼部的锐利感。

服装：一套简约的全黑色现代战斗风格着装，由黑色无袖上衣和黑色百褶超短裙组成，搭配黑色短袜和厚底马丁靴。整体风格融合了朋克与校园元素。

装备：一把造型极简的全黑色武士刀（含刀鞘）。

背景：城市摩天大楼的屋顶天台，时间为黄昏。天空是深邃的蓝色，地平线处燃烧着落日的橙黄色余晖，与冰冷的城市建筑形成鲜明对比。

画面美学：电影感抓拍，日系暗黑摄影风格，强烈的视觉冲击力，标志性的低角度广角镜头，夸张的透视效果，利用黄昏的逆光形成鲜明的边缘光，高对比度，冷色调，充满故事氛围。

第一张图 (入座凝视)：

采用极低的仰拍视角。她坐在天台的水泥矮墙上，身体侧倾，一条腿向前伸展，另一条腿自然弯曲。她单手撑在身后，另一只手扶着竖立在身侧的武士刀刀柄，身体舒展，眼神冷漠而带着一丝挑衅地俯视镜头，背景是广阔的黄昏天空。

第二张图 (蹲踞逼近)：

镜头贴近地面，以极具压迫感的低角度仰拍。她呈蹲踞姿态，身体前倾，极具张力地靠近镜头。她双手扶着斜持在身前的武士刀，刀鞘指向天空，眼神锐利地锁定镜头，仿佛在审视眼前的目标。

第三张图 (远眺戒备)：

中景，平视偏低的视角。她背对镜头侧身站立，双手握住武士刀刀柄，将刀水平置于身后腰间，做出经典的戒备姿态。她的目光越过肩膀，凝视着远方的一座标志性摩天大楼，展现出一种守望者的孤高与警惕。

第四张图 (静待风起)：

她坐在天台地面上，背靠着水泥矮墙，双腿随意地交叠。武士刀被她抱在怀中，如同伙伴一般。她没有看镜头，而是微微仰起头，闭上双眼，仿佛在感受天台的夜风拂过脸颊，神情在冷峻之外流露出一丝难得的平静与安宁。

图片来源于微信公众号：AI异能狂想录

原图图片来源于微信公众号：AI异能狂想录

2.图文信息图+连续剧情图生成

通过这个例子能看出这个4.0模型背后可能是集成了大模型优化+文生图理解出图，说明一下就能出一系列图，堪称Agent自动模式

图文信息图生成

这次更新对于汉字文字的控制力也提升了，而且一些简单的提示词就可以生成出图文出来了，排版也没问题，要是在以前，恐怕得出每个素材图+文字，然后一步一步地排版

提示词（分辨率用的是9:16）：

手账风格，做一个土豆炒牛腩的步骤教程图，步骤说明要中文，要配图，要文字说明

连续剧情图生成：

这个连续剧情图生成的要求对于角色的一致性更是考验！以往在banana模型和即梦4.0出现之前，我们只能用comfyui工作流或者gpt4o来对一些人物或者动画角色做延展一致性，相当困难的抽卡。

而现在4.0用一段提示词就能够出连续剧情图，其中妆造、背景、人物基本保持一致性，非常难得！

提示词：

可爱风格，做一组图系列的完整内容，要图片+文字说明，最多4张图就能够完结内容。

内容是：小朋友在森林里和爸爸妈妈走散了，又害怕又无助，蹲在地上快要哭出来。这时，森林里那些善良可爱的小生灵们发现了ta——发着微光的萤火虫像小灯笼一样汇聚过来，一只毛茸茸的小松鼠捧着坚果好奇地探出头，甚至还有一只温柔害羞的梅花鹿慢慢走近。

它们用自己独特的方式安慰和帮助小朋友，萤火虫聚成一条闪烁的光带，小松鼠蹦跳着指引方向，梅花鹿俯下身邀请小朋友靠近。在这群森林朋友的带领下，小朋友穿过树丛，终于听到了爸爸妈妈焦急的呼唤声，飞快地跑过去，扑进了他们的怀抱。一家团聚后，小朋友回头看向森林，那些小朋友们正在暗中闪闪发亮，悄悄地挥手告别。

3. 生成图像的真实度

前几个月时间gpt4o不是流行了模糊的自拍照吗？后面这股风又吹到了豆包即梦3.0模型身上。

提示词：

请画一张极其平凡无奇的iPhone自拍照，没有明确的主体或构图感，就像是随手一拍的快照。照片略带运动模糊，阳光或店内灯光不均导致轻微曝光过度。角度尴尬、构图混乱，整体呈现出一种刻意的平庸感，就像是从口袋里拿手机时不小心拍到的一张自拍。主角是_____，背景是_____。

这是即梦3.0效果

下面是如今4.0版本的效果，虽然两者模型都非常真实，但是4.0的版本更是amazing级别的了，在3.0/3.1 版本需额外添加 “极其平凡”“轻微曝光”“平庸感” 等细节描述，才能生成更贴近真实日常的图像时；

而 4.0 无需或者更少使用附加指令，仅用普通的人像提示词（如 “高中生自拍照”“樱花树下女生自拍”），就能生成出符合日常场景的真实质感（如自然的曝光、随意的构图）

而且在3.0 和 3.1 版本中存在 “固定脸模” 问题，生成的人物面部存在重复或相似的模板化特征；4.0 则解决了这一问题，人物面部更具多样性，更进一步提升了图像的真实度和独特性。

这里分享一些出图的提示词：

一张极其平凡无奇的 iphone 自拍照，没有明确的主体或构图感，就是随手一拍的快照。照片略带运动模糊，教室日光灯与窗边阳光打光不均匀导致的轻微曝光过度，整体呈现出一种刻意的平庸感，就像是从书包里拿手机时不小心拍到的一张自拍。主角是高中生
白色樱花树下的自拍照，女生，看向镜头，撑着透明伞，背景明亮，白天，黑色长发，粉色外套，斜向构图，一只樱花树作为前景
一张极其平凡无奇的iphone自拍照，没有明确的主体或构图感，就是随手一拍的快照。照片略带运动模糊，阳光或室内打光不均匀导致的轻微曝光过度，整体呈现出一种刻意的平庸感，就像是从口袋里拿手机时不小心拍到的一张自拍。主角是coser雷姆。

男生也来生成几个看看效果，可以看到在一批次当中用不同的要求生成图像，后面三张图的人像居然长得差不多，但是每张图都不一样：

4.海报文字生成的准确性

其中海报的中文文字渲染得也不错！准确率高，美学也行

比如提示词：

奥斯卡获奖电影海报设计，红色为主色调，洋溢喜庆氛围。上方以金色书法字体写就「盛世篇章锦绣山河」，并标注“（1949 – 2025）”，见证岁月征程。中间展开的卷轴上，立体山水建筑景观精妙呈现，传统塔楼、亭子错落其间，树木山石点缀，细节丰富。红色绸带飘动，两只金色飞鸟翱翔，赋予画面动感与生机。底部标注「2025.10.1」，搭配「举国同庆盛世中华」「谱写时代荣光共筑大国之梦」文字，整体融合传统元素与现代设计，东方美学，极简主义，极致构图，电影光线，极致像素，高清出图，32K，HDR
中国国风大片敦煌美学海报：画面是恢宏的沙漠与古老城墙，画面中央一位身穿华丽汉服舞者舞动长袖，身后壁画化的飞天仙女随风飘扬，丝绸若隐若现。顶部有书法风格的大字：”千年敦煌，梦回西域”，下方配小字：”岁月如沙，艺术如金，守护国风之美。”，整体色调金黄暖色，丝绸和胡杨树倒影呼应敦煌意象，画面结构富有层次，极富文化气息。

总结

测完这三大块，我直接好家伙。

以前玩AI绘画，最头疼的就是角色捏不准，抽卡抽到心态爆炸。但即梦4.0这次的“组图一致性”，真的让我看到了“AI出片”的希望，以后真能用它来画漫画、做分镜了。

照片的真实感和海报的准确性，算是更好的惊喜。

总的来说：

提示词遵循更好、角色特征一致性保持较好、深度理解的能力再次增强、多图输出+组图输出，中文文化理解与中文文字生成独一档的存在。

缺点就是：有时候一些提示词出图效果太过写实了，缺少一点美感，以及一些2k的图放大之后不太清晰，不太像是真的2k图，还有就是积分消耗更多了，1张图要1积分了，以前是1积分4张图。

好了，本期就到这里了，感谢您的观看，我们下期再见~

本文授权转载自，未经授权，禁止转载：https://mp.weixin.qq.com/s/LOBHX70Qb9OxQ6pEL34rLA