ChatGPT 能靠吉卜力风翻盘吗？

猜您喜欢

65 岁，中国芯片「投资教父」，再造英特尔

5 月之前

全球风投交易量暴降 32%！一季度 AI 赛道融资额占 58%，亚洲不足 10%｜钛媒体 AGI

5 月之前

在大模型热火朝天的战斗之中，吉卜力拉了 OpenAI 一把。

4 月 7 日消息，OpenAI 正在测试为 GPT-4o 图像生成模型加入水印。

这是一款最初只对 ChatGPT Plus 用户开放的 ImageGen 模型，能够生成带有文字的图片和逼真的视觉作品。OpenAI 表示，该模型通过大量图像与文本的联合训练，展现出惊艳的视觉表现力和良好的上下文理解能力。

一周前的愚人节，OpenAI 首席执行官山姆·奥特曼刚刚宣布，ChatGPT 图像生成功能将向所有免费用户推出。很快，吉卜力风格的 AI 图迅速全网刷屏。

紧随其后，Midjourney 发布 AI 图片生成模型 Midjourney V7 版本并开启 alpha 测试。全新的「草图模式」，支持对话式交互界面、实时编辑、语音识别生成功能。作为 OpenAI 的「同款」，Midjourney 不甘示弱，和 OpenAI 暗暗较劲。

「吉卜力」（Ghibli）是宫崎骏的动画工作室和美术馆的名称，其含义指的是撒哈拉沙漠上吹过的热风。风格特点主要是水粉与水彩的结合，动画的核心多与自然相关，又在自然中注入了高级灰，呈现出轻盈温柔、舒适幽静的视觉效果。

不仅如此，这种风格擅长通过同类色的色彩滤镜传达画面情绪，在同类色比重较高的画面中，又通过笔触和细微配色差异性来调度画面层次，运用暖光加强深浅层次。人物设计上则强调简约与绘本风格，使用干练的简笔线条勾勒形象。

OpenAI 正在为免费用户生成的图像测试水印，而 ChatGPT Plus 用户则可保存无水印图像。

今天就一起来看看 ChatGPT 的魔法，测评一下 OpenAI 的吉卜力实力。

prompt1：没有圆柏的北京春天阳光明媚周末的马路上人群穿梭中景吉卜力风格

prompt2：九又四分之三站台有人在抽烟旁边有人斜视近景吉卜力风格

prompt3：自由女神在电脑面前办公戴着防蓝光眼镜脸上流露出牛马的苦恼特写吉卜力风格

参与测评的玩家则有即梦、可灵和 ChatGPT，也看看各家所长。

即梦 AI

即梦的文生图，速度很快，平均 10 秒。

不仅如此，支持图片比例的调整，在完成图片生成后，可以挑选图片进行编辑，支持高清、细节修复、局部重绘、生成视频、扩图、消除笔等功能。

最终生成图如下。

prompt1：没有圆柏的北京春天阳光明媚周末的马路上人群穿梭中景吉卜力风格

prompt2：九又四分之三站台有人在抽烟旁边有人斜视近景吉卜力风格

prompt3：自由女神在电脑面前办公戴着防蓝光眼镜脸上流露出牛马的苦恼特写吉卜力风格

可灵 AI

可灵的等待时间略长于即梦，大约 30 秒生成完毕。

不过，可灵有着较好的生态组合，prompt 输入框的右上角就有着 DeepSeek 的提示词优化入口，图片生成完成后，又可以一键点击生成视频。也就是说，从文到图、再从图到视频，可灵给安排得明明白白。

最终生成效果如下。

prompt1：没有圆柏的北京春天阳光明媚周末的马路上人群穿梭中景吉卜力风格

prompt2：九又四分之三站台有人在抽烟旁边有人斜视近景吉卜力风格

prompt3：自由女神在电脑面前办公戴着防蓝光眼镜脸上流露出牛马的苦恼特写吉卜力风格

ChatGPT

根据 OpenAI 在官网的介绍，它的文生图模型 DALL·E 3 是基于 ChatGPT 原生构建的，它适用于利用 ChatGPT 做头脑风暴创意，只需要询问 ChatGPT 想在从简单句子到详细段落的任何内容中看到什么即可。

和可灵借助 DeepSeek 一样，ChatGPT 会自动为 DALL·E 3 生成量身定制的详细提示。

同时支持对图片的微调，即如果对某张图片大致满意，但又有不太合适的地方，可以要求 ChatGPT 用几句话进行调整。

点开右边的更多，可以看到创建图片的选项。选择创建图片，输入 prompt 即可。

整体来说，操作简单，流程丝滑，30 秒左右的时候已经产生基本色调，但整个过程的平均等待时长达到了 150 秒。

下面是成果。

prompt1：没有圆柏的北京春天阳光明媚周末的马路上人群穿梭中景吉卜力风格

prompt2：九又四分之三站台有人在抽烟旁边有人斜视近景吉卜力风格

prompt3：自由女神在电脑面前办公戴着防蓝光眼镜脸上流露出牛马的苦恼特写吉卜力风格

总结

即梦以平均 10 秒的生成速度脱颖而出，这种即时性对于需要快速迭代创意的用户来说是巨大的优势。然而，速度的提升往往伴随着细节把控的妥协。从生成效果来看，即梦的图像虽然能够快速呈现吉卜力风格的基调，但在情绪传达和层次调度上稍显不足。尤其是 prompt1 中「没有圆柏的北京」这一复杂场景，即梦的生成结果未能完全捕捉到「高级灰」与「自然氛围」的微妙平衡。

相比之下，可灵虽然生成速度稍慢（约 30 秒），但通过 DeepSeek 的提示词优化和视频生成能力，构建了一个从文到图再到视频的完整生态。这种生态整合能力，尤其适合需要多模态输出的用户，比如动画创作者或短视频制作者。

从生成图片的质量上看，ChatGPT 对吉卜力风格有着更好的理解，色调和情绪的把控都相对准确。例如，在 prompt3「自由女神在电脑前办公」这一脑洞场景中，ChatGPT 成功捕捉到了「防蓝光眼镜」与「牛马的苦恼」之间的微妙情绪张力，同时保持了吉卜力风格的轻盈与温柔。

这种优势源于 ChatGPT 的提示词优化机制。它能够根据用户输入的 prompt，自动生成更详细的描述，从而提升生成图像的精准度。此外，ChatGPT 支持对图像的微调功能，允许用户通过简单的语言描述调整细节，这种灵活性进一步增强了其在创意表达上的竞争力。

官网的展示中，ChatGPT 所生成的图片风格并不限于吉卜力，还有如下的细节图、脑洞图和创意图。