在大模型热火朝天的战斗之中,吉卜力拉了 OpenAI 一把。
4 月 7 日消息,OpenAI 正在测试为 GPT-4o 图像生成模型加入水印。
这是一款最初只对 ChatGPT Plus 用户开放的 ImageGen 模型,能够生成带有文字的图片和逼真的视觉作品。OpenAI 表示,该模型通过大量图像与文本的联合训练,展现出惊艳的视觉表现力和良好的上下文理解能力。
一周前的愚人节,OpenAI 首席执行官山姆·奥特曼刚刚宣布,ChatGPT 图像生成功能将向所有免费用户推出。很快,吉卜力风格的 AI 图迅速全网刷屏。
紧随其后,Midjourney 发布 AI 图片生成模型 Midjourney V7 版本并开启 alpha 测试。全新的 「草图模式」,支持对话式交互界面、实时编辑、语音识别生成功能。作为 OpenAI 的 「同款」,Midjourney 不甘示弱,和 OpenAI 暗暗较劲。
「吉卜力」(Ghibli) 是宫崎骏的动画工作室和美术馆的名称,其含义指的是撒哈拉沙漠上吹过的热风。风格特点主要是水粉与水彩的结合,动画的核心多与自然相关,又在自然中注入了高级灰,呈现出轻盈温柔、舒适幽静的视觉效果。
不仅如此,这种风格擅长通过同类色的色彩滤镜传达画面情绪,在同类色比重较高的画面中,又通过笔触和细微配色差异性来调度画面层次,运用暖光加强深浅层次。人物设计上则强调简约与绘本风格,使用干练的简笔线条勾勒形象。
OpenAI 正在为免费用户生成的图像测试水印,而 ChatGPT Plus 用户则可保存无水印图像。
今天就一起来看看 ChatGPT 的魔法,测评一下 OpenAI 的吉卜力实力。
prompt1:没有圆柏的北京 春天 阳光明媚 周末的马路上 人群穿梭 中景 吉卜力风格
prompt2:九又四分之三站台 有人在抽烟 旁边有人斜视 近景 吉卜力风格
prompt3:自由女神在电脑面前办公 戴着防蓝光眼镜 脸上流露出牛马的苦恼 特写 吉卜力风格
参与测评的玩家则有即梦、可灵和 ChatGPT,也看看各家所长。
即梦 AI
即梦的文生图,速度很快,平均 10 秒。
不仅如此,支持图片比例的调整,在完成图片生成后,可以挑选图片进行编辑,支持高清、细节修复、局部重绘、生成视频、扩图、消除笔等功能。
最终生成图如下。
prompt1:没有圆柏的北京 春天 阳光明媚 周末的马路上 人群穿梭 中景 吉卜力风格
prompt2:九又四分之三站台 有人在抽烟 旁边有人斜视 近景 吉卜力风格
prompt3:自由女神在电脑面前办公 戴着防蓝光眼镜 脸上流露出牛马的苦恼 特写 吉卜力风格
可灵 AI
可灵的等待时间略长于即梦,大约 30 秒生成完毕。
不过,可灵有着较好的生态组合,prompt 输入框的右上角就有着 DeepSeek 的提示词优化入口,图片生成完成后,又可以一键点击生成视频。也就是说,从文到图、再从图到视频,可灵给安排得明明白白。
最终生成效果如下。
prompt1:没有圆柏的北京 春天 阳光明媚 周末的马路上 人群穿梭 中景 吉卜力风格
prompt2:九又四分之三站台 有人在抽烟 旁边有人斜视 近景 吉卜力风格
prompt3:自由女神在电脑面前办公 戴着防蓝光眼镜 脸上流露出牛马的苦恼 特写 吉卜力风格
ChatGPT
根据 OpenAI 在官网的介绍,它的文生图模型 DALL·E 3 是基于 ChatGPT 原生构建的,它适用于利用 ChatGPT 做头脑风暴创意,只需要询问 ChatGPT 想在从简单句子到详细段落的任何内容中看到什么即可。
和可灵借助 DeepSeek 一样,ChatGPT 会自动为 DALL·E 3 生成量身定制的详细提示。
同时支持对图片的微调,即如果对某张图片大致满意,但又有不太合适的地方,可以要求 ChatGPT 用几句话进行调整。
点开右边的更多,可以看到创建图片的选项。选择创建图片,输入 prompt 即可。
整体来说,操作简单,流程丝滑,30 秒左右的时候已经产生基本色调,但整个过程的平均等待时长达到了 150 秒。
下面是成果。
prompt1:没有圆柏的北京 春天 阳光明媚 周末的马路上 人群穿梭 中景 吉卜力风格
prompt2:九又四分之三站台 有人在抽烟 旁边有人斜视 近景 吉卜力风格
prompt3:自由女神在电脑面前办公 戴着防蓝光眼镜 脸上流露出牛马的苦恼 特写 吉卜力风格
总结
即梦以平均 10 秒的生成速度脱颖而出,这种即时性对于需要快速迭代创意的用户来说是巨大的优势。然而,速度的提升往往伴随着细节把控的妥协。从生成效果来看,即梦的图像虽然能够快速呈现吉卜力风格的基调,但在情绪传达和层次调度上稍显不足。尤其是 prompt1 中 「没有圆柏的北京」 这一复杂场景,即梦的生成结果未能完全捕捉到 「高级灰」 与 「自然氛围」 的微妙平衡。
相比之下,可灵虽然生成速度稍慢 (约 30 秒),但通过 DeepSeek 的提示词优化和视频生成能力,构建了一个从文到图再到视频的完整生态。这种生态整合能力,尤其适合需要多模态输出的用户,比如动画创作者或短视频制作者。
从生成图片的质量上看,ChatGPT 对吉卜力风格有着更好的理解,色调和情绪的把控都相对准确。例如,在 prompt3「自由女神在电脑前办公」 这一脑洞场景中,ChatGPT 成功捕捉到了 「防蓝光眼镜」 与 「牛马的苦恼」 之间的微妙情绪张力,同时保持了吉卜力风格的轻盈与温柔。
这种优势源于 ChatGPT 的提示词优化机制。它能够根据用户输入的 prompt,自动生成更详细的描述,从而提升生成图像的精准度。此外,ChatGPT 支持对图像的微调功能,允许用户通过简单的语言描述调整细节,这种灵活性进一步增强了其在创意表达上的竞争力。
官网的展示中,ChatGPT 所生成的图片风格并不限于吉卜力,还有如下的细节图、脑洞图和创意图。
而对于图片版权问题,大方开源,使用 DALL·E 3 创建的图像归属用户,无需获得 OpenAI 许可即可重印、出售或销售。
不仅如此,OpenAI 确认正在开发 ImageGen API,未来开发者可利用该 API 构建应用产品,拓展图像生成模型的应用场景。开发者可以利用该 API 构建自己的应用产品,比如教育工具、设计辅助平台等。这种开放生态的构建,将推动 AI 生成图像技术的普及与创新。
ChatGPT 这次换了个思路。似乎显示着,大语言模型一枝独秀还不够,集成多种生态的多元赛道势头正好。用产品 cue 着中国的大模型:该你出牌了。
文章标题:ChatGPT 能靠吉卜力风翻盘吗?
文章链接:https://www.huxiu.com/article/4218368.html
阅读原文:ChatGPT 能靠吉卜力风翻盘吗?_禾湖财经网