文 | 硅基星芒
AI 的渗透正无远弗届。正如很多插画网站,添加“AI 生成” 标签已是标配。
从艺术角度看,AI 生成的图片,似乎争议依然巨大。但不得不承认的是,在工作和学习中,AI 图片生成却是一个提高效率的好办法。
目前,多模态大模型领域中,支持文生图的模型数量正在指数级增长。
为了解决大家的“ 选择困难症”,这次我们选择了 6 个模型进行测评。
参赛选手如下:
腾讯混元、智谱 CogView-4、通义千问、即梦、可灵和 Gemini 2.5 Flash Image。
其中,前段时间在 LMarena 上爆火的模型 nano-Banana,据说吊打一切文生图模型。
现在也已经“ 验明正身”,正是 8 月 27 日 Google 发布的 Gemini 2.5 Flash Image。
在测评前,先叠个甲:
对美术方面,实在是一窍不通。
因此,我们不谈复杂的理论,也不聊晦涩的美术史。
只是以一个普通人的视角,借助 AI 给出的评分标准,来评价一下到底“ 好不好看”。一家之言,仅供参考。
01 第一维度:基础美学与真实感
考验目标:AI 的基本画功,好不好看、真不真实。
题目:傍晚阳光下的少女
Prompt: 超写实照片,一个有雀斑的年轻女子,面带微笑,在黄金时刻坐在窗边,温暖的阳光穿过她的头发,电影感光线,8K,高细节。
评分标准:
测评结果:
腾讯:人物的皮肤质感过于光滑,仅有微小瑕疵。
智谱:皮肤过于光滑,雀斑形状和分布过于均匀和刻意,属于明显瑕疵。
千问:双手比例和形态非常不自然,完全没有写实感,“ 一眼 AI”,属于明显瑕疵。
即梦和可灵:非常出色,接近完美,不愧是“ 专业画手”。
Gemini:皮肤质感过于光滑细腻,写实感还是差了一些。
总体来说,对于人物的塑造,各个 AI 还是比较拿手的。
虽然有些模型生成的图片略有瑕疵,但整体观感不错。
02 第二维度:想象力与创意
考验目标:AI 的脑洞有多大,对于现实中不存在的事物的创造能力。
题目:星云构成的雄狮
Prompt: 一头雄伟的狮子,由旋转的星系和星云雕刻而成,宇宙尘埃构成了它的鬃毛,眼睛是闪烁的恒星,背景是深邃的宇宙。
评分标准:
测评结果:
这一轮的题目看来对 AI 难度有点高了。
腾讯:第一眼看上去很华丽,很有气势,但似乎理解出现了一些偏差。这并非一个由星云构成的生命体,而是一尊宇宙材质的宏伟雕像。
智谱:生成了一个宇宙背景下的实体狮子,完全彻底的概念性跑偏。
千问:“ 半神半兽” 的感觉,实体狮子与星云的混合,离要求还是有一定差距。
即梦:科幻感十足,但狮子身体仍然是实体而不是星云构成的,观感有一定新意。
可灵:本轮的最佳选手,视觉效果很好,实现了与星云的融合。
Gemini:狮子的实体也是不透明的,不过神韵、气质和细节都还不错。
看来,对于现实中不存在的事物,AI 出现概念理解错误的几率会大大增加,而想象能力也是目前模型有所欠缺的地方。
可能的原因也比较多,例如训练数据存在一定的局限性、对物理世界存在路径依赖或是概念融合能力的欠缺。
03 第三维度:指令理解与执行力
考研目标:AI 听不听话,能不能正确遵从指令。
题目:水果篮里的数学题
Prompt: 一个木碗里装着三个红苹果和两个黄香蕉,放在一张白色的桌子上。
评分标准:
测评结果:
这肯定是人类眼中最简单的一道题,但对 AI 来说难度可不低。
六个模型中,只有智谱、千问和 Gemini 正确完成了如此“ 简单” 的指令。
即梦和可灵都搞错了苹果的数量,而混元更是漏洞百出。
根据这一轮的结果,我们也可以得到一个推断:
AI 生图模型并非按照我们的数学概念和美术流程来工作。
或者说,它并不是按照我们最直接的思路,画一个苹果,再画一个香蕉,直到数目符合要求。
指令中的 3 这个数字,对 AI 来说,并不代表一个精确的数量,而是一个需要渲染的“ 构图特征”。
而在向量空间中,“ 三个苹果” 和“ 四个苹果” 可能是非常接近的。
同时,我们也无法得知提供给上述 AI 的训练集到底是什么样的。
但是,标签肯定是做不到完全精准的,AI 只能长时间在海量但又不完全精确的数据中学习。
AI 的最终目标,是让生成的图片最接近于它见过的“ 三个苹果”,而不是“ 让生成的苹果数量等于 3”。
04 第四维度:风格模仿与驾驭力
考验目标:AI 模仿特定的艺术家或艺术流派的能力。
题目:水墨风的机甲
Prompt:一个巨大的中国古代机甲战士,站立在云雾缭绕的山谷中,中国传统水墨山水画风格。
评分标准:
测评结果:
又是一道有点抽象的题目。
表现最好的是 Gemini,实打实绘制出了山水画风格,大体符合要求。
千问生成的机甲看起来确实气势磅礴,细节处理也很到位,但很明显,这是素描而不是水墨风格,只能说是“ 有形无神”。
即梦生成的图片也并非水墨画,而是带有写实感的数字绘画,更像是个游戏的概念设计图。
可灵则发挥了优秀的拼接能力,在水墨风格的背景中插入了日式机甲,风格完全割裂。
混元和智谱生成的图片则有些奇怪,水墨画风格没实现的同时,也没理解“ 机甲战士” 这个主体,画中人更像是个古代武士,完全偏离了题目要求。
如此看来,AI 尚且不具备完全模仿某个艺术家或艺术流派的能力,能够做到“ 形似神不似” 就实属不易。
05 第五维度:文化理解与概念表达
考验目标:AI 能否理解特定的文化以及是否能够表达抽象的概念。
题目:中秋佳节的汉服少女
Prompt:一位美丽的年轻女孩,身穿中国传统汉服,庆祝中秋节,她手持一个精致的兔子灯笼,身后是明亮的满月。
评分标准:
测评结果:
Gemini 和可灵都拿下了相当高的分数,展现出了较高的文化素养。
对于汉服的概念理解比较深刻,而月亮、灯笼、园林等文化元素也都齐全。
推测其训练数据中,中国传统文化的相关素材标注是比较准确的。
两家模型的算法能够把“ 汉服” 等关键词正确关联到视觉特征上。
即梦和千问在美观度和氛围塑造上也很成功,不过汉服的结构有些模糊。
尽管这种古风画作可能意味着 AI 对于服饰历史知识的了解程度不够深刻,但满足“ 好看” 这一要求仍然不在话下。
智谱生成的则是唯一采用了动漫风格的图片,对历史文化的复现程度显然是太浅了。
混元生图看似美观,但在服饰结构上有比较明显的错误,即一定程度上的文化混淆。
因此,AI 在文化表现上也是存在“ 双刃剑” 效应的。
顶级 AI 具备相当可观的文化知识,对于传播、创作优秀传统文化会有很大的帮助。
而部分 AI 还存在“ 刻板印象”,受到低质量数据的影响,反而会加剧大众的文化误解。
06 总评
本次测评的总分如下:
Gemini:44 分
可灵:40 分
即梦:39 分
千问:38.5 分
智谱:33.5 分
腾讯:28.5 分
从效果上来看,千问、即梦、可灵和 Gemini 的文生图效果都是很不错的。
尤其是前身为 nano-Banana 的 Gemini 2.5 Flash Image,拿到了最高的分数,证明了它并非浪得虚名。
不过,我们的核心目标还是要透过现象看本质。
人们总是惊叹于 AI 的“ 创造力”,它足够以假乱真,绘画水平也超越了大部分人。
但事实上,AI 输出的图片,并非源于类似人类的灵感或意图。
AI 作画,并非像一个画手一样,从一张白纸开始一笔一笔画出事物。
而是从一张充满随机噪声点的“ 混沌画布” 开始,根据提示词进行降噪。
也就是说,AI 作图并非基于逻辑推理,而是基于概率。
对于苹果生成数量的错误,可能就是因为“ 构成一幅和谐的水果静物图” 这个在训练数据中频繁出现的指令,其概率权重超过了“3” 这个脆弱的数字符号。
对于星云和狮子之间的挣扎,与“ 狮子” 相关的像素模式可能是“ 实体” 和“ 毛发”,而与“ 星云” 相关的则是“ 气体” 和“ 半透明”。AI 无法同时满足两个相互矛盾的概率分布,因此降噪过程就无法成功。
对于水墨风的机甲,则可能是 AI 背后的数据库在发挥作用。如果数据库中有大量“ 水墨”、“ 机甲” 等高质量的标签,降噪过程也会被顺利引导至一个高质量的概率空间。
简单的来说,AI 不是在根据指令绘画,而是根据知识储备,试图通过降噪给出最可能符合指令的图像。
至于错误,文生图是一个很复杂的过程,很遗憾,我们无法确切得知问题出在哪一环节。
也因此,至少目前为止,我们并不是“ 创作者”,而是“ 概率的引导者”。
更多精彩内容,关注钛媒体微信号 (ID:taimeiti),或者下载钛媒体 App