文|乌鸦智能说
今年 6 月,乌鸦君曾写过,反 AI 平台 Cara 在短短一周时间里,用户量就从 4 万增至 80 万,一跃成为美国社交应用榜 Top5,甚至超过了 X、Reddit、Discord 等。(详见 《9 天用户暴涨 80 万,跻身美国社交 APPTop5!这款反 AI 产品火了》)
今天,乌鸦君给大家讲下另一个成功的反 AI 产品,GPTZero。
与 Cara 主打防止 AI 偷图不同,GPTZero 能够准确识别 AI 创作的内容,进而有效防止 AI 生成内容的滥用。
随着 AI 技术的渗透,GPTZero 的客户群体正在快速增长,用户画像已经从单一的教师群体扩展为,政府采购机构、慈善机构、招聘经理、数据标注员等。在过去 6 个月里,GPTZero 的用户规模从 100 万增长到 400 万,增长 300%。
不仅用户量越来越多,收入还蹭蹭涨。随着用户量的快速上涨,GPTZero 的 ARR(经常性年收入) 增长了 500%,并已经实现盈利。
越好懂越是 AI,GPTZero 有打假绝招
这两年,最先开始打假 AI 的是美国中学老师,他们从去年 4 月就开始了。
老师为什么要打击 AI 呢?经常写家庭作业的朋友们就知道了,有软件帮忙写作业是多么爽。而无论是中国还是美国的孩子,都非常依赖借助 AI 来写作业,所以我国 AI 搜题工具 (作业帮旗下 Quetion.AI 和字节旗下 Gauth) 出海成绩优异。这个现象在 ChatGPT 发布后变得更猖狂。
道高一尺魔高一丈,从去年开始就有一些聪明的老师想到,用 AI 来打败 AI。他们广泛地使用一个叫做 GPTZero 的 AI 文本检测工具。GPTZero 公司也迅速与美国教师联合会达成了协议。
有了这个工具,妈妈再也不用担心 AI 帮孩子写作业了。
AI 最懂 AI,作为一个反 AI 产品,GPTZero 主打的是识别文本中的 AI 成分。老师们只需要在网页上放上 GPTZero,那么你在作业里放了任意 GPT-4、Claude 等大模型生成的文本内容,都逃不过它的眼睛。
它还有相对精确的数据,能算出小孩抄了多少,情节严重者当然会引起老师的重视。
这样的 AI 工具,对于惯用 AI 搜索的人群也有意义。AI 搜索有时会引用纯 AI 生成的文章,普通人有时很难辨别出 AI 生成的内容,从而错误地引用。
比如用 Perplexity 搜索 「谷歌前 CEO Eric Schmidt 的 AI 无人战斗机」,谷歌引用一条信息来源 (网页中文章名为 《谷歌前 CEO Eric Schmidt 正在研发军用人工智能无人机》),其文章被检测出 AI 成分达到了 98%。
▲用 Perplexity 搜索 「谷歌前 CEO Eric Schmidt 的 AI 无人战斗机」,Perplexity 的回答出现了问题,P2 为 Perplexity 引用的网址,该网页刊登 AI 生成文章的网页
为了更好地了解 GPTZero 打假 AI 的能力,乌鸦君将不同类型的内容交给 GPTZero 识别。从结果来看,GPTZero 基本能够准确分辨人或者 AI 创作的内容。
比如,在我的提示下,GPT-4 创作了小故事 《西游记新编 (一)》,GPTZero 准确地检测出 AI 内容 (AI 生成内容占比 100%)。另外,对于 Claude 和文心一言创作的内容,GPTZero 也能够得出较准确的结论。
而面对 AI 和人类共同创作的内容,比如我和 GPT-4 共同撰写的小故事 《西游记新编 (二)》,GPTZero 识别的结果会相对偏离真实情况。
说起来,GPTZero 的工作原理其实并不复杂,就是通过 AI 算法分析文本的复杂度和模式,从而判断其可能的来源。
乌鸦君将其翻译成下面这个秘诀,记住它,你也能变成一眼识 AI:
越简单的文字越可能是 AI 写的,越难懂的文字越可能是人类写的。
对比 AI 来说,人类写出的东西的不难被理解,而且还会不自然。这有些逆反普通人的认知了。当 GPTZero 对一段文字的困惑越多,说明这篇文章越接近人类写作的特征。
原因在于,AI 生成的文本内容,文字会更可能通顺而自然,也更容易预测,不会给 GPTZero 造成理解障碍。而人类的写作则不同,它往往会包含更具创意的词语选择,甚至偶尔还会出现拼写错误等问题,会让 GPTZero 萌生出多个问号。
还有一个识别 AI 的诀窍,就是人类写作的节奏感,AI 学不来。
文字的节奏感,指的是人们文字在表达过程中通过声调、节奏、押韵等方式所形成的音乐感和流畅感。这东西 AI 根本学不会,AI 比人类偏好书写句子长度平均、结构常规、风格单调的东西。
说完了诀窍,我们看看 GTPZero 还有哪些功能。除了最核心的 AI 文本内容检测外,GTPZero 还内置了 「人类写作认证」,这是他们基于专有写作模式分析器推出的功能 (认证文档确实由人类写作,而非 AI 生成)。
GPTzero 在去年 1 月走红,最初的客户是教师群体,宣称自己可以帮忙检测 AI 生成的学生作业,到如今,GPTZero 的客户群体已经从单一的教师群体扩展为,政府采购机构、慈善机构、招聘经理、数据标注员等。
GPTZero 将远期目标定位于 AI 幻觉检测。由于幻觉是生成式 AI 行业的难以根除的问题,这家公司预备推出基于 LLM 训练数据集的免费 AI 文本版权检查,帮助他们生成更广泛的幻觉检测训练数据。
AI 打假方兴未艾,盘点五大 AI 打假工具
随着 AI 生成创新工具集中爆发,AI 假图假视频盛行。
从去年开始,AI 打假应用发展迅猛,可检测的类型涵盖文字、图片、视频、音频等内容形态,技术涉及分类器、水印和元数据等。
除了刚刚提过的文字检测工具,在图像检测领域,也出现了许多检测图像的真实性、来源以及是否经过篡改的反 AI 工具。比如通过分析图像的像素特征、元数据、与已知数据库的对比等方式来进行判断,例如 AI or Not 和 Nuanced。
在声音、音频内容检测工具方面,有以下一些技术可以实现,如基于音频特征分析 (细分为韵律特征、频谱特征分析),还有利用机器学习和深度学习模型 (细分为训练分类器、异常检测) 等。例如 Project Mockingbird(声音检测)、AI-generated Detector(音乐检测)
以下是一些乌鸦君认为值得关注的 AI 检测型工具:
1、多媒体内容审核工具 Hive AI,打击电商虚假宣传
AI 生成时代,可能会让虚假宣传更加猖獗。就拿网购来说,如果大量商家使用 AI 生成式图片,普通人可能会相信虚假的效果而去购买商品。商家有必要去克制 AI 假图、假视频在购物平台上的含量。
Hive AI 就是当下较为全能的 AI 检测工具,无论是文本、图像还是视频,都能帮助客户识别 AI 内容。通过将上传的照片与在线文本材料、图片、视频库进行对比,找出 AI 生成的内容。
Hive AI 如今已经有各种各样的使用案例,主要应用于社交和电子商务平台,比如支付平台 Visa、网剧平台 Netflix、社交平台 Reddit。凭借在多个平台进行识别的优势,Hive AI 在去年完成新一轮 2 亿美元融资 (但信息未公开)。
2、高端多媒体检测工具 AI or Not,已获 10 万用户
AI or Not 是面向新闻媒体、社交平台、电子商务的多媒体检测工具,和上述工具不同的是,它能提供详细的分析报告。
具体来说,AI or Not 可以分析文本内容,识别是否由 AI 生成,如 GPT-3 或其他语言模型。图片方面,它可以利用深度学习技术检测图像是否经过 AI 生成或编辑,识别深伪 (Deepfake) 图像,也就是说,它对 AI 图像检测的力度更大。
另外,它也可以分析视频内容,检测是否经过 AI 生成或修改,如 Deepfake 视频。提供帧级别的分析,确保检测结果的准确性和细节。
目前月度收费为个人版 5 美元/月,企业版 250 美元/月。该收费工具目前已经获得了 10 万用户,看来国外比较愿意为这种社交内容打假付费。
▲使用范例
3、监控也要防范 AI 造假,Nuanced 准确率高达 97%
相比上面主要面向深度仿真、艺术原创性的 AI or Not,Nuanced 更适用于超市监控、货物仓储情况等对图像质量要求不高的低端场景。
Nuanced 这个词本身有 「微妙的」「具有细微差别的」 的意思。也就是说,Nauanced 可以对一段监控报告视频进行精细的检测。具体来说,Nauanced 不只是检测人和货物,还能辨别细微差别,例如面部表情、人们之间的互动以及环境背景。
另外,Nuanced 实时高效处理大量图像,适合在线和离线应用。
4、预防电话诈骗,检测工具 Project Mockingbird 准确率达 90%
AI 声音的影响可能比我们想象中得更大,不法分子盯上老年人,利用 AI 生成的声音进行诈骗。央视网报道,去年 11 月,有骗子用 AI 生成的受害者亲人的声音诈骗,骗去 40 万。
杀毒软件 McAfee 公司推出声音检测工具 Project Mockingbird,帮助用户检测、阻止 AI 生成的语音诈骗行为的项目。它基于由 AI 驱动的 「深度伪造」 音频检测技术,在聆听给定的语音之后,可检测音频是否为真人发音。
为了在视频中精准定位并识别可能由 AI 生成的音频片段,Project Mockingbird 还融合了 AI 驱动的上下文、行为和分类检测模型。官方声称该工具成功率超过 90%,目前还不向用户收取额外费用。
5、一分钟扫 5000 首歌,帮助唱片平台防止发布的 AI 音乐侵权
AI 生成的音乐一直伴随着版权争议,就连 OpenAI 都有暗示过 GPT-4o 生成的音乐可能会侵犯别的音乐的版权。
音乐发行商如何自我防范?现在已经有专门检测 AI 生成式音乐的工具——AI-Generated Detecto,这项工具一分钟内可以扫描 5000 首曲目!并保证准确率高达 98.5%。
这是巴黎蓬皮杜音乐技术研究中心 IRCAM 的 IRCAM Amplify 公司推出的识别 AI 生成音乐的工具,目标客户主要是唱片公司、出版商、版权管理组织和音乐流媒体平台。