• 最新
  • 热门
  • 所有
  • 期货市场
  • 外汇动态
  • 股票行情
AI全面战争,从爬虫毁灭互联网开始

AI 全面战争,从爬虫毁灭互联网开始

2025 年 3 月 25 日
摇身一变成「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

摇身一变成 「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

2025 年 9 月 10 日
固态电池生产设备企业上半年订单激增

「AI+能源」 政策赋能新能源板块,新能源车 ETF(515030) 涨超 2.92%,多股涨停

2025 年 9 月 10 日
24K金价格多少钱一克(2025年09月01日)

《2025 年世界人才排名》 香港跃至亚洲第一

2025 年 9 月 10 日
科创板晚报|成都华微发布4通道12位40G射频直采ADC芯片 苑东生物盐酸纳呋拉啡口崩片获药品注册证书

苹果发布会就在今夜!iPhone 17 系列携十款新品亮相

2025 年 9 月 10 日
通信ETF(515880)盘中翻红大涨超4%,「光模块ETF」哪里找?布局光模块占比50% 通信ETF

铱多少钱一克 (2025 年 09 月 05 日)

2025 年 9 月 10 日
今日水贝金条回收价格查询(2025年09月01日)

以需求为牵引 多维推进期权深度应用

2025 年 9 月 10 日
工作后才意识到,我是「社会化」程度低的人

工作后才意识到,我是 「社会化」 程度低的人

2025 年 9 月 10 日
电动自行车新规喜忧参半

港股科技股领涨,恒生科技指数涨超 1%,恒生科技 ETF 易方达 (513010) 近期 「吸金」 势头强劲

2025 年 9 月 10 日
科创板收盘播报:科创50指数跌1.64% 电气设备股表现活跃

券商晨会精华:未来中期看,全球流动性对金价有一定支撑

2025 年 9 月 10 日
新华财经晚报:8月全国乘用车新能源市场零售107.9万辆

新华财经晚报:市场监管总局已约谈主要外卖平台 抵制恶性补贴

2025 年 9 月 10 日
18K金回收价格多少钱一克(2025年09月01日)

马克龙两年换五相 谁可能接下法国总理这一 「烫手山芋」?

2025 年 9 月 10 日
小红书,不妨学学苹果

小红书,不妨学学苹果

2025 年 9 月 10 日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
2025 年 9 月 10 日 星期三
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
首页 行业新闻

AI 全面战争,从爬虫毁灭互联网开始

6 月 之前
在 行业新闻
阅读时间: 4 mins read
0 0
A A
AI全面战争,从爬虫毁灭互联网开始

猜您喜欢

黄金时间·一周金市回顾:风险偏好改善周线两连跌 非农数据能否助力金价企稳

下沉市场的红利快结束了

3 周 之前
0
累库预期继续降低 沪铜短期或维持偏强走势

美国人正大举 「移民」 欧洲?

3 周 之前
0


昨天看到一个非常有意思的事情。

这是第一次,全世界最大的网络基础设施公司之一,Cloudflare,开始用魔法打败魔法,用 AI 来对抗 AI 爬虫。

这事有意思的程度,足以载入 AI 发展史册。这是一次 AI 领域的全面战争。

你可能现在还有很多疑惑,Cloudflare 是什么,AI 爬虫是什么,AI 迷宫又是什么,这个事到底有意思在哪。

作为这一切的开始,我想先跟你讲一个故事,一个在今年 1 月份,发生在一个仅有 7 人的乌克兰公司的故事。

这个公司叫做 Triplegangers,做的业务特别简单,就是卖人的 3D 数字模型。

Triplegangers 专注于销售 「人体的数字孪生」 模型素材,这些高清 3D 模型照片来自真实人类扫描,价值巨大。

创始人 Tomchuk 对自己公司的业务一直很满意,公司虽然不大,但这是他最喜欢的事情。

这个网站一共有 65000 个产品页面,每个产品的页面至少放着三张高清照片。 每一张图片都细致地标注了年龄、肤色、纹身甚至伤疤。

但是,就在一个普通的周六早上, 这种平静被一场风暴骤然打破。

Tomchuk 收到了一条紧急通知:公司的网站崩溃了,因为受到了大量的 DDoS 攻击。 

他懵了,因为平时也没啥仇人,更没啥竞品,守着自己那一亩三分地,谁会好好地来攻击自己呢?

他惊慌失措地开始调查原因,很快发现,居然是 OpenAI 的爬虫机器人,GPTBot 在攻击他的网站。

GPTBot 疯狂地爬取每一个页面, 网站上的数十万张照片、数十万条描述, 在短短几小时内被无情下载。

这些爬虫机器人使用了整整 600 个 IP 地址,数以万计的服务器请求,这种网站哪见过这种架势,网站的服务器瞬间瘫痪,业务陷入停滞。

Tomchuk 人都傻了,不仅自己的数据全丢了,被 OpenAI 爬得干干净净;更糟的是,由于服务器压力暴涨,公司还将面临一笔巨额 AWS 账单。

他们这个七人的团队花了十年心血,才构建了这个庞大的数据库,客户遍及游戏开发、动画制作等多个行业。

而现在,啥也没了。

更令人无奈的是,他们原本就明确禁止爬虫机器人未经许可抓取网站数据。

但是因为没那么懂 AI,也不太知道那些 AI 大模型公司的玩法,所以没有严格配置 robot.txt 文件,没有配专门告知 GPTBot 不要访问该网站的标签,这基本等同于默认允许了 OpenAI 的抓取行为。

关键是,配了 GPTBot 的标签也不够,因为 OpenAI 还有 ChatGPT-User 和 OAI-SearchBot,这两个标签也要配。你甚至不知道他们还有啥。

「我们原以为设定禁止条款就足够了,没想到还必须专门设定拒绝机器人的规则。」

几天后,Tomchuk 终于设置好了 Triplegangers 的 robot.txt 文件,并启用了 Cloudflare 服务以屏蔽更多爬虫。

Cloudflare 大家可能没听过,但是大多数人应该都见过。

就这个玩意,它会让你在进入某些网页之前,验证一下你是否是人类。

不过这玩意也不是免费的,挺烧钱的,都是成本。但是为了再防一波 OpenAI 那种流氓行为,他们只能启用。

这些服务的钱都还好说,但让 Tomchuk 最痛苦的是,他根本不知道 OpenAI 到底拿走了多少素材。

而且,Tomchuk 说:

「我们甚至联系不上 OpenAI,也无法要求他们删除已抓取的数据。」

最离谱的是,如果不是 OpenAI 这么贪,一次性运行太多请求,直接把 Triplegangers 爬崩溃了,而是慢慢爬,一点一点地偷,Tomchuk 可能这辈子都发现不了自己的数据已经全部丢得干干净净了。

OpenAI 的爬虫逻辑很简单,如果你家门口没有保安站岗,那就说明你默认你家里的东西我都可以拿走,都是我的。因为你没说不准我拿,也没设保安,所以我就可以进门,把数据洗劫一空。

这是一场战争,一场没有硝烟的战争;

一场关乎于保护自己财产神圣不可侵犯的战争;

一场关乎于我们,跟这些 AI 公司的 AI 爬虫的战争。

Trilegangers 的遭遇并不是孤例。

在许多公司和内容创作者的眼中,AI 爬虫就是这个时代的数字蝗虫,所过之处,网站不堪重负,数据还被洗劫一空。

去年夏天,还有一个著名的例子,来自一家非常老牌的维修教程网站,iFixit。

iFixit 发现,他们的网站也成了 AI 爬虫的盘中餐。

但这一次,吃相难看的不是 OpenAI,而是另一个 AI 王者,Anthropic 公司的爬虫 ClaudeBot。

当时,iFixit 的 CEO 怒不可遏地在社交媒体上爆料:

ClaudeBot 在短短 24 小时内疯狂访问了 iFixit 近一百万次。直接差点把他们的网站挤爆,触发了所有报警系统,迫使 iFixit 的运维团队连夜加班处理。

更离谱的是,iFixit 早就明文禁止未经许可抓取他们的内容用于 AI 训练,这一条清清楚楚地被写进网站使用条款,甚至特别注明 「不得将本网站内容用于机器学习或 AI 模型的训练」。

但是 Anthropic 的爬虫明显不 care 这些声明,依旧我行我素地狂扒数据。

更让人无语的是,这事爆了之后,有媒体去问 Anthropic,对方给出的回应几乎和 OpenAI 如出一辙:

他们表示,ClaudeBot 爬虫是遵守 robots.txt 的,如果网站不想被抓,就应该在 robots 文件里屏蔽 Claude。

言下之意就是,iFixit 你自己明明没说啊,没在 robots.txt 彻底封禁啊,我们当然有权一直爬下去啊。

无奈之下,iFixit 只好赶紧修改了 robots.txt,添加了针对 ClaudeBot 的延迟和阻止规则。

可这件事留给业界的震动却挥之不去,坦率地讲,连 iFixit 这样熟悉网络技术的知名网站,一开始都没料到 AI 爬虫会如此不讲武德,明知道别人不情愿却还要硬闯。

如果连老牌互联网从业者都防不胜防,那其他那些没有技术团队守卫的小网站、小作者,又该如何招架这些窃贼?

甚至,更不要脸的是那个 AI 搜索鼻祖,Perplexity。

知名科技媒体 《连线》(Wired)发现,Perplexity 的爬虫不仅没有遵守一些网站的 robots.txt 禁令,甚至会试图悄悄抓取那些明确声明不开放给机器的网站。

换句话说,就是 Perplexity 公然无视 robots 协议,偷偷攫取了本不该拿的内容。

可能你看到这里会疑惑,robots 协议是个啥。

我们把时间倒回 1994 年,那时,网络也正在经历爬虫之乱。

彼时,搜索引擎刚兴起,一些自动爬虫程序在网上横冲直撞,给服务器造成了不小的负担。

于是,一位名叫 Martijn Koster 的荷兰工程师提出了一个非常巧妙的主意:

网站管理员可以在站点根目录放一个名为 「robots.txt」 的文本文件,提前告诉网络机器人哪里可以爬、哪里不许碰。

这个提议很快得到了行业的广泛认可,成为互联网早期一种非常纯粹的 「君子协定」。

根据 robots 协议,如果网站在 robots.txt 里标明了禁止抓取某些内容,那么守规矩的爬虫就应该乖乖止步,不去触碰那些被列入黑名单的路径。

这套机制在本质上完全依赖自觉,它没有法律强制力,靠的是爬虫开发者愿意遵守规则的良知和诚意。

令人欣慰的是,在相当长的岁月里,这种诚意基本上保持了下来。

Google、Yahoo 等搜索引擎尊重 robots.tx 的边界,微软的 Bing 也是如此,甚至后来各式各样善意的网络爬虫,都把不伤害网站、遵循站长意愿当作职业道德的一部分。

正因为有 robots.txt 的存在,网站管理员才愿意敞开大门让搜索引擎索引内容,他们相信敏感或不想公开的角落可以被礼貌地避开。

这份信任,构筑了网络内容自由流通和公平利用的基础。

但现在,这份来之不易的信任正被无情地侵蚀。

当 AI 爬虫为了填饱模型的数据需求四处出击时,又有多少 AI 还会真正尊重 robots.txt 的边界?

OpenAI、Anthropic 口口声声表示他们遵守 robots 协议,但事实是,如果你没明确写出禁令,他们就默认可以来拿,丝毫不考虑你是否情愿。

只要你没用足够坚固的墙把我挡住,那就是你的错,我闯进来就理所应当。

这种倒打一耙的逻辑让人愤慨之余,也透出一丝悲哀。

所以,在这种背景下,Cloudflare 挺身而出,作为大多数网站前的守护者,他们决定用魔法打败魔法,用 AI 对抗 AI。

他们为这些 AI 爬虫造了一整座 AI 迷宫。

因为过往的防御逻辑很简单,就是用验证直接把这些 AI 爬虫拦在门外,这样会出现一个问题,即反而会惊动敌人,让他们换个马甲卷土重来。

比如 OpenAI 就有 N 个 AI 爬虫。

所以他们在这次更新中用了一个更阴柔的做法:放对手进来,但是领着它走进一个精心编织的虚假网页迷宫。

在这个迷宫里,所有的页面、链接和内容都是 AI 自动生成的,看上去像模像样,却全都是无意义的空城计。

那些 AI 爬虫一旦被引诱进去,就会在假内容中团团转,白白浪费计算资源和带宽。

而这些迷宫入口对正常用户是隐形的,真人访客根本不会点击到那些陷阱链接。而 AI 爬虫则乐此不疲地一路追踪下去,越陷越深,直到在虚假的信息泥潭中迷失方向。

大卫终于也有了一块对付歌利亚的利器。

Cloudflare 他们在 blog 中写道:

这是一场战争,一边是如狼似虎、到处搜刮数据的 AI 爬虫大军,另一边则是苦苦守卫自己数字领土的网站站长和内容创作者们。

我不否认大模型需要海量数据训练,创新常常伴随着对旧有规则的冲撞。

互联网历史上类似的矛盾并非首次:音乐产业曾与数字盗版激烈交锋,新闻出版商也为搜索引擎收录内容而抗议。

也许在很多 AI 公司看来,网络上的公开内容皆是取之无害、用之无罪的公共资源,抓了又何妨?

但是有没有想过内容生产者的感受呢?知识和创意的源头若得不到尊重和回报,最终枯竭的将是创新本身。没有人愿意让自己辛苦耕耘的成果被机器毫无顾忌地偷走。

至少在现有的伦理和经济体系下,这种行为会磨灭创作者的热情。

到最后,网络上留下的全部是 AI 生产的 AI 垃圾。

战争已经打响,而 AI 领域的这场较量,正是从爬虫开始的。

我只希望,当硝烟散去,我们还能拥有一个我们所热爱的、开放而可信的互联网。

抛开那些宏大的技术叙事,对于我们每一个普通网民而言,这才是我们最值得去捍卫的东西。不是吗?

本文来自微信公众号:数字生命卡兹克,作者:数字生命卡兹克

相关 文章

摇身一变成「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了
24 小时

摇身一变成 「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

3 分 之前

财联社 9 月 9 日讯 (编辑 潇湘) 犹记得上周初,全球市场还在为 30 年期美债收益率可能升破 5% 而惶惶不安。然而,才过去了短短一周,债市的焦点却似乎迅速从一个极端转向了...

固态电池生产设备企业上半年订单激增
基金快讯

「AI+能源」 政策赋能新能源板块,新能源车 ETF(515030) 涨超 2.92%,多股涨停

7 分 之前

9 月 8 日,三大指数涨跌不一,中证新能源汽车指数震荡上行,截至 14:45,涨超 3.34%。成分股方面,厦钨新能涨超 13%,汇川技术涨超 11%,天赐新材、多氟多、三...

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

摇身一变成「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

摇身一变成 「衰退指标」?华尔街惶惶:美债收益率是不是跌太快了

2025 年 9 月 10 日
固态电池生产设备企业上半年订单激增

「AI+能源」 政策赋能新能源板块,新能源车 ETF(515030) 涨超 2.92%,多股涨停

2025 年 9 月 10 日
24K金价格多少钱一克(2025年09月01日)

《2025 年世界人才排名》 香港跃至亚洲第一

2025 年 9 月 10 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录