No products in the cart.
想像してみてください。あなたがコツコツとオープンソースコミュニティを管理し、日々開発者をサポートするサーバーを運営しているとします。そんなある日、アクセスログに不速の客が現れたのです——ハッカーでも趣味のスクレイパーでもなく、AI大モデルのトレーニングボットでした。これらのデジタルイノシシは飢えた狼のように帯域を食い尽くし、ページ読み込みを遅々として進まなくさせる。これは陰謀論のSF映画ではなく、中小インターネットサービスが直面する現実の脅威なのです。
新たなDDoS勢力:AIクローラー
今週月曜日、オープンソースGitホスティングプラットフォームのSourceHutがステータスページに悲痛な訴えを掲載しました。「過激なLLM(大言語モデル)クローラーの継続的攻撃により、サービスが何度も妨害されています」と。対抗策として、彼らは「Nepenthes」と名付けたトラップを仕掛け、Google CloudやMicrosoft AzureなどのクラウドサービスプロバイダーのIPアドレスを全面禁止しました——これらの場所こそがクローラートラフィックの温床だからです。
SourceHutは、これらの措置が一時的に事態を収めたものの、正当ユーザーへの誤爆リスクがあり、体験の低下は避けられないと認めています。
SourceHutが「クローラーDDoS」に手を焼くのはこれが初めてではありません。2022年には、GoogleのGo Module Mirrorの無制限なリクエストを「サービス拒否攻撃」と非難していました。現在、生成AIブームが世界を席巻する中、同様の事例がインターネットの至るところで繰り返されています。
修理ガイドのiFixitは昨年7月、AnthropicのClaudebotの過剰クロールを苦言しました。クラウドホスティングサービスVercelは2024年12月、OpenAIのGPTbotが単月で5億6900万回、AnthropicのClaudebotが3億7000万回のリクエストを送信したことを明らかにしました。これはGooglebotのリクエスト量の20%に相当します。Diasporaの開発者Dennis Schubertはさらに、60日間のサーバートラフィックの70%がLLMトレーニングボットから来ていたと暴露しました。
なぜAIクローラーはこれほど凶暴なのか? その答えはシンプルです:データへの飢餓。生成AIの台頭により、OpenAI、Anthropic、Googleなどのプレーヤーはインターネットコンテンツへの渇望をかつてないレベルに高めています。ChatGPTの会話能力もClaudeの推論能力も、その裏には膨大なデータが必要です。しかし、この「拿来主義」が中小インターネットサービスに重い負担をかけ、無形のDDoS危機を引き起こしているのです。
大モデル「DDoS攻撃力指数」TOP10
被害をより直感的に示すため、GoUpSecは最近のインターネット報道と公開データを基に「大モデルDDoS攻撃力指数TOP10」を作成しました。指数はクローラーのリクエスト量、対象サイトの範囲、禁止頻度、サービスへの影響度などを総合しています。以下がランキングです:
Bytespider(ByteDance)
指数:95
Cloudflareのデータによると、リクエスト量とカバー範囲で首位。自社AIのためにデータを貯蔵。高い禁止率が過激なスタイルを物語る。
GPTbot(OpenAI)
指数:90
単月5億6900万回のリクエストは驚愕的。robots.txtを遵守すると約束しているが、偽装トラフィックと過負荷の苦情で2位にランクイン。
Claudebot(Anthropic)
指数:85
3億7000万回の月間リクエストとiFixitへの1日100万回の攻撃で「紳士的殺し屋」の異名。禁止率は低いが破壊力は大きい。
Amazonbot(Amazon)
指数:80
Alexaの索引用に設計されているが、開発者は過負荷を訴える。偽装トラフィックも疑わしい。
Google-Extended(Google)
指数:75
AIトレーニング用に設計されたクローラー。トップサイトの13.6%が禁止。検索とAIの二重役割がサイト運営者を悩ませる。
AppleBot(Apple)
指数:70
透明性は高いが、DoubleVerifyのデータによると2024年の無効トラフィックの16%を占める。
Meta AI Bot(Meta)
指数:65
MetaのAI野望が駆り立てるクローラー。目的は明確だが多用途性が禁止を複雑化。
CCBot(Common Crawl)
指数:60
オープンデータセットの常連。トップサイトの22.1%が禁止しているが、商業クローラーほど攻撃的ではない。
OAI-SearchBot(OpenAI)
指数:55
デビュー直後に14メディアから禁止。潜在能力はまだ未知数。
Perplexity AI Bot(Perplexity)
指数:50
AI検索の新興勢力。普通のブラウザーに偽装してデータを盗み、サイト運営者を激怒させる。
「タダ乗り」との闘い:受け入れるか抵抗するか?
AIクローラーには暗黙のルールがあります。2023年8月、OpenAIはGPTbotがrobots.txtを遵守すると約束し、他社も追随しました。しかし現実は約束通りにはいきません。Schubertは、AWSや米国内のIPアドレスを偽装した偽GPTbotがログを埋め尽くしているのを発見——悪意ある者が混乱に乗じているのです。DoubleVerifyの報告によると、2024年下半期、AIクローラーによる「一般無効トラフィック(GIVT)」が86%急増し、その16%がGPTbotやClaudebotなどの主要プレーヤーから来ています。
これはAI企業とサイト運営者の力関係を反映しています。一方でAI企業はモデルを育てるための「食糧」が必要で、インターネットは天然の「穀倉」です。他方でサイト運営者は帯域の奪取、プライバシー問題、著作権紛争に直面しています。SourceHutのクラウドIP禁止やiFixitのrobots.txt更新は受動的防御の一端に過ぎません。さらに厄介なのはGooglebotのような検索とAIの二重役割を担うクローラーで、サイト運営者は禁止と露出の間で板挟みになります(編注:Googleは2023年にGoogle-Extended製品トークンをリリースし、サイト運営者がクローラーだけをブロックしてSEOに影響を与えない方法を提供)。
AIクローラーの「DDoS効果」は生成AIブームの隠れた懸念を浮き彫りにしています。中小サービスにとってこれは技術的課題だけでなく、生存問題です。SourceHutの「Nepenthes」トラップやCloudflareの「AIクローラー一括ブロック」機能は技術コミュニティの反撃の試みですが、長期的にはブロックだけでは解決策になりません。
将来の出路はバランスにあるかもしれません。AI企業はより透明なデータ収集ポリシー、さらにはサイト運営者とのライセンスや有料モデルを導入する必要があります。サイト運営者も自身の権益保護とAIエコシステムへの参加の間で折り合いをつける必要があります。さもないと、このクローラーとサービスの「いたちごっこ」がインターネットの生態系をさらに悪化させるでしょう。
あなたのサービスはAI-DDoSを受けていますか? 次に助けを求めるのは、あなたがよく利用するニッチなフォーラムかもしれません。