ChatGPTなど生成AIの学習にWordPressブログを使われたくないならrobots.txtを使おう

ChatGPT

2024.07.24

WordPressで作成したブログやウェブサイトのコンテンツを生成AIの学習に使われたくない場合は、robots.txtの編集が効果的です。

以下、方法を説明しますね。

「生成AIにデータを使われたくない」と思っていたら、参考にしてください。

robots.txtとは？
robots.txtの編集方法
robotx.txtへの書き方について
robots.txtに書いた結果
ご留意点：robots.txtは絶対ではない
さいごに

robots.txtとは？

robots.txtはウェブサーバーに設置されるテキストファイルです。

検索エンジンのクローラー（ロボット）がサイトのどの部分をクロールしてよいかを指示します。このファイルにルールを記述することで、特定のクローラーのアクセスを拒否したり、サイトの特定の部分へのアクセスを制限することが可能です。

robots.txtの編集方法

主要な生成AIサービスをブロックするには、robots.txtに下記のように記述します。

【robots.txt】

# ChatGPTクローラーをブロック
User-agent: GPTBot
Disallow: /

# ClaudeBotクローラーをブロック
User-agent: ClaudeBot
Disallow: /

# Google-Extendedクローラーをブロック
User-agent: Google-Extended
Disallow: /

# ChatGPTクローラーをブロック

User-agent: GPTBot

Disallow: /

# ClaudeBotクローラーをブロック

User-agent: ClaudeBot

Disallow: /

# Google-Extendedクローラーをブロック

User-agent: Google-Extended

Disallow: /

各種サービスごとに設定しなければいけないのはちょっと面倒ですが、他にもブロックしたいサービスがあれば、追加してください。

なお編集したrobots.txtファイルは、FTP等を使ってワードプレスのルートドメインに配置します。

直接サーバーを編集するのが不安という場合には、プラグインを利用することもできます。[block ai crawler]などの検索語句を使ってみてください。

robotx.txtへの書き方について

なおサービスによって、robots.txtへの書き方を公表しているところと、していないところがあります。ChatGPTでは、こちらのページで、robots.txtの書き方を説明してくれています。

Antropicはこちらのページとなります。

Googleはこちらのページをご覧ください。Googleの場合、上記のような設定をするとSEOや検索に悪影響があるかと心配になりますが、そういったことはありません。

Google-Extendedの設定については、下記のように書かれています。

Google 検索でのサイトの登録と掲載順位に Google-Extended が影響することはありません。

https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers?hl=ja

さすがGoogleさん、不安なユーザーの気持ちを読み取ってくれているかのような説明です。

robots.txtに書いた結果

上記のように設定した場合、生成AIのほうでは、ブログ記事などを読み取れなくなります。本サイトにもご紹介したような形でrobots.txtを設定しました。

その上で、ChatGPTに本ブログ記事の要約をお願いしました。すると、次のような回答が返ってきました。

I wasn’t able to access the content of the page at the link you provided due to a technical error.（技術的なエラーのため、ご提供いただいたリンク先のページの内容にアクセスできませんでした。）

しっかりとChatGPTのアクセスがブロックされているようです。

ご留意点：robots.txtは絶対ではない

robots.txtによる対策は、残念ながら「絶対」ではありません。

robots.txtは「お願い」であり、強制力はありません。現在公式サイトでrobots.txtについて説明しているサービスはこの指示に従うかと思いますが、そうではないサービスもあるでしょう。

実際、少し前にPerplexitiyというサービスがrobots.txtを無視してウェブサイトから情報を抜き出しているとニュースになっていました。これに対し、Perplexitiy側では否定していますが、ただ、何とも微妙な展開になっています。。

生成AI検索エンジンのPerplexityはクローラーを防ぐ「robots.txt」を無視してウェブサイトから情報を抜き出している

Perplexityは生成AIを利用した検索エンジンであり、ユーザーの質問に対してAIが直接回答を生成できるほか、ユーザーのプロンプトに基づいたウェブページを生成する「Pages」という機能を提供しています。そんなPerplexityが、検索エンジンやAIトレーニングなどのボット(クローラー)を制御するテキストファイル...

さいごに

今回はWordpressコンテンツがAI学習に使われないようにするための方法をご紹介しました。

現行の著作権法では、コンテンツがAI学習に使われるのを防ぎきれません。そのため、今回ご紹介した方法以外でも技術的に「学習ブロック」を行う方法が出てくれば、多くのコンテンツ作成者は、その方法を使うでしょう。

コンテンツ作成者としては、当然の流れだと思います。

ただ、学習コンテンツが減ってしまうと、その分後発の生成AIサービス開発者に不利になります。またコンテンツが有料化したりすれば、資金のない会社では良いサービスを提供できなくなります。

そうなると、既存の資金力のある企業が生成ＡＩ市場を独占する状態になりかねません。

このあたり、なかなか難しい問題ですよね。引き続き動向を見守りつつ、役立つ情報をお届けしていきたいと思います。