Editor profile
矢野 哲平 / 「無料で学べるAIスキル、ロボシンク」代表
更新日:

こんにちは、ロボシンクの矢野(@robothink_jp)です。この記事では生成AIに関する情報を解説します。 読んだ方の役立つ記事になれば嬉しいです👋

ChatGPTのクローラーを拒否する方法

ChatGPTの学習に自分のサイトを利用させたくないサイトオーナーも多いのではないでしょうか。本記事ではChatGPTのクローラーであるGPTBotを拒否する方法を解説します。

robots.txt にクローリング拒否を記載する

GPTBotのクローリングを拒否する方法は、ChatGPTの開発元であるOpenAI社の公式サイトに記載されています。

robots.txt を次のように記載することで GPTBotのクローリングを拒否できます。

robots.txt

User-agent: GPTBot
Disallow: /

User-agent に GPTBot を指定して全ディレクトリへのアクセスを拒否しています。

次の例ではdirectory-1 直下は拒否せず、directory-2 は拒否しています。

robots.txt

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

IP アドレスによる拒否も可能

robots.txt の記載以外にも IP アドレスによる拒否も公式サイトに記載されています。

IP

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

過去に学習されたデータは拒否できない

OpenAI 社は 2023 年 8 月に GPTBot に関する情報を公開しましたが、それ以前にトレーニングされていた内容は遡って拒否できないようです。

膨大なデータを学習しているので、どのデータがどこのものか当人たちも把握しきれてないのでは..

海外の主要メディアは拒否の傾向

New York Times や CNN、ロイターなど主要な海外メディアは GPTBot は拒否するようです。国内メディアもこの流れに追従するものと予想されます。

Google Bard のクローラー対策は未発表

一方で同じようなサービスを展開する Google Bard の学習 Bot への対策は発表されていません。OpenAI社が対応を見せたことでGoogleも何らかのアクションを起こしそうですが。

こちら情報が更新され次第、紹介したいと思います。

注目記事

  • 🎨Geminiで画像生成ができるように
  • 👀【新機能】GPT mentionsを使う方法
  • 🌈【新モデル】にじジャーニーV6モデルを使う方法
  • 💡Googleが動画生成AIのLumiereを発表
  • 🤖Amazonアレクサに生成AIが搭載
  • 😼動画生成AI、Pika1.0のチュートリアル
  • 🏪GPT Storeが公開!GPT Storeの使い方
  • 🚢MidjourneyでV6モデルを使う方法

  • 無料で学べるAIスキル、ロボシンク

    ロボシンクは3,000名超が学ぶAI学習サービス。無料のコースで生成AIを学べます。AIの学習を開始しましょう🚀

    コース一覧