検索ロボットとの付き合い方

Google や Yahooなどの検索エンジンは、定期的にWEBサイトにアクセスし、その情報をキャッシュとしてサーバ上に蓄積するとともに、そのページに含まれるキーワードによるインデシングを行っている。このように自動的にWEBページにアクセスし、情報を収集するプログラムはロボット（あるいはクローラ、スパイダー）などと呼ばれている。

WEBサイト上に情報を置くということは、世の中に広く情報を公開するということであるから、本来ロボットは歓迎されるべき客ではあるが、あえて検索エンジンに登録してほしくない場合や、あるいは訪問するロボットを限定したいということもあるだろう。

ロボットの良識に委ねられた制御方法

WEBサイトの管理者が、検索ロボットの動きを制御することは、結論からいうとある程度は可能なのだが、何らかのオーソライズされたルールがあるわけではないし、技術的に保証されているわけでもない。事実上のデファクトとなっているプロトコルに基づいて設定された制御仕様を検索エンジンロボット自らが参照して制御を行っている、というのが現状である。

制御方法として最もよく知られているのは、 Robot Exclusion Protocol（REP）で、一般的には robot.txt として知られているものだ。 robot.txt というファイルにアクセス制御ルールを記述し、 WEBサーバ上に置いておくと、検索ロボットがこれを読み込んでそのWEBサイトの情報を収集してよいかどうかを判断する。また、HTMLファイルのメタタグとしてアクセスルールを記述することもできるが、いずれにしてもこれらは正式に定められたプロトコルではない。たとえば、robot.txt は、もともとは、検索ロボット研究者間でのメーリングリストでの合意事項に過ぎない。また、メタタグの書式も、研究会での議論に基づくものがベースである。つまり、良識ある検索エンジンは（いわば合意事項として）これに従ってはいるが、すべての検索ロボットがこれに従っているわけではない。

robot.txt やメタタグ以外にもいくつかの方法が提案されている。たとえば、世界各地の新聞社による業界団体 ACAP (Automated Content Access Protocol) は、新聞記事の著作権保護を目的とした独自の技術仕様を定めている。また、Googleは Yahoo!や Microsoft 等と共同で Sitemap と呼ばれるプロトコルを発表しており、普及に向けた活動を展開している。こうした仕様は、いずれもWEB管理者が検索エンジン側に収集されるべきページや優先度、また更新の頻度等を知らせる方法を定義したものであるが、 robot.txt やメタタグと同様に、その仕様に準拠するかどうかは結局は検索エンジン開発者側の判断に委ねられている。

実際、ACAPについては、まだ大手検索エンジンでさえ対応するか否かを明らかにしていない。もちろんACAPのような業界団体の意向を無視することもできないから、何らかの形で対応せざるを得ないことになるだろうが、といって、独自に作られたさまざまな仕様のすべてに対応できるわけでもない（あるいはしたくはない）、というのが正直なところだろう。

回避できないスパムロボット

また、大手検索エンジンは別としても、検索ロボット自体は、学生の演習問題になるほど今では気軽に誰でも構築できるものであり、こうした独自の情報収集エンジンのすべてにそのような行儀の良さを要求することはできない。電子メールアドレスの収集ロボットのように、故意に無視するものも存在する。 WEB管理者からすれば、悪意を持ってアクセスするロボットは拒絶したいところではあるが、現実的には難しい。 WEBサーバ側の設定として、特定のIPアドレスや特定のリクエスト形態を制限するようにすることは可能だが、ボットネット等による違法なアクセスでは、 IPアドレスによって特定すること自体が困難だし、スパム以外の通常のアクセスまで拒絶してしまう可能性も高い。スパムメールであれば、その内容によってある程度自動的な判断もできるが、 WEBサイトのアクセスに関しては、そもそもがオープンな情報流通が前提とされているところで、良識ある検索ロボットと悪意のあるロボットを区別することは難しい。

求められるリテラシー

検索エンジンは、ネットワーク社会における情報アクセスのための重要なツールであり、その利便性を疑う人はいないであろう。基本的にはオープンなインターネットであるから、アクセスを制御することなく自由な情報交換が行なえるのが本来的には望ましい。しかしながら、コンテンツに関する権利上の問題、あるいはその他の事情により、コンテンツそのものを収集し、解析するロボットのアクセスを制御したいという要求は上述のACAP同様に発生しうる。身近なところでは、WEBサイトの管理者の中には誤ってアップしてしまい、検索エンジンに登録されてしまったという経験のある人もいるだろう。

一方、法的な規制については難しい面が多い。かつて電子メールに関しては、「特定電子メールの送信の適正化等に関する法律」において、「未承諾広告」の表示義務が定められたが、悪意のある送り主に対して良識を期待すること自体が難しい上、数的にも膨大で追跡することも困難であり、実質的になし崩し的になってしまっている。

技術的にも、法的にも困難であるとすれば、つまるところ、検索ロボットとはうまく付き合っていくしかなさそうである。たとえば、メールアドレスの記載は画像あるいはエンコードする、試験的なページや閲覧者を限定したい場合はパスワード付きにするといったリテラシー面での最低限の対応はまず必要だ。また、WEBサイトの更新やコンテンツのチェックプロセスの確立も、企業等では必要になろう。 WEBサイトの管理者側としては、 Robot Exclusion Protocol等に関する知識が必要である。これらの知識は、ロボットの訪問を回避するだけでなく、サイトの情報をどのように検索エンジンに登録してもらうか、というSEO的な観点からも有益であろう。

本文中のリンク・関連リンク：

ACAP (Automated Content Access Protocol)
Robot Exclusion Protocol(REP)
Sitemap
文化審議会著作権分科会(文化庁)
日経 ITpro 記事「世界新聞協会など，クロール対象ページを指定する仕様「ACAP」を公開」（2007年11月30日）
カテゴリ掲載ガイド (Yahoo!)
サイトの登録/削除 (Google)