サーバーのアクセスログを見ていたらICC-Crawlerというボット(クローラー)を見つけた。
ユーザーエージェントは以下のとおり。
ICC-Crawler/2.0 (Mozilla-compatible; ; http://ucri.nict.go.jp/en/icccrawler.html)
nict.go.jp は国立研究開発法人情報通信研究機構(NICT)が使用しているドメイン。 悪質なボットがNICTを装っているのかと思い、とりあえずこのURLにアクセスしてみると本当にNICTのボットだった。 海外のボットはよく見かけるが、日本の企業や団体のボットは珍しい。
ユーザーエージェントに記載されているURLは英語版のページだが、日本語版のページ ICC-Crawlerとは もある。
以下のような説明がある。
ICC-Crawlerは、ウェブ上を自動的に巡回してウェブページを収集するクローラと呼ばれる プログラムの一種です。ICC-CrawlerはNICTユニバーサルコミュニケーション研究所が運用しており、収集したページは研究目的以外では使用しません。
NICTが研究目的でサイト(ページ)の情報を収集しているようである。 具体的には「ウェブアーカイブの構築」、及び「多言語翻訳や情報分析等の高度情報処理技術の研究開発用データの収集」と記されている。
NICTの説明では、接続先ホストへ過度な負荷をかけないように配慮しているとのこと。 実際、わりと間隔を開けてクロールしており、海外のボットのように1秒間に何ページもクロールするようなことはなかった。
robots.txt を遵守するので、もしアクセスを拒否・禁止したい場合は robots.txt に以下のように記述する。
User-agent: ICC-Crawler Disallow: /
使用しているIPアドレスは 202.180.34.186 と 61.86.246.72 のみのようである。