最近、自サイトへのボットのアクセスが気になり、サーバーのアクセスログを監視している。
その中でpetalbotというボットを見つけた。 調べてみると、これは中国の通信機器メーカーHuawei(ファーウェイ)が運営しているPetal Searchという検索エンジンで使われているボットだった。 ファーウェイはスマートフォンなどを作っている企業だが、こういったウェブサイトも運営しているようだ。
ボットには以下のようなユーザーエージェントが使われている。
PC版Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)mobile版
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
PC版とmobile版でユーザーエージェントが異なる。
私が確認したIPアドレスは114.119.144.41や114.119.157.128で、ホスト名はpetalbot-114-119-144-41.petalsearch.comなどとなっている。
APNICによると114.119.128.0 - 114.119.191.255の範囲は、ファーウェイの所有となっている。
ユーザーエージェントに記されているURLにアクセスすると、petalbotについて以下のような説明が掲載されている。
PetalBot is an automatic program of the Petal search engine. The function of PetalBot is to access both PC and mobile websites and establish an index database which enables users to search the content of your site in Petal search engine. You can identify crawling from Petal by analyzing the User-agent field.
要するにPetal search engineで利用しているということである。
また、robots.txtが有効と書かれている。 もしPetalBotの全アクセスを拒否・禁止する場合は、robots.txtに以下のように記述する。
User-agent: PetalBot Disallow: /
もしrobots.txtが無視されるようなら、.htaccessでpetalsearch.comをふさいでも良い。
ボットのアクセス頻度については(私のサイトでは)それほど高くはなかった。