サイトにアクセスしてきたクローラー・botの情報まとめ
行儀の良いものから悪いものまで、日々色々なボットやクローラーがサイトにアクセスしてきます。
この記事では各種クローラーの情報をまとめました。
見出しのリンク先は各botの説明ページになっています。
私はサイトのアクセスログを見て、怪しげなものは定期的にブロックしたりしてサイトが攻撃されるのを防いでいます。
Contents
検索エンジン
ひっそり運営したいサイト以外は、基本的にブロックしない方が良いです。
しかし中には海外検索エンジンで行儀が悪いものも居るので、流入数と要相談。
Googlebot
おなじみ。Googleにインデックスさせたいならブロックしない様に。
Webマスターツールもあります。
UA一覧などはリンク先にあります。
Bingbot
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) msnbot/2.0b (+http://search.msn.com/msnbot.htm)
Microsoftの検索エンジンBingのクローラーです。
こちらもクローラーのユーザーエージェント一覧がリンク先に用意されています。
msnbotについては一覧にはもうありませんが、未だに此方のUAでクローリングする事もあるようです。
(なりすましの可能性もありますが…)
netEstate NE Crawler
netEstate NE Crawler (+http://www.website-datenbank.de/)
ドイツの検索エンジンのようです。
SeznamBot
Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)
チェコの検索エンジン。
coccocbot
Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine)
ベトナムの検索エンジン。
中国
Baiduspider
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
中国の検索エンジン百度のクローラーです。
中国語圏からはアクセスされてほしくない事情があるならブロックすれば良いと思いますが、行儀悪い訳ではないので放置で良いかと。
WebマスターツールはありますがICP登録番号が必須なので登録ハードルは高いです。
360Spider
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.4.2661.102 Safari/537.36; 360Spider
こちらもHaosouという中国の検索エンジンのクローラー。
昔は行儀が悪く嫌われていましたが、最近はあまり見かけません。
Webマスターツールへの登録方法は以下のページが詳しいです。
How to Set Up 360 Search Webmaster ToolsHow to Set Up 360 Search Webmaster Tools
Google Voiceの電話番号では登録できませんでしたが、メールアドレスで登録できました。
搜狗搜索
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Webマスターツールへの登録方法は以下のページが詳しいです。
How to Setup Sogou Webmaster ToolsHow to Setup Sogou Webmaster Tools
AspiegelBot / PetalBot
UAは下にいくほど新しいものです。
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; AspiegelBot) Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot) Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
HUAWEIのアプリに搭載されている検索エンジンのbotっぽい。
韓国
Naverのbot
Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)
韓国の検索エンジンのbotです。
UAからはわかりませんが、ホスト名から日本のNaverのサービスでの利用の可能性もありそうです。
Daum
Mozilla/5.0 (compatible; Daum/4.1; +http://cs.daum.net/faq/15/4118.html?faqId=28966)
韓国のポータルサイトだそうです。
ロシア
YandexBot
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
ロシアの検索エンジン。
私はYandexのウェブマスターツールに登録しているので、比較的よく見ます。
Mail.RU_Bot
Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)
ロシアの検索エンジン。
イギリス
Seekport
Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/)
詳細不明。
Mojeek
Mozilla/5.0 (compatible; MojeekBot/0.6; +https://www.mojeek.com/bot.html)
フランス
Exabot
Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot) Mozilla/5.0 (compatible; Exabot/3.0 (BiggerBetter); +http://www.exabot.com/go/robot)
フランスの検索エンジン。
botの説明ページはUA記載の場所から移転しています。
Qwantify
Qwantify/1.0 Mozilla/5.0 (compatible; Qwantify/2.4w; +https://www.qwant.com/)
フランスの検索エンジン。
日本からは利用できません。
Fediverse / ActivityPub
以下のUAはActivityPub関係のものです。
Friendica \'Giant Rhubarb\' (以下略)
アプリ・サービス系
GoogleImageProxy
Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko Firefox/11.0 (via ggpht.com GoogleImageProxy)
Gmailに貼り付けられた画像を取得しているようですが詳細は不明です。
Applebot
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)
Siri等で利用する為のデータをクロールしています。
バージョンナンバーは変わっていきます。
Cliqzbot
Mozilla/5.0 (compatible; Cliqzbot/2.0; +http://cliqz.com/company/cliqzbot)
Cliqzというブラウザの機能で利用しているようです。
ManicTime
ManicTime/4.3.5.0
時間管理プリケーションがログ取得の為にアクセスする場合があるようです。
無害ですし滅多に見られないので放置で大丈夫です。
QQBrowser
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.89 Safari/537.36 QQBrowser Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.5048.400 QQBrowser/9.7.13114.400
ブラウザアプリの様ですが、悪い噂の記事ばかり出てくるのと、挙動がスパムっぽいですね。
SafeDNSBot
SafeDNSBot (https://www.safedns.com/searchbot)
Webフィルタリングサービスらしい。
Cookiebot
Mozilla/5.0 (Windows NT 10.0; Win64; x64) Axiom AppleWebKit/537.36 (KHTML, like Gecko; compatible; Cookiebot/1.337; +http://cookiebot.com/) Chrome/79.0.3945.117 Safari/537.36
GDPR対応の為の同意メッセージを簡単に出す為のサービスらしいが、何故アクセスしてきたのかは不明。
SNS/メッセンジャーアプリ
基本的にはシェアされた時にOGP取得等の為にアクセスが来ます。
最近はニュースフィードを内包しているサービスもあるので、クローリングが鬱陶しい場合はブロックも検討しましょう。
Twitterbot
Twitterbot/1.0
おなじみTwitterのシステムからのアクセス。
Linespider
Mozilla/5.0 (compatible; Linespider/1.1; +https://lin.ee/4dwXkTH)
こちらはLINE。
Slackbot
Slackbot-LinkExpanding 1.0 (+https://api.slack.com/robots)
Slackというコミュニケーションツールにてリンクが貼られた際にアクセスしてきます。
robots.txtの内容はチェックしていませんが、特段ブロックする必要もありません。
オンラインブックマーク/RSSリーダー
誰かが読んでくれている証拠なので、特に理由が無ければブロックしないでおきましょう。
HatenaBookmark
HatenaBookmark/4.0 (Hatena::Bookmark; Analyzer) HatenaBookmark/4.0 (Hatena::Bookmark; Scissors) Hatena::UserAgent/0.02 Hatena-Favicon/2 (http://www.hatena.ne.jp/faq/)
はてなブックマークのbot。
PocketImageCache
PocketImageCache/1.0
おそらくPocketのbotだと思いますが詳細不明。
start.me
Mozilla/5.0 (compatible; startmebot/1.0; +https://start.me/bot)
オンラインブックマークサービスのbotです。
Feedly Fetcher
Feedly/1.0 (+http://www.feedly.com/fetcher.html; like FeedFetcher-Google)
フィードリーダーサービスのbotです。
Tiny Tiny RSS
Tiny Tiny RSS/UNKNOWN (Unsupported) (http://tt-rss.org/)
オープンソースのRSSリーダー。
SEO・解析系
SMTBot
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)
古いUAは以下。
Mozilla/5.0 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)
SimilarWebという、自分が所有していないサイトの規模感を調べられるサービスがあるのですが、それと同じ系列会社のサービスのbotです。
URLを入れると、使っている技術などを表示してくれるみたいですね。
日本語URLは上手くクローリングできないようですし、このサービスを利用しない・データを提供したくないならブロックで。
AhrefsBot
Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)
SEO解析サービスのbotです。
robots.txtに従ってくれる模様。
Barkrowler
Barkrowler/0.9 (+https://babbar.tech/crawler)
フランスの解析サービスの様です。
SISTRIX crawler
Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)
こちらもSEO解析サービスのbotです。
WooRank
Mozilla/5.0 (compatible; woorankreview/2.0; +https://www.woorank.com/)
普通に良さそうなサービスですね(高いけど)。
自分のサイト以外でもURLを入力すると簡易解析できるので、誰かが入力したのかもしれません。
MegaIndex
Mozilla/5.0 (compatible; MegaIndex.ru/2.0; +http://megaindex.com/crawler)
ロシアのSEO会社。
robots.txtは読むらしいですが、このクローラー独自のUAは用意していない模様。
BBQプラグインでブロックされるもの
MJ12bot
Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)
サイト解析サービスのbotなのですが、UI偽装された偽物の場合もあります。
利用予定が無いならブロックで問題ありません。
BLEXBot Crawler
Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)
こちらもSEO解析サービスのbotです。
広告・マーケティング系
一切広告を貼っていないサイトなのにクロールされている場合は、ブロックしても良いかもしれませんが、そうでない場合は慎重に。
Google Adsense等の広告の配信データは、広告代理店やマーケティング会社がデータ収集等を行って作成している事が多いです。
Mediapartners-Google
Google Adsenseのクローラーです。
サイトにAdsenseを貼っているなら基本はブロックしてはいけません。
Oracle Data Cloud Crawler(旧:GrapeshotCrawler)
Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php)
サイト内容に沿った広告を出すためにクロールしています。
Grapeshotはオラクルに買収されました。
サイトに負荷をかけるような挙動は見えないので対処しなくて良いでしょう。
Criteo crawler
CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/)
確か広告配信をしている会社だったはず。
怪しい組織ではないのですが、瞬間的に大量アクセスをしてきてサイトが落ちてしまうので困っています。
robots.txtによる操作は2021年に対応予定らしい。
proximic
Mozilla/5.0 (compatible; proximic; +https://www.comscore.com/Web-Crawler)
2018年までは以下のUAでした。
Mozilla/5.0 (compatible; proximic; +http://www.proximic.com/info/spider.php)
BBQ Firewallを入れていると、デフォルトでブロックされます。
serpstatbot
serpstatbot/1.0 (advanced backlink tracking bot; curl/7.58.0; http://serpstatbot.com/; abuse@serpstatbot.com)
マーケティング用のデータを集めているようです。
結構アクセスが多いので気になるならブロックやディレイを入れた方が良いですね。
Adsbot/3.1
Mozilla/5.0 (compatible; Adsbot/3.1) Mozilla/5.0 (compatible; Adsbot/3.1; +https://seostar.co/robot/)
適切な広告配信のための情報収集botっぽい。
行儀が良いのでブロックする必要は無いと思いますが、必要な場合はrobots.txtで指示を出しましょう。
閉鎖したと思われるもの
Mappy Crawler
Mozilla/5.0 (compatible; Mappy/1.0; +http://mappydata.net/bot/)
マーケティング会社の検索エンジン。
SBooksNet
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36 (compatible; SBooksNet/1.0; +http://s-books.net/crawl_policy)
日本のマーケティング会社のクローラーです。
不定期に大量にクローリングしてくる感じなので、気になる場合はCrawl-Delay
等を設定しましょう。
ウェブ魚拓系
Megalodon
ウェブ魚拓というサービスのbotです。ページのキャッシュを取得されたくない場合は、robots.txtに以下の行を加えましょう。
User-agent: Megalodon Disallow: /
研究系
サイト運営は慈善事業ではありませんので、データ提供したくなければブロックして良いかと。
CCbot
Common Crawlという団体のクローラーです。
この記事を書く直前に一括でログを消してしまったので、実際のAgentはまた後日。
Steeler
東京大学の研究室のbot。
robots.txtに従ってくれます。
e-SocietyRobot
早稲田大学のe-Society「基盤ソフトウェアの総合開発」プロジェクトのbot。
robots.txtに従ってくれます。
DNSResearchBot
DNSの研究用らしいです。クロール対象から外してもらうにはメールしなければいけません。
公式サイトに繋がらなくなったので、調査終了したのかもしれません。
迷惑系(リファラースパム)
リファラースパムとは?
一般閲覧者や無害なbotを装い、リファラーに情報を残してサイト運営者がアクセスしてくるのを狙うスパムです。
ログに残るだけでも迷惑ですし、うっかり踏んでしまわない為にも、見つけ次第ブロックしましょう。
以下の記事が詳しいです。
リファラースパムとは?Googleアナリティクスで徹底的に対策をしようGoogleアナリティクスを見ていると、「(not set)」「ru」「ru-ru」という言語からのアクセスが異常に多かったり、集客サマリーの「Referral」で見慣れないサイトから流入があったりしませんか?これらの多くは、リファラースパムと呼ばれるものです。
site.ru
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/533.4 (KHTML, like Gecko) Chrome/5.0.375.99 Safari/533.4
詳細・目的不明
Cincraw Crawler
Mozilla/5.0 (compatible; Cincraw/1.0; +http://cincrawdata.net/bot/)
日本製のようですが、何の為にクローリングしているのかは書かれていません。
DataXu
Mozilla/5.0 (compatible; DataXu/1.0; +http://dataxu.com)
上記のサイトは無くなっており、TV広告のサイトに転送されます。
ias-sg/3.1
ias-sg/3.1 (+https://www.admantx.com/service-fetcher.html)
有効なSSL証明書が無いのでアクセスしない事をおすすめします。
買収された広告系の会社らしい?
オープンソースのWebクローラー等
オープンソースのクローラーからのアクセスは、振る舞いから意図を推測するしかありません。
中にはいたずら目的のアクセスと思われるものもありましたので、ご注意ください。
GitHub - yasserg/crawler4j: Open Source Web Crawler for JavaOpen Source Web Crawler for Java. Contribute to yasserg/crawler4j development by creating an account on GitHub.
GitHub - go-resty/resty: Simple HTTP and REST client library for GoSimple HTTP and REST client library for Go. Contribute to go-resty/resty development by creating an account on GitHub.
go-resty/2.0.0 (https://github.com/go-resty/resty)
GitHub - psf/requests-html: Pythonic HTML Parsing for Humans™Pythonic HTML Parsing for Humans™. Contribute to psf/requests-html development by creating an account on GitHub.
python-requests/2.18.4 python-requests/2.22.0
此方の記事によると上記のUAはRequests-HTMLのものらしいですが、他のPythonのクローラーでも同じものが出そうです。
GitHub - tomnomnom/meg: Fetch many paths for many hosts - without killing the hostsFetch many paths for many hosts - without killing the hosts - GitHub - tomnomnom/meg: Fetch many paths for many hosts - without killing the hosts
Mozilla/5.0 (compatible; meg/0.2; +https://github.com/tomnomnom/meg)
Apache/2.4.34 (Ubuntu) OpenSSL/1.1.1 (internal dummy connection)
Scrapy
Scrapy/2.4.1 (+https://scrapy.org)
スクレイピングツールです。
基本はブロックで問題ありません。
言語やライブラリに組み込まれているもの
Python-urllib/2.7(または3.7) Go-http-client/1.1 curl/7.58.0 Vert.x-WebClient/3.8.4
Python/Go/curl/Javaのシステムでのクローリングで出ます。
目的などはシステム作者によるため、他の情報から推測するしかありません。
Go-http-clientはHSTS Preload List SubmissionのbotのUAにも含まれているのですが、結構これを使った攻撃が多いのでブロックやむなし。