Cosmos and Chaos
Eyecatch

サイトにアクセスしてきたクローラー・botの情報まとめ

行儀の良いものから悪いものまで、日々色々なボットやクローラーがサイトにアクセスしてきます。
この記事では各種クローラーの情報をまとめました。
見出しのリンク先は各botの説明ページになっています。

私はサイトのアクセスログを見て、怪しげなものは定期的にブロックしたりしてサイトが攻撃されるのを防いでいます。

検索エンジン

ひっそり運営したいサイト以外は、基本的にブロックしない方が良いです。
しかし中には海外検索エンジンで行儀が悪いものも居るので、流入数と要相談。

Googlebot

おなじみ。Googleにインデックスさせたいならブロックしない様に。
Webマスターツールもあります。

UA一覧などはリンク先にあります。

Bingbot

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
msnbot/2.0b (+http://search.msn.com/msnbot.htm)

Microsoftの検索エンジンBingのクローラーです。
こちらもクローラーのユーザーエージェント一覧がリンク先に用意されています。

msnbotについては一覧にはもうありませんが、未だに此方のUAでクローリングする事もあるようです。
(なりすましの可能性もありますが…)

Webマスターツールはこちら。

netEstate NE Crawler

netEstate NE Crawler (+http://www.website-datenbank.de/)

ドイツの検索エンジンのようです。

SeznamBot

Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)

チェコの検索エンジン。

coccocbot

Mozilla/5.0 (compatible; coccocbot-web/1.0; +http://help.coccoc.com/searchengine)

ベトナムの検索エンジン。

中国

Baiduspider

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

中国の検索エンジン百度のクローラーです。
中国語圏からはアクセスされてほしくない事情があるならブロックすれば良いと思いますが、行儀悪い訳ではないので放置で良いかと。

WebマスターツールはありますがICP登録番号が必須なので登録ハードルは高いです。

360Spider

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.4.2661.102 Safari/537.36; 360Spider

こちらもHaosouという中国の検索エンジンのクローラー。
昔は行儀が悪く嫌われていましたが、最近はあまり見かけません。

Webマスターツールへの登録方法は以下のページが詳しいです。

Google Voiceの電話番号では登録できませんでしたが、メールアドレスで登録できました。

搜狗搜索

Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

Webマスターツールへの登録方法は以下のページが詳しいです。

AspiegelBot / PetalBot

UAは下にいくほど新しいものです。

Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; AspiegelBot)
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://aspiegel.com/petalbot)
Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

HUAWEIのアプリに搭載されている検索エンジンのbotっぽい。

韓国

Naverのbot

Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)

韓国の検索エンジンのbotです。
UAからはわかりませんが、ホスト名から日本のNaverのサービスでの利用の可能性もありそうです。

Daum

Mozilla/5.0 (compatible; Daum/4.1; +http://cs.daum.net/faq/15/4118.html?faqId=28966)

韓国のポータルサイトだそうです。

ロシア

YandexBot

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

ロシアの検索エンジン。
私はYandexのウェブマスターツールに登録しているので、比較的よく見ます。

Mail.RU_Bot

Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots)

ロシアの検索エンジン。

イギリス

Seekport

Mozilla/5.0 (compatible; Seekport Crawler; http://seekport.com/)

詳細不明。

Mojeek

Mozilla/5.0 (compatible; MojeekBot/0.6; +https://www.mojeek.com/bot.html)

フランス

Exabot

Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)
Mozilla/5.0 (compatible; Exabot/3.0 (BiggerBetter); +http://www.exabot.com/go/robot)

フランスの検索エンジン。
botの説明ページはUA記載の場所から移転しています。

Qwantify

Qwantify/1.0
Mozilla/5.0 (compatible; Qwantify/2.4w; +https://www.qwant.com/)

フランスの検索エンジン。
日本からは利用できません。

Fediverse / ActivityPub

以下のUAはActivityPub関係のものです。

Friendica \'Giant Rhubarb\' (以下略)

アプリ・サービス系

GoogleImageProxy

Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko Firefox/11.0 (via ggpht.com GoogleImageProxy)

Gmailに貼り付けられた画像を取得しているようですが詳細は不明です。

Applebot

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.1.1 Safari/605.1.15 (Applebot/0.1; +http://www.apple.com/go/applebot)

Siri等で利用する為のデータをクロールしています。
バージョンナンバーは変わっていきます。

Cliqzbot

Mozilla/5.0 (compatible; Cliqzbot/2.0; +http://cliqz.com/company/cliqzbot)

Cliqzというブラウザの機能で利用しているようです。

ManicTime

ManicTime/4.3.5.0

時間管理プリケーションがログ取得の為にアクセスする場合があるようです。
無害ですし滅多に見られないので放置で大丈夫です。

QQBrowser

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.89 Safari/537.36 QQBrowser
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.5048.400 QQBrowser/9.7.13114.400

ブラウザアプリの様ですが、悪い噂の記事ばかり出てくるのと、挙動がスパムっぽいですね。

SafeDNSBot

SafeDNSBot (https://www.safedns.com/searchbot)

Webフィルタリングサービスらしい。

Cookiebot

Mozilla/5.0 (Windows NT 10.0; Win64; x64) Axiom AppleWebKit/537.36 (KHTML, like Gecko; compatible; Cookiebot/1.337; +http://cookiebot.com/) Chrome/79.0.3945.117 Safari/537.36

GDPR対応の為の同意メッセージを簡単に出す為のサービスらしいが、何故アクセスしてきたのかは不明。

SNS/メッセンジャーアプリ

基本的にはシェアされた時にOGP取得等の為にアクセスが来ます。
最近はニュースフィードを内包しているサービスもあるので、クローリングが鬱陶しい場合はブロックも検討しましょう。

Twitterbot

Twitterbot/1.0

おなじみTwitterのシステムからのアクセス。

Linespider

Mozilla/5.0 (compatible; Linespider/1.1; +https://lin.ee/4dwXkTH)

こちらはLINE。

Slackbot

Slackbot-LinkExpanding 1.0 (+https://api.slack.com/robots)

Slackというコミュニケーションツールにてリンクが貼られた際にアクセスしてきます。
robots.txtの内容はチェックしていませんが、特段ブロックする必要もありません。

オンラインブックマーク/RSSリーダー

誰かが読んでくれている証拠なので、特に理由が無ければブロックしないでおきましょう。

HatenaBookmark

HatenaBookmark/4.0 (Hatena::Bookmark; Analyzer)
HatenaBookmark/4.0 (Hatena::Bookmark; Scissors)
Hatena::UserAgent/0.02
Hatena-Favicon/2 (http://www.hatena.ne.jp/faq/)

はてなブックマークのbot。

PocketImageCache

PocketImageCache/1.0

おそらくPocketのbotだと思いますが詳細不明。

start.me

Mozilla/5.0 (compatible; startmebot/1.0; +https://start.me/bot)

オンラインブックマークサービスのbotです。

Feedly Fetcher

Feedly/1.0 (+http://www.feedly.com/fetcher.html; like FeedFetcher-Google)

フィードリーダーサービスのbotです。

Tiny Tiny RSS

Tiny Tiny RSS/UNKNOWN (Unsupported) (http://tt-rss.org/)

オープンソースのRSSリーダー。

SEO・解析系

SMTBot

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)

 古いUAは以下。

Mozilla/5.0 (compatible; SMTBot/1.0; +http://www.similartech.com/smtbot)

SimilarWebという、自分が所有していないサイトの規模感を調べられるサービスがあるのですが、それと同じ系列会社のサービスのbotです。
URLを入れると、使っている技術などを表示してくれるみたいですね。

日本語URLは上手くクローリングできないようですし、このサービスを利用しない・データを提供したくないならブロックで。

AhrefsBot

Mozilla/5.0 (compatible; AhrefsBot/5.0; +http://ahrefs.com/robot/)

SEO解析サービスのbotです。
robots.txtに従ってくれる模様。

Barkrowler

Barkrowler/0.9 (+https://babbar.tech/crawler)

フランスの解析サービスの様です。

SISTRIX crawler

Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

こちらもSEO解析サービスのbotです。

WooRank

Mozilla/5.0 (compatible; woorankreview/2.0; +https://www.woorank.com/)

普通に良さそうなサービスですね(高いけど)。
自分のサイト以外でもURLを入力すると簡易解析できるので、誰かが入力したのかもしれません。

MegaIndex

Mozilla/5.0 (compatible; MegaIndex.ru/2.0; +http://megaindex.com/crawler)

ロシアのSEO会社。
robots.txtは読むらしいですが、このクローラー独自のUAは用意していない模様。

BBQプラグインでブロックされるもの

MJ12bot

Mozilla/5.0 (compatible; MJ12bot/v1.4.5; http://www.majestic12.co.uk/bot.php?+)

サイト解析サービスのbotなのですが、UI偽装された偽物の場合もあります。
利用予定が無いならブロックで問題ありません。

BLEXBot Crawler

Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)

こちらもSEO解析サービスのbotです。

広告・マーケティング系

一切広告を貼っていないサイトなのにクロールされている場合は、ブロックしても良いかもしれませんが、そうでない場合は慎重に。
Google Adsense等の広告の配信データは、広告代理店やマーケティング会社がデータ収集等を行って作成している事が多いです。

Mediapartners-Google

Google Adsenseのクローラーです。
サイトにAdsenseを貼っているなら基本はブロックしてはいけません。

Oracle Data Cloud Crawler(旧:GrapeshotCrawler)

Mozilla/5.0 (compatible; GrapeshotCrawler/2.0; +http://www.grapeshot.co.uk/crawler.php)

 サイト内容に沿った広告を出すためにクロールしています。

 Grapeshotはオラクルに買収されました。
 サイトに負荷をかけるような挙動は見えないので対処しなくて良いでしょう。

Criteo crawler

CriteoBot/0.1 (+https://www.criteo.com/criteo-crawler/)

 確か広告配信をしている会社だったはず。
 怪しい組織ではないのですが、瞬間的に大量アクセスをしてきてサイトが落ちてしまうので困っています。

 robots.txtによる操作は2021年に対応予定らしい。

proximic

Mozilla/5.0 (compatible; proximic; +https://www.comscore.com/Web-Crawler)

2018年までは以下のUAでした。

Mozilla/5.0 (compatible; proximic; +http://www.proximic.com/info/spider.php)

BBQ Firewallを入れていると、デフォルトでブロックされます。

serpstatbot

serpstatbot/1.0 (advanced backlink tracking bot; curl/7.58.0; http://serpstatbot.com/; abuse@serpstatbot.com)

 マーケティング用のデータを集めているようです。
 結構アクセスが多いので気になるならブロックやディレイを入れた方が良いですね。

Adsbot/3.1

Mozilla/5.0 (compatible; Adsbot/3.1)
Mozilla/5.0 (compatible; Adsbot/3.1; +https://seostar.co/robot/)

 適切な広告配信のための情報収集botっぽい。
 行儀が良いのでブロックする必要は無いと思いますが、必要な場合はrobots.txtで指示を出しましょう。

閉鎖したと思われるもの

Mappy Crawler

Mozilla/5.0 (compatible; Mappy/1.0; +http://mappydata.net/bot/)

 マーケティング会社の検索エンジン。

SBooksNet

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36 (compatible; SBooksNet/1.0; +http://s-books.net/crawl_policy)

 日本のマーケティング会社のクローラーです。
 不定期に大量にクローリングしてくる感じなので、気になる場合はCrawl-Delay等を設定しましょう。

ウェブ魚拓系

Megalodon

 ウェブ魚拓というサービスのbotです。ページのキャッシュを取得されたくない場合は、robots.txtに以下の行を加えましょう。

User-agent: Megalodon
Disallow: /

研究系

 サイト運営は慈善事業ではありませんので、データ提供したくなければブロックして良いかと。

CCbot

 Common Crawlという団体のクローラーです。
 この記事を書く直前に一括でログを消してしまったので、実際のAgentはまた後日。

Steeler

 東京大学の研究室のbot。
 robots.txtに従ってくれます。

e-SocietyRobot

 早稲田大学のe-Society「基盤ソフトウェアの総合開発」プロジェクトのbot。
 robots.txtに従ってくれます。

DNSResearchBot

 DNSの研究用らしいです。クロール対象から外してもらうにはメールしなければいけません。

 公式サイトに繋がらなくなったので、調査終了したのかもしれません。

迷惑系(リファラースパム)

リファラースパムとは?

 一般閲覧者や無害なbotを装い、リファラーに情報を残してサイト運営者がアクセスしてくるのを狙うスパムです。
 ログに残るだけでも迷惑ですし、うっかり踏んでしまわない為にも、見つけ次第ブロックしましょう。

 以下の記事が詳しいです。

site.ru

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/533.4 (KHTML, like Gecko) Chrome/5.0.375.99 Safari/533.4

詳細・目的不明

Cincraw Crawler

Mozilla/5.0 (compatible; Cincraw/1.0; +http://cincrawdata.net/bot/)

日本製のようですが、何の為にクローリングしているのかは書かれていません。

DataXu

Mozilla/5.0 (compatible; DataXu/1.0; +http://dataxu.com)

上記のサイトは無くなっており、TV広告のサイトに転送されます。

ias-sg/3.1

ias-sg/3.1 (+https://www.admantx.com/service-fetcher.html)

 有効なSSL証明書が無いのでアクセスしない事をおすすめします。
 買収された広告系の会社らしい?

オープンソースのWebクローラー等

 オープンソースのクローラーからのアクセスは、振る舞いから意図を推測するしかありません。
 中にはいたずら目的のアクセスと思われるものもありましたので、ご注意ください。

go-resty/2.0.0 (https://github.com/go-resty/resty)
python-requests/2.18.4
python-requests/2.22.0

 此方の記事によると上記のUAはRequests-HTMLのものらしいですが、他のPythonのクローラーでも同じものが出そうです。

Mozilla/5.0 (compatible; meg/0.2; +https://github.com/tomnomnom/meg)
Apache/2.4.34 (Ubuntu) OpenSSL/1.1.1 (internal dummy connection)

Scrapy

Scrapy/2.4.1 (+https://scrapy.org)

スクレイピングツールです。
基本はブロックで問題ありません。

言語やライブラリに組み込まれているもの

Python-urllib/2.7(または3.7)
Go-http-client/1.1
curl/7.58.0
Vert.x-WebClient/3.8.4

Python/Go/curl/Javaのシステムでのクローリングで出ます。
目的などはシステム作者によるため、他の情報から推測するしかありません。

Go-http-clientはHSTS Preload List SubmissionのbotのUAにも含まれているのですが、結構これを使った攻撃が多いのでブロックやむなし。

Sophia

DTMとかやる人。