Cotoyogiクローラについて
2024年6月28日
Cotoyogiは 情報・システム研究機構 データサイエンス共同利用基盤施設 データレイク研究開発センター が日本語データ資源収集のために運用している Webクローラ(ロボット)です. アクセスがご迷惑でしたら,下記の ロボット除けの設定をして頂くか, 当方までご連絡下さい. ご協力のほど,よろしくお願いいたします.
クローラ基本情報
- ユーザーエージェント文字列
- Mozilla/5.0 (compatible; Cotoyogi/4.0; +https://ds.rois.ac.jp/center8/crawler/)
- IPアドレス範囲
- 157.1.136.4 - 157.1.136.11
ロボット除け設定方法
方法1. /robots.txtファイル
クローラへの指示を記述した robots.txt というファイルをサイトのトップ (例:http://www.your-site.com/robots.txt) に置く方法です(サーバ管理者向け). 詳細は RFC 9309 を参照下さい.
-
例えば,以下の記述は Cotoyogi があなたのサイトからダウンロードするのを
全面的に 禁止します.
Disallow の値はパス名の先頭部分(プレフィックス)と解釈されます.User-agent: Cotoyogi Disallow: /
-
Disallow にはワイルドカード "*"
やパス末尾を表す "$" を指定することができます.
例えば,以下の記述は /images ディレクトリ以下のコンテンツとともに, 拡張子 .gif を持つコンテンツをアクセス禁止にします.User-agent: Cotoyogi Disallow: /images/ Disallow: *.gif$
-
アクセスの頻度が問題になる場合,
Crawl-delay
を指定して下さい.
例えば,以下の記述はサイトへのアクセスを30秒以上空けるよう指示します.User-agent: Cotoyogi Crawl-delay: 30.0
方法2. Robots metaタグ
HTML文書のヘッダにmetaタグを記述する方法です.例えば,
という記述により,Cotoyogi はその文書からのリンクをたどらなくなります.<META NAME="robots" CONTENT="nofollow">
当方へのご連絡
ご要望やご質問は
crawler (at) rois.ac.jp
("(at)" → @)
までemailでお寄せ下さい.
その際は,あなたのサイトのホスト名(別名があればそれも)や
IPアドレスを明記して下さるようお願いします.