Cotoyogiクローラについて

Cotoyogiクローラについて

2024年6月28日

Cotoyogi 情報・システム研究機構 データサイエンス共同利用基盤施設 データレイク研究開発センター が日本語データ資源収集のために運用している Webクローラ(ロボット)です. アクセスがご迷惑でしたら,下記の ロボット除けの設定をして頂くか, 当方までご連絡下さい. ご協力のほど,よろしくお願いいたします.

クローラ基本情報

ユーザーエージェント文字列
Mozilla/5.0 (compatible; Cotoyogi/4.0; +https://ds.rois.ac.jp/center8/crawler/)
IPアドレス範囲
157.1.136.4 - 157.1.136.11

ロボット除け設定方法

方法1. /robots.txtファイル

クローラへの指示を記述した robots.txt というファイルをサイトのトップ (例:http://www.your-site.com/robots.txt) に置く方法です(サーバ管理者向け). 詳細は RFC 9309 を参照下さい.

  • 例えば,以下の記述は Cotoyogi があなたのサイトからダウンロードするのを 全面的に 禁止します.
    Disallow の値はパス名の先頭部分(プレフィックス)と解釈されます.
    User-agent: Cotoyogi
    Disallow: /
    
  • Disallow にはワイルドカード "*" やパス末尾を表す "$" を指定することができます.
    例えば,以下の記述は /images ディレクトリ以下のコンテンツとともに, 拡張子 .gif を持つコンテンツをアクセス禁止にします.
    User-agent: Cotoyogi
    Disallow: /images/
    Disallow: *.gif$
    
  • アクセスの頻度が問題になる場合, Crawl-delay を指定して下さい.
    例えば,以下の記述はサイトへのアクセスを30秒以上空けるよう指示します.
    User-agent: Cotoyogi
    Crawl-delay: 30.0
    

方法2. Robots metaタグ

HTML文書のヘッダにmetaタグを記述する方法です.例えば,

<META NAME="robots" CONTENT="nofollow">
という記述により,Cotoyogi はその文書からのリンクをたどらなくなります.

当方へのご連絡

ご要望やご質問は crawler (at) rois.ac.jp ("(at)" → @) までemailでお寄せ下さい.
その際は,あなたのサイトのホスト名(別名があればそれも)や IPアドレスを明記して下さるようお願いします.