Gov Crawler
会計検査院 検査報告クローラー。report.jbaudit.go.jp から検査報告を収集する Scrapy プロジェクト。
概要
- フレームワーク: Scrapy (Python 3.12)
- 対象: 会計検査院 検査報告 (平成元年〜令和6年)
- 出力: JSON (年度別ファイル、合計 ~295MB)
スパイダー
report_spider
個別の検査報告を収集。階層構造を抽出: 章 → 節 → 機関 → 区分。
# 特定年度
scrapy crawl jbaudit-report -a era_code=r06 -O reports.json
# 全年度一括
scrapy crawl jbaudit-report -a all_years=true
search_spider
検索メタデータ (掲記区分 11種、不当事項分類 15種) を収集。
scrapy crawl jbaudit-search -O search-meta.json
一括実行
# 平成元年〜令和6年の全年度を順次クロール
./jbaudit/kensahoukoku/crawl_heisei_reiwa.sh
設定
- 同時リクエスト: 1 (政府サーバー配慮)
- ダウンロード遅延: 0.2秒
- robots.txt 遵守
- PDF ダウンロード上限: 10MB
リポジトリ
gov-crawler/