Skip to content

Gov Crawler

会計検査院 検査報告クローラー。report.jbaudit.go.jp から検査報告を収集する Scrapy プロジェクト。

概要

  • フレームワーク: Scrapy (Python 3.12)
  • 対象: 会計検査院 検査報告 (平成元年〜令和6年)
  • 出力: JSON (年度別ファイル、合計 ~295MB)

スパイダー

report_spider

個別の検査報告を収集。階層構造を抽出: 章 → 節 → 機関 → 区分。

# 特定年度
scrapy crawl jbaudit-report -a era_code=r06 -O reports.json

# 全年度一括
scrapy crawl jbaudit-report -a all_years=true

search_spider

検索メタデータ (掲記区分 11種、不当事項分類 15種) を収集。

scrapy crawl jbaudit-search -O search-meta.json

一括実行

# 平成元年〜令和6年の全年度を順次クロール
./jbaudit/kensahoukoku/crawl_heisei_reiwa.sh

設定

  • 同時リクエスト: 1 (政府サーバー配慮)
  • ダウンロード遅延: 0.2秒
  • robots.txt 遵守
  • PDF ダウンロード上限: 10MB

リポジトリ

gov-crawler/