Skip to content

NHKの衆議院選挙データベースサイトから複数のHTMLファイルに含まれる候補者情報を自動的に抽出し、CSVファイルに保存するPythonスクリプト

Notifications You must be signed in to change notification settings

i-am-syosei/candidate_information-

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 

Repository files navigation

衆議院選挙候補者データ抽出スクリプト 2024

衆議院選挙候補者の情報をまとめ、様々な角度から候補者を見ることで正しい選択ができると思っているため、作成しました。 このREADMEでは、NHKの衆議院選挙データベースサイトから複数のHTMLファイルに含まれる候補者情報を自動的に抽出し、CSVファイルに保存するPythonスクリプトの使用方法と設定手順を説明します。また、抽出したデータをExcelで効果的に活用するための関数の作成方法についても説明します。

はじめに

このスクリプトは、指定された複数のHTMLファイルから候補者情報を抽出し、candidates.csv に保存します。データの抽出にはSeleniumとBeautifulSoupを使用し、動的にロードされるコンテンツにも対応しています。

環境設定

必要なソフトウェア

  • Python: バージョン3.6以上
  • Google Chromeブラウザ: 最新版を推奨
  • インターネット接続

Pythonライブラリのインストール

以下のコマンドを使用して、必要なPythonライブラリをインストールします。

pip install selenium webdriver-manager beautifulsoup4

スクリプトの使用方法

スクリプトのダウンロードと配置

  1. スクリプトファイルの取得

    このリポジトリから extract_candidates.py をダウンロードし、任意のディレクトリに保存します。例として、extract_candidates.py` に保存します。

CSV保存先フォルダの作成

CSVファイルを保存するためのフォルダを作成します。以下の手順に従ってください。

  1. フォルダの作成

    candidates フォルダを作成します。既に存在する場合はこのステップをスキップしてください。

スクリプトの実行

  1. コマンドプロンプトまたはPowerShellを開く

  2. スクリプトが保存されているディレクトリに移動

    cd candidates
  3. スクリプトの実行

    python extract_candidates.py

    スクリプトが正常に実行されると、candidates.csv にデータが保存されます。

注意: このスクリプトの使用にあたっては、対象ウェブサイトの利用規約を遵守してください。不正なスクレイピングや大量のリクエスト送信は避け、サイト運営者の許可を得ることを推奨します。

備考: もし他にご不明点や追加の質問がありましたら、お気軽にお問い合わせください。

https://x.com/mizugamiaqua

About

NHKの衆議院選挙データベースサイトから複数のHTMLファイルに含まれる候補者情報を自動的に抽出し、CSVファイルに保存するPythonスクリプト

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages