衆議院選挙候補者の情報をまとめ、様々な角度から候補者を見ることで正しい選択ができると思っているため、作成しました。 このREADMEでは、NHKの衆議院選挙データベースサイトから複数のHTMLファイルに含まれる候補者情報を自動的に抽出し、CSVファイルに保存するPythonスクリプトの使用方法と設定手順を説明します。また、抽出したデータをExcelで効果的に活用するための関数の作成方法についても説明します。
このスクリプトは、指定された複数のHTMLファイルから候補者情報を抽出し、candidates.csv
に保存します。データの抽出にはSeleniumとBeautifulSoupを使用し、動的にロードされるコンテンツにも対応しています。
- Python: バージョン3.6以上
- Google Chromeブラウザ: 最新版を推奨
- インターネット接続
以下のコマンドを使用して、必要なPythonライブラリをインストールします。
pip install selenium webdriver-manager beautifulsoup4
-
スクリプトファイルの取得
このリポジトリから
extract_candidates.py
をダウンロードし、任意のディレクトリに保存します。例として、extract_candidates.py` に保存します。
CSVファイルを保存するためのフォルダを作成します。以下の手順に従ってください。
-
フォルダの作成
candidates
フォルダを作成します。既に存在する場合はこのステップをスキップしてください。
-
コマンドプロンプトまたはPowerShellを開く
-
スクリプトが保存されているディレクトリに移動
cd candidates
-
スクリプトの実行
python extract_candidates.py
スクリプトが正常に実行されると、
candidates.csv
にデータが保存されます。
注意: このスクリプトの使用にあたっては、対象ウェブサイトの利用規約を遵守してください。不正なスクレイピングや大量のリクエスト送信は避け、サイト運営者の許可を得ることを推奨します。
備考: もし他にご不明点や追加の質問がありましたら、お気軽にお問い合わせください。