Skip to content

This repository contains Jupyter Notebooks and data for an introductory workshop on how to implement LDA Topic Modeling in Python. The workshop is part of the Praxislabor 2022 of the AG Digitale Geschichtswissenschaft.

Notifications You must be signed in to change notification settings

Digital-History-Berlin/topic-modeling-workshop-praxislabor2022

Repository files navigation

Binder

Einführung in Topic Modeling mit Python

In diesem Repositorium finden Sie die Jupyter Notebooks, die wir im Workshop 'Einführung in Topic Modeling mit Python' nutzen.

Das Repo enthält für die einzelnen Einheiten jeweils

  • Notebooks, die wir gemeinsam im Workshop durchgehen
  • ein Reihe von Daten, die wir mit den Notebooks bearbeiten und erzeugen

Die exemplarischen Beispieldaten bestehen aus 2983 Reden von Bundeskanzler:innen und anderen Angehörigen der Bundesregierung, die einen Zeitraum von 1982 bis 2017 abdecken und tabellarisch aufbereitet wurden. Der ursprüngliche XML-Datensatz stammt von Adrien Barbaresi und enthält zusätzlich noch Reden der Bundes- und Bundestagspräsident:innen sowie des Auswärtigen Amtes: Barbaresi, Adrien (2018). A corpus of German political speeches from the 21st century, Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), European Language Resources Association (ELRA), pp. 792–797.

🚀 Jupyter Notebooks starten

Wir arbeiten im Workshop mit externen webbasierten Tools (d.h. im Browser), um Python-Code ausführen zu lassen. Eine lokale Installation von Python auf Ihrer Maschine ist daher nicht notwendig. Allerdings benötigen Sie eine stabile Internetverbindung, um die Notebooks bearbeiten zu können.

  1. Um die im Repo liegenden Notebooks zu starten, klicken Sie oben oder hier auf den Banner Binder. Dies startet eine JupyterLab-Session im Browser mit den Notebooks aus dem Repositorium. Dafür wird intern das Tool Binder verwendet. Der Build-Prozess kann mitunter etwas dauern. (Dies ist die im Workshop bevorzugte Variante.)

  2. Wenn Sie ein Google-Konto besitzen, können Sie Google Colaboratory verwenden. Hierzu müssen Sie die Notebooks im GitLab-Repository als zip-Datei herunterladen und auf Ihrem Rechner entpacken. Sie können die Notebooks danach in Google Colab entweder über Ihr lokales Filesystem oder über Google Drive hochladen. Beachten Sie, dass die Arbeit mit Dateien in Colab etwas anders funktioniert.

💾 Jupyter Notebooks speichern

Mit der ersten Methode werden Ihre bearbeiteten Notebooks nicht automatisch gespeichert. Sie können diese entweder über das kleine Wolken-Icon im Browser-Storage sichern und beim nächsten Start wieder aufrufen (⚠️Dies funktioniert nur solange, wie Sie den aktiven Tab nicht schließen und Ihre Browserdaten in den Einstellungen nicht löschen). Wir empfehlen, um Datenverlust zu vermeiden, die von Ihnen bearbeiteten Notebooks vor Schließen des Browserfensters lokal auf Ihrem Rechner zu sichern. Sie können diese jederzeit im JupyterLab wieder hochladen.

Wenn Sie Google Colab nutzen, werden die Dateien automatisch in Google Drive gesichert.

Abschließend:

Happy Coding! 😸

About

This repository contains Jupyter Notebooks and data for an introductory workshop on how to implement LDA Topic Modeling in Python. The workshop is part of the Praxislabor 2022 of the AG Digitale Geschichtswissenschaft.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published