PULS
Foto: Matthias Friel
Web Scraping umfasst grundsätzlich die Datensammlung aus Online-Quellen. In dem Verständnis, welches diesem Seminar zugrundeliegt, geht es dabei nicht um die wahllose Sammlung möglichst großer Datenmengen, sondern um das gezielte Extrahieren von den für eine wissenschaftliche Fragestellung relevanten Informationen aus Online-Quellen.
Für die Sozialwissenschaften eröffnet das Web Scraping so eine neue Zugangsmethode zu Daten, die uns auf "klassischem" Wege nicht oder nur erschwert zugänglich sind. Dies könnte beispielsweise die Sammlung und Analyse von Tweets politischer Akteure, von Zeitungsartikeln zu bestimmten Themen und Personen oder von Kundenreviews zu einem bestimmten Service von sozialwissenschaftlichem Interesse sein.
Inhalte des Seminars:
Im letzten Teil des Seminars wird ein Beispielprojekt vorgestellt. Dieses umfasst den kompletten Prozess von der Entwicklung einer Fragestellung, über die Identifikation und Extraktion passender Online-Datenquellen bis hin zu deren erster Analyse und kann als Inspiration für eigene Web Scraping Projekte dienen.
Technische Voraussetzungen: Das Seminar findet als Präsenzseminar in einem PC Pool statt. Es stehen Rechner mit der benötigten Software zur Verfügung, Sie können aber auch eigene Laptops mitbringen. Das Scraping sowie die Aufbereitung und Analyse der gesammelten Daten erfolgt mit RStudio und den packages des tidyverse. Die Software ist frei zugänglich und für alle gängigen Betriebssysteme verfügbar. Anleitungen und Hilfestellungen zur Installation auf Ihren eigenen Rechnern werden im Seminar gegeben.
Inhaltliche Voraussetzungen: Es werden keine Vorkenntnisse in Web Scraping und der Nutzung von R und RStudio vorausgesetzt. Alle behandelten Inhalte richten sich an Anfänger. Die Einführung in R und RStudio im Rahmen dieses Seminars erfolgt dabei "problemorientiert" und kann/soll eine umfassende Einführung nicht ersetzen.Es bestehen keine formalen Zulassungsvoraussetzungen, die Absolvierung der einführenden Methodenvorlesungen ist für das Verständnis der behandelten Inhalte jedoch empfohlen. Vorwissen in R und/oder anderer Statistiksoftware wie Stata ist hilfreich, wird aber nicht vorausgesetzt.
Ablauf des Seminars: Zur Vorbereitung der Sitzungen, ist ein begleitendes Skript zu lesen, welches Ihnen in Form einer englisch sprachigen Website zur Verfügung gestellt wird. Die jeweils zu lesenden Kapiteln werden über den Moodle Kurs bekanntgegeben.Die Arbeit mit R und die Anwendung von Web Scraping lässt sich nur durch selbstständiges Schreiben von Code erlernen. Dazu werden Ihnen Übungsaufgaben über Moodle zur Verfügung gestellt, deren Abgabe gleichzeitig die Prüfungsnebenleistung bildet. Sie bekommen Feedback zu Ihren Abgaben durch den Dozenten über Moodle. Als Modulprüfung ist die Durchführung eines eigenen Web Scraping Projekts in Form einer Hausarbeit vorgesehen. Nach der Zulassung über PULS, erhalten Sie von mir eine E-Mail mit Link und Passwort zu dem Moodle-Kurs.
Abschluss des Moduls BBMSOZ910 wird dringend empfohlen
Prüfungsnebenleistungen: Abgabe und Bestehen von Übungsaufgaben. Details zu Umfang und Anzahl abzugebender Übungsaufgaben folgen im Seminar.
Modulabschlussprüfung: Eigenes Web Scraping Projekt in Form einer Hausarbeit.
Anmelde- und Rücktrittsfrist in PULS für die Modulabschlussprüfung: 16.10.2023 - 30.03.2024
Hinweis für die Studiengänge BA Politik, Verwaltung und Organisation sowie BA Politik und Wirtschaft: Das bestehen der Prüfungsnebenleistung ist Zulassungvoraussetzung zur Modulprüufng!
© Copyright HISHochschul-Informations-System eG