Zur Seitennavigation oder mit Tastenkombination für den accesskey-Taste und Taste 1 
Zum Seiteninhalt oder mit Tastenkombination für den accesskey und Taste 2 

Foto: Matthias Friel

Web Scraping mit R - Einzelansicht

Veranstaltungsart Seminar Veranstaltungsnummer 423211
SWS 2 Semester WiSe 2023/24
Einrichtung Sozialwissenschaften   Sprache deutsch
Belegungsfrist 02.10.2023 - 10.11.2023

Belegung über PULS
Gruppe 1:
     jetzt belegen / abmelden
    Tag Zeit Rhythmus Dauer Raum Lehrperson Ausfall-/Ausweichtermine Max. Teilnehmer/-innen
Einzeltermine anzeigen
Seminar Di 10:00 bis 12:00 wöchentlich 17.10.2023 bis 06.02.2024  3.07.1.44 Tures 26.12.2023: 2. Weihnachtstag
02.01.2024: Akademische Weihnachtsferien
Kommentar

Web Scraping umfasst grundsätzlich die Datensammlung aus Online-Quellen. In dem Verständnis, welches diesem Seminar zugrundeliegt, geht es dabei nicht um die wahllose Sammlung möglichst großer Datenmengen, sondern um das gezielte Extrahieren von den für eine wissenschaftliche Fragestellung relevanten Informationen aus Online-Quellen.

 

Für die Sozialwissenschaften eröffnet das Web Scraping so eine neue Zugangsmethode zu Daten, die uns auf "klassischem" Wege nicht oder nur erschwert zugänglich sind. Dies könnte beispielsweise die Sammlung und Analyse von Tweets politischer Akteure, von Zeitungsartikeln zu bestimmten Themen und Personen oder von Kundenreviews zu einem bestimmten Service von sozialwissenschaftlichem Interesse sein.

 

Inhalte des Seminars:

  • Einführung in die Grundstrukturen von Internetseiten und HTML
  • Einführung in R, RStudio und die tidyverse packages
  • Scraping von Internetseiten mit rvest direkt aus RStudio
  • Die gezielte Extraktion der Inhalte von Interesse
  • Aufbereitung der gesammelten Daten und deren deskriptive Analyse
  • Good practice und "Benimmregeln" im Web Scraping

Im letzten Teil des Seminars wird ein Beispielprojekt vorgestellt. Dieses umfasst den kompletten Prozess von der Entwicklung einer Fragestellung, über die Identifikation und Extraktion passender Online-Datenquellen bis hin zu deren erster Analyse und kann als Inspiration für eigene Web Scraping Projekte dienen. 

 

Technische Voraussetzungen: Das Seminar findet als Präsenzseminar in einem PC Pool statt. Es stehen Rechner mit der benötigten Software zur Verfügung, Sie können aber auch eigene Laptops mitbringen. Das Scraping sowie die Aufbereitung und Analyse der gesammelten Daten erfolgt mit RStudio und den packages des tidyverse. Die Software ist frei zugänglich und für alle gängigen Betriebssysteme verfügbar. Anleitungen und Hilfestellungen zur Installation auf Ihren eigenen Rechnern werden im Seminar gegeben. 

 

Inhaltliche Voraussetzungen: Es werden keine Vorkenntnisse in Web Scraping und der Nutzung von R und RStudio vorausgesetzt. Alle behandelten Inhalte richten sich an Anfänger. Die Einführung in R und RStudio im Rahmen dieses Seminars erfolgt dabei "problemorientiert" und kann/soll eine umfassende Einführung nicht ersetzen.Es bestehen keine formalen Zulassungsvoraussetzungen, die Absolvierung der einführenden Methodenvorlesungen ist für das Verständnis der behandelten Inhalte jedoch empfohlen. Vorwissen in R und/oder anderer Statistiksoftware wie Stata ist hilfreich, wird aber nicht vorausgesetzt. 

 

Ablauf des Seminars: Zur Vorbereitung der Sitzungen, ist ein begleitendes Skript zu lesen, welches Ihnen in Form einer englisch sprachigen Website zur Verfügung gestellt wird. Die jeweils zu lesenden Kapiteln werden über den Moodle Kurs bekanntgegeben.Die Arbeit mit R und die Anwendung von Web Scraping lässt sich nur durch selbstständiges Schreiben von Code erlernen. Dazu werden Ihnen Übungsaufgaben über Moodle zur Verfügung gestellt, deren Abgabe gleichzeitig die Prüfungsnebenleistung bildet. Sie bekommen Feedback zu Ihren Abgaben durch den Dozenten über Moodle. Als Modulprüfung ist die Durchführung eines eigenen Web Scraping Projekts in Form einer Hausarbeit vorgesehen. Nach der Zulassung über PULS, erhalten Sie von mir eine E-Mail mit Link und Passwort zu dem Moodle-Kurs.

Voraussetzungen

Abschluss des Moduls BBMSOZ910 wird dringend empfohlen

Leistungsnachweis

Prüfungsnebenleistungen: Abgabe und Bestehen von Übungsaufgaben. Details zu Umfang und Anzahl abzugebender Übungsaufgaben folgen im Seminar. 

 

Modulabschlussprüfung: Eigenes Web Scraping Projekt in Form einer Hausarbeit.

Anmelde- und Rücktrittsfrist in PULS für die Modulabschlussprüfung: 16.10.2023 - 30.03.2024

 

Hinweis für die Studiengänge BA Politik, Verwaltung und Organisation sowie BA Politik und Wirtschaft: Das bestehen der Prüfungsnebenleistung ist Zulassungvoraussetzung zur Modulprüufng!


Strukturbaum
Keine Einordnung ins Vorlesungsverzeichnis vorhanden. Veranstaltung ist aus dem Semester WiSe 2023/24 , Aktuelles Semester: SoSe 2024