Zur Seitennavigation oder mit Tastenkombination für den accesskey-Taste und Taste 1 
Zum Seiteninhalt oder mit Tastenkombination für den accesskey und Taste 2 

Foto: Matthias Friel

Web Scraping mit R - Einzelansicht

Veranstaltungsart Seminar Veranstaltungsnummer 424811
SWS 2 Semester SoSe 2022
Einrichtung Sozialwissenschaften   Sprache deutsch
Belegungsfrist 01.04.2022 - 10.05.2022

Belegung über PULS
Gruppe 1:
     jetzt belegen / abmelden
    Tag Zeit Rhythmus Dauer Raum Lehrperson Ausfall-/Ausweichtermine Max. Teilnehmer/-innen
Einzeltermine anzeigen
Seminar Mo 10:00 bis 12:00 wöchentlich 18.04.2022 bis 25.07.2022  3.07.1.44 Tures  
Kommentar

Web Scraping umfasst grundsätzlich die Datensammlung aus Online-Quellen. In dem Verständnis, welches diesem Seminar zugrundeliegt, geht es dabei nicht um die wahllose Sammlung möglichst großer Datenmengen, sondern um das gezielte Extrahieren von den für eine wissenschaftliche Fragestellung relevanten Informationen aus Online-Quellen.

Für die Sozialwissenschaften eröffnet das Web Scraping so eine neue Zugangsmethode zu Daten, die uns auf "klassischem" Wege nicht oder nur erschwert zugänglich sind. Dies könnte beispielsweise die Sammlung und Analyse von Tweets politischer Akteure, von Zeitungsartikeln zu bestimmten Themen und Personen oder von Kundenreviews zu einem bestimmten Service von sozialwissenschaftlichem Interesse sein.



Inhalte des Seminars:

  • Einführung in die Grundstrukturen von Internetseiten und HTML
  • Einführung in R, RStudio und die tidyverse packages
  • Scraping von Internetseiten mit rvest direkt aus RStudio
  • Die gezielte Extraktion der Inhalte von Interesse
  • Aufbereitung der gesammelten Daten und deren deskriptive Analyse
  • Good practice und "Benimmregeln" im Web Scraping

Im letzten Teil des Seminars wird ein Beispielprojekt vorgestellt. Dieses umfasst den kompletten Prozess von der Entwicklung einer Fragestellung, über die Identifikation und Extraktion passender Online-Datenquellen bis hin zu deren erster Analyse und kann als Inspiration für eigene Web Scraping Projekte dienen.

 

Technische Voraussetzungen:
Das Seminar findet als Präsenzseminar in einem PC Pool statt. Es stehen Rechner mit der benötigten Software zur Verfügung, Sie können aber auch eigene Laptops mitbringen. Das Scraping sowie die Aufbereitung und Analyse der gesammelten Daten erfolgt mit RStudio und den packages des tidyverse. Die Software ist frei zugänglich und für alle gängigen Betriebssysteme verfügbar. Anleitungen und Hilfestellungen zur Installation auf Ihren eigenen Rechnern werden im Seminar gegeben.

 

Inhaltliche Voraussetzungen:
Es werden keine Vorkenntnisse in Web Scraping und der Nutzung von R und RStudio vorausgesetzt. Alle behandelten Inhalte richten sich an Anfänger. Die Einführung in R und RStudio im Rahmen dieses Seminars erfolgt dabei "problemorientiert" und kann/soll eine umfassende Einführung nicht ersetzen.

Es bestehen keine formalen Zulassungsvoraussetzungen, die Absolvierung der einführenden Methodenvorlesungen ist für das Verständnis der behandelten Inhalte jedoch empfohlen. Vorwissen in R und/oder anderer Statistiksoftware wie Stata ist hilfreich, wird aber nicht vorausgesetzt.

 

Ablauf des Seminars:
Zur Vorbereitung der Sitzungen, ist ein begleitendes Skript zu lesen, welches Ihnen in Form einer englisch sprachigen Website zur Verfügung gestellt wird. Die jeweils zu lesenden Kapiteln werden über den Moodle Kurs bekanntgegeben.

Die Arbeit mit R und die Anwendung von Web Scraping lässt sich nur durch selbstständiges Schreiben von Code erlernen. Dazu werden Ihnen Übungsaufgaben über Moodle zur Verfügung gestellt, deren Abgabe gleichzeitig die Prüfungsnebenleistung bildet. Sie bekommen Feedback zu Ihren Abgaben durch den Dozenten über Moodle.

Als Modulprüfung ist die Durchführung eines eigenen Web Scraping Projekts in Form einer Hausarbeit vorgesehen.

Nach der Zulassung über PULS, erhalten Sie von mir eine E-Mail mit Link und Passwort zu dem Moodle-Kurs.

Voraussetzungen

Abschluss des Moduls BBMSOZ910 wird dringend empfohlen

Leistungsnachweis

Prüfungsnebenleistungen: Abgabe und Bestehen von Übungsaufgaben. Details zu Umfang und Anzahl abzugebender Übungsaufgaben folgen im Seminar.

 

Modulabschlussprüfung: Eigenes Web Scraping Projekt in Form einer Hausarbeit.

Anmelde- und Rücktrittsfrist in PULS für die Modulabschlussprüfung: 19.04. - 12.08.2022

 

Hinweis für die Studiengänge BA Politik, Verwaltung und Organisation sowie BA Politik und Wirtschaft:

Das bestehen der Prüfungsnebenleistung ist Zulassungvoraussetzung zur Modulprüufng!

Lerninhalte

Die Studierenden

- sind in der Lage, Forschungsfragen mit wissenschaftlichen Methoden selbständig zu bearbeiten,

- vertiefen ihre Kenntnisse in ausgewählten Datenerhebungs- und -analysemethoden und verfügen über die Fähigkeit, diese angemessen einzusetzen,

- können ihre Forschungsprojekte und -ergebnisse überzeugend in schriftlicher sowie mündlicher Form präsentieren und verteidigen,

- besitzen die Fähigkeit zur kritischen Reflexion und können die Ergebnisse ihrer Forschung in einen Forschungskontext einordnen und unter Rückgriff auf einschlägige Theorien erklären.

- haben vertiefte Kenntnisse über verschiedene Methoden der qualitativen und/oder quantitativen Sozialforschung.

- können selbständig ein Forschungsdesign entwickeln.

- erwerben Organisations- und Teamfähigkeiten durch die Planung und Durchführung eines Forschungsprojektes in einer Kleingruppe.

- haben praktische Erfahrungen mit der Erhebung und Auswertung von qualitativen und/oder quantitativen Daten.

- können die Forschungsergebnisse im Plenum präsentieren und in schriftlicher Form aufbereiten.


Strukturbaum
Keine Einordnung ins Vorlesungsverzeichnis vorhanden. Veranstaltung ist aus dem Semester SoSe 2022 , Aktuelles Semester: SoSe 2024