Zur Seitennavigation oder mit Tastenkombination für den accesskey-Taste und Taste 1 
Zum Seiteninhalt oder mit Tastenkombination für den accesskey und Taste 2 

Foto: Matthias Friel

Web Scraping mit R - Einzelansicht

Veranstaltungsart Seminar Veranstaltungsnummer 424811
SWS Semester SoSe 2021
Einrichtung Sozialwissenschaften   Sprache deutsch
Belegungsfrist 06.04.2021 - 10.05.2021

Belegung über PULS
Gruppe 1:
     jetzt belegen / abmelden
    Tag Zeit Rhythmus Dauer Raum Lehrperson Ausfall-/Ausweichtermine Max. Teilnehmer/-innen
Einzeltermine anzeigen
Seminar Do 12:00 bis 14:00 wöchentlich 15.04.2021 bis 22.07.2021  Online.Veranstaltung Tures   20
Kommentar

Web Scraping umfasst grundsätzlich die Datensammlung aus Online-Quellen. In dem Verständnis, welches diesem Seminar zugrundeliegt, geht es dabei nicht um die wahllose Sammlung möglichst großer Datenmengen, sondern um das gezielte Extrahieren von den für eine wissenschaftliche Fragestellung relevanten Informationen aus Online-Quellen.

Für die Sozialwissenschaften eröffnet das Web Scraping so eine neue Zugangsmethode zu Daten, die uns auf "klassischem" Wege nicht oder nur erschwert zugänglich sind. Dies könnte beispielsweise die Sammlung und Analyse von Tweets politischer Akteure, von Zeitungsartikeln zu bestimmten Themen und Personen oder von Kundenreviews zu einem bestimmten Service von sozialwissenschaftlichem Interesse sein.



Inhalte des Seminars:

  • Einführung in die Grundstrukturen von Internetseiten und HTML
  • Einführung in R, RStudio und die tidyverse packages
  • Scraping von Internetseiten mit rvest direkt aus RStudio
  • Die gezielte Extraktion der Inhalte von Interesse
  • Aufbereitung der gesammelten Daten und deren deskriptive Analyse
  • Good practice und "Benimmregeln" im Web Scraping

Im letzten Teil des Seminars werden zwei Beispielprojekte vorgestellt. Diese umfassen den kompletten Prozess von der Entwicklung einer Fragestellung, über die Identifikation und Extraktion passender Online-Datenquellen bis hin zu deren erster Analyse und können als Inspiration für eigene Web Scraping Projekte dienen.

 

Technische Voraussetzungen:
Das Scraping sowie die Aufbereitung und Analyse der gesammelten Daten erfolgt mit RStudio und den packages des tidyverse. Die im Seminar genutzte Software ist frei zugänglich und für alle gängigen Betriebssysteme verfügbar. Anleitungen und Hilfestellungen zur Installation und Nutzung, werden im Seminar gegeben.

 

Inhaltliche Voraussetzungen:
Es werden keine Vorkenntnisse in Web Scraping und der Nutzung von R und RStudio vorausgesetzt. Alle behandelten Inhalte richten sich an Anfänger. Die Einführung in R und RStudio im Rahmen dieses Seminars, erfolgt dabei "problemorientiert" und kann/soll eine umfassende Einführung nicht ersetzen.

Es bestehen keine formalen Zulassungsvoraussetzungen, die Absolvierung der einführenden Methodenvorlesungen ist für das Verständnis der behandelten Inhalte jedoch empfohlen.

 

Ablauf des Seminars:
Das Seminar findet als Online-Veranstaltung statt und mischt synchrone und asynchrone Bestandteile.

Die einführende Sitzung findet synchron über Zoom statt.

Die Inhalte der weiteren Sitzungen werden asynchron über ein Skript vermittelt, welches Ihnen in Form einer Website zur Verfügung gestellt wird. Für jede Seminarwoche ist ein Kapitel des Skripts im Selbststudium zu bearbeiten.

Web Scraping lässt sich nur durch das Anwenden der Methoden erlernen. Dazu werden Ihnen Übungsaufgaben über Moodle zur Verfügung gestellt, deren Abgabe gleichzeitig die Prüfungsnebenleistung bildet. Die wöchentlichen synchronen Zoom-Sitzungen dienen zur Besprechung der Übungsaufgaben, sowie zur Klärung von Fragen und Problemen mit den Lerninhalten.

Als Modulprüfung ist die Durchführung eines eigenen Web Scraping Projekts in Form einer Hausarbeit vorgesehen.

Nach der Zulassung über PULS, erhalten Sie von mir eine E-Mail mit Link und Passwort zu dem Moodle-Kurs.


Strukturbaum
Keine Einordnung ins Vorlesungsverzeichnis vorhanden. Veranstaltung ist aus dem Semester SoSe 2021 , Aktuelles Semester: SoSe 2024