Graduate School UHH: Workflow of Statistical Analysis with STATA: Data Management, Analysis and Visualization

Institution: Graduate School at Faculty of Economics and Social Sciences – University of Hamburg

Lecturer: Prof. Dr. Kai-Uwe Schnapp

Schedule:
Mo., 22.02.16, 10:30 – 16:00 Uhr
Mi., 24.02.16, 09:00 – 15:00 Uhr
Do., 25.02.16, 09:00 – 15:00 Uhr
Fr., 26.02.16, 09:00 – 15:00 Uhr

Place: University of Hamburg, Von Melle Park 9

Registration: Anmeldungen sind ab sofort bis zum 15.12.2015 (13:00 Uhr) über Geventis möglich.

Course description:
Kommentar/Inhalt
Studierende lernen im Allgemeinen in der Ausbildung in bestimmten Grenzen mit Statistik umzugehen. Im Idealfall werden Datenanalysen an eigens aufgesetzten Datensätzen angefertigt. Die resultierenden Statistikkenntnisse sind, je nach Ausbildungsort und -fach mal besser, mal schlechter, aber ausreichend, um den Einstieg in eigene Datenanalysen zu beginnen. Dieser Start gerät jedoch oft sehr holperig, weil ein solides Beherrschen der Statistik allein nicht genügt. Es beginnt damit, dass die Daten im wirklichen WissenschaftlerInnenleben selten genauso daher kommen, wie sie für die Analyse benötigt werden. Sie müssen angepasst, transformiert, zusammengefügt und auseinandergenommen, dokumentiert und in sinnvollen Paketen gespeichert werden. In der Fülle der Arbeitsschritte geht schnell der Überblick verloren: Was wurde wann getan, was wurde wie geändert (und warum?), welche Fälle wurden gefiltert, welche Variablen wie aggregiert. Nach mitunter nur wenigen Tagen ist nicht mehr klar, was passierte, warum eine Variable jetzt so aussieht, mit welchen Einstellungen (und sei es die Startzahl für den Zufallszahlengenerator) eine Analyse begonnen und durchgeführt wurde. Noch unangenehmer wird es, wenn später, etwa bei der Journaleinreichung, nach Dokumentation und Replikationsinformationen gefragt wird, oder wenn eine interessierte Leserin um einen (gut) dokumentierten Datensatz bittet, um die Ergebnisse aus einer Veröffentlichung selbst nachzuvollziehen. Jetzt beginnt die Suche, der Versuch, zu rekonstruieren, was oft nicht mehr zu rekonstruieren ist. Vielen dieser Probleme kann durch einen gut geplanten und während des Arbeitens dokumentierten Arbeitsprozess vorgebeugt werden. Vieles, was man selbst getan hat, kann vor dem Vergessen bewahrt werden, wenn die Arbeitsschritte klar, die Speicher- und Dokumentationsroutinen definiert sind. Dem Zweck, eine solche Arbeitsweise einzuführen, und dabei gleichzeitig die ersten Schritte mit STATA zu machen dient dieser Kurs. Es geht also nicht um die Vermittlung von Statistikkenntnissen. Es wird vorausgesetzt, dass die Grundlagen der Inferenzstatistik bekannt sind und das Kenntnisse der Regressionsanalyse bestehen. Grundkenntnisse der Varianzanalyse (ANOVA) und der Faktorenanalyse sind von Vorteil. Für Personen, denen diese Kenntnisse gibt es kurze Auffrischungssitzungen am Anfang der Woche (siehe Vorgehen). Neben der Einführung in die Oberfläche, die Befehlsstruktur, Arbeitsweise und Dokumentation von STATA soll vermittelt werden, welche Tricks und Hilfsroutinen STATA bietet, um schnell vom Programmoutput zu publikationsreifen Ergebnissen zu kommen. Besonderes Augenmerk wird auf die Erzeugung guter Grafiken gelegt. Eigene Daten können in den Workshop mitgebracht werden, sind jedoch nicht Voraussetzung.

Lernziel
Folgende Fähigkeiten und Kenntnisse sollen vermittelt werden: – Kenntnis der Oberfläche und der Elemente von STATA – Kenntnisse im Datenmanagement und der Datenmanipulation mit STATA – Durchführung einfacher statistischer Analysen mit STATA – Kenntnisse von Hilfsmitteln und Routinen zur effizienten Erzeugung publikationsfähigen Outputs mit STATA (Tabellen und Grafiken) – Kenntnisse und Fähigkeiten einer effizienten Arbeitsorganisation bei der statistischen Analyse mit STATA – Kenntnisse und Fähigkeiten einer effizienten Dokumentation der statistischen Analyse mit STATA

Man kann den Kurs SPRACHLERNKURS verstehen, in dem STATA als Sprache zur Programmierung von Datenanalysen erlernt wird.

Vorgehen
Der Kurs wird im CIP-Pool durchgeführt. Alle Arbeitsschritte werden am Computer vorgeführt und direkt von den TeilnehmerInnen an ihren Arbeitsplätzen umgesetzt.

Um sicherzustellen, dass alle Teilnehmenden den „eigentlichen“ Kurs auf gleichem Niveau starten, gibt es drei vorbereitende Sitzungen zu je 90 Minuten.
Teil 1: Einführung in die Arbeitsumgebung von STATA. Wendet sich an Personen, die noch nie mi STATA gearbeitet haben.
Teil 2: Auffrischung lineare Regression. Wendet sich an Personen, bei denen die Kenntnis der Regressionsanalyse etwas verblasst ist. Soll erreichen, dass im Kurs selbst wenig über Statistikgrundlagen gesprochen werden muss.
Teil 3: Auffrischung Faktorenanalyse. Wendet sich an Personen, bei denen die Kenntnis der Faktorenanalyse etwas verblasst ist oder noch gar nicht vorhanden war. Soll erreichen, dass im Kurs selbst wenig über Statistikgrundlagen gesprochen werden muss.

Literatur
Als Einführungsbuch in STATA empfehle ich Kohler/Kreuter: Datenanalyse mit STATA. Das Buch ist inzwischen in vierter Auflage erschienen. Diese ist auch unbedingt zu empfehlen, da sie einige sehr wichtige Neuerungen enthält.

Hinweise zur Prüfung
Die Vergabe der Leistungspunkte ist an die Abgabe einer von den TeilnehmerInnen zu lösenden und zu dokumentierenden Aufgabe gebunden (je nach individuelle Arbeitsgeschwindigkeit 5-10 Stunden Bearbeitungsdauer). In dieser Aufgabe werden Daten zu transformieren, zu dokumentieren und zu analysieren sein. Aus den Analysen sind (weitgehend) publikationsreife Tabellen und oder Grafiken zu erzeugen.

Weitere Informationen