Explorative Datenanalyse

Die explorative Datenanalyse (EDA) oder explorative Statistik ist ein Teilgebiet der Statistik. Sie untersucht und begutachtet Daten, von denen nur ein geringes Wissen über deren Zusammenhänge vorliegt. Viele EDA-Techniken werden im Data-Mining eingesetzt. Außerdem werden sie häufig in Lehrveranstaltungen über die Statistik als Einführung in das statistische Denken gelehrt.

Diese Benennung wurde von John W. Tukey in den 1970er Jahren eingeführt. Tukey legte dar, dass ein zu großer Schwerpunkt in der Statistik auf das Auswerten und Testen von gegebenen Hypothesen gelegt wird. Ferner schlug er vor, Daten dazu zu verwenden, um mögliche Hypothesen zu erhalten, welche anschließend getestet werden.

Ziele

Ziele der explorativen Statistik sind:

Verfahren

Grundlegende graphische Methoden, welche in der explorativen Statistik verwendet werden, sind:

Grundlegende quantitative Methoden sind:

  • Median polish
  • Letter values
  • Resistant line
  • Resistant smooth
  • Rootogram

Spezielle Verfahren

Probleme

Problematisch kann das Bilden von Hypothesen anhand eines Datensatzes und das Testen dieser Hypothesen auf dem gleichen Datensatz sein. Dann können scheinbar signifikante Resultate oder Scheinkorrelationen erhalten werden, die sich aber auf einem unabhängigen Datensatz zum selben Sachverhalt nicht zeigen würden – dies ist das Problem von P-Hacking. Ein Ausweg aus diesem Problem ist das strikte Trennen von Datensätzen, die man zum Bilden von Hypothesen nutzt und Datensätzen, die man zum validieren der gefundenen Hypothesen benutzt (siehe Kreuzvalidierungsverfahren).

Explorative Datenanalyse – Beurteilende Statistik

Die EDA, eine Weiterentwicklung der deskriptiven Statistik zur Analyse von Daten, arbeitet mehr induktiv: Mit ihren Methoden soll Neues entdeckt, sollen Vermutungen generiert, Besonderheiten erkannt und Sachverhalte dargestellt werden.[1] Die Daten bestimmen die Vorgehensweise. Die Einfachheit der Methoden und ihre Praxisrelevanz machen die EDA als Schulstoff besonders interessant.[2] Tukey benutzt die Figur des Datendetektivs[3], von dem Einfallsreichtum und Intuition verlangt werden, um die Einstellung zur EDA zu kennzeichnen. Die beurteilende Statistik arbeitet deduktiv: Eine Hypothese wird entweder verworfen oder beibehalten. Die dabei benutzten Verfahren sind hoch formalisiert, häufig schwer zu verstehen, ihre praktische Relevanz sowie die Interpretation der Ergebnisse umstritten.[4] Beide, EDA und beurteilende Statistik, schließen jedoch einander nicht aus, sie ergänzen sich.[Anm. 1]

Literatur

Anmerkungen

  1. Tukey schreibt auf S. 3: „Explorative Datenanalyse kann niemals alles sein, doch nichts sonst kann als Grundstein dienen – als erster Schritt.“

Einzelnachweise

  1. R. Fischer, G. Mal : Mensch und Mathematik, BI Wissenschaftsverlag, Mannheim, Wien, Zürich 1989, ISBN 3-411-03117-4, S. 269
  2. R. Biehler: Explorative Datenanalyse - Neue Impulse für den Mathematikunterricht?. In : Beiträge für den Mathematikunterricht, Franzbecker Verlag, Bad Salzdetfurth 1983, S. 72–75
  3. Tukey, J. W.: Exploratory Data Analysis, Addison-Wesley, Reading MA, 1977, ISBN 0-201-07616-0, S. 1
  4. D. Vogel, G. Wintermantel: MATHE - explorative Datenanalyse - Statistik aktiv lernen, Klett Verlag, Stuttgart 2003, ISBN 3-12-720049-8, S. 10