5 nützliche Statistiken, die Data Scientists kennen müssen

Data Science kann praktisch als der Prozess definiert werden, durch den wir Informationen aus Daten gewinnen. Bei Data Science versuchen wir eigentlich zu erklären, was die Daten in der realen Welt jenseits der Zahlen bedeuten.

Um die in komplexen Datensätzen enthaltenen Informationen zu extrahieren, setzen Data Scientists eine Reihe von Tools und Techniken ein, darunter Datenexploration, Visualisierung und Modellierung. Eine sehr wichtige Klasse mathematischer Techniken, die häufig bei der Datenexploration eingesetzt wird, ist die Statistik.

In einem praktischen Sinne ermöglicht uns die Statistik, konkrete mathematische Zusammenfassungen unserer Daten zu definieren. Anstatt zu versuchen, jeden einzelnen Datenpunkt zu beschreiben, können wir die Statistik nutzen, um einige ihrer Eigenschaften zu beschreiben. Und das reicht oft schon aus, um Informationen über die Struktur und den Aufbau der Daten zu gewinnen.

Wenn man das Wort „Statistik“ hört, denkt man manchmal an etwas übermäßig Kompliziertes. Ja, es kann etwas abstrakt werden, aber wir müssen nicht immer auf komplexe Theorien zurückgreifen, um einen gewissen Nutzen aus statistischen Verfahren zu ziehen.

Die grundlegendsten Teile der Statistik können in der Datenwissenschaft oft von größtem praktischen Nutzen sein.

Heute werden wir uns 5 nützliche Statistiken für Data Science ansehen. Dabei handelt es sich nicht um verrückte abstrakte Konzepte, sondern um einfache, anwendbare Techniken, die einen langen Weg zurücklegen.

Fangen wir an!

1 Zentrale Tendenz

Die zentrale Tendenz eines Datensatzes oder einer Merkmalsvariable ist der mittlere oder typische Wert des Satzes. Der Gedanke dahinter ist, dass es einen einzigen Wert geben kann, der unseren Datensatz (bis zu einem gewissen Grad) am besten beschreiben kann.

Stellen Sie sich zum Beispiel vor, Sie hätten eine Normalverteilung mit dem Mittelpunkt an der x‑y-Position von (100, 100). Dann ist der Punkt (100, 100) die zentrale Tendenz, da er von allen Punkten, die zur Auswahl stehen, die beste Zusammenfassung der Daten liefert.

In der Datenwissenschaft können wir Maße für die zentrale Tendenz verwenden, um eine schnelle und einfache Vorstellung davon zu bekommen, wie unser Datensatz als Ganzes aussieht. Die „Mitte“ unserer Daten kann eine sehr wertvolle Information sein, die uns sagt, wie genau der Datensatz verzerrt ist, da der Wert, um den die Daten kreisen, im Wesentlichen eine Verzerrung ist.

Es gibt 2 gängige Möglichkeiten, eine zentrale Tendenz mathematisch zu bestimmen.

Mean

Der Mittelwert eines Datensatzes ist der Durchschnittswert, d. h. eine Zahl, um die die gesamten Daten verteilt sind. Alle Werte, die für die Berechnung des Durchschnitts verwendet werden, werden bei der Definition des Mittelwerts gleich gewichtet.

Berechnen wir zum Beispiel den Mittelwert der folgenden 5 Zahlen:

(3 + 64 + 187 + 12 + 52) / 5 = 63.6

Der Mittelwert eignet sich hervorragend für die Berechnung des tatsächlichen mathematischen Durchschnitts. Außerdem ist er mit Python-Bibliotheken wie Numpy sehr schnell zu berechnen

Median

Der Median ist der mittlere Wert des Datensatzes, d. h., wenn wir die Daten vom kleinsten zum größten (oder vom größten zum kleinsten) Wert sortieren und dann den Wert in der Mitte des Satzes nehmen: das ist der Median.

Berechnen wir erneut den Median für dieselbe Menge von 5 Zahlen:

[3, 12, 52, 64, 187] → 52

Der Medianwert unterscheidet sich deutlich vom Mittelwert von 63,6. Keiner der beiden Werte ist richtig oder falsch, aber wir können je nach Situation und Zielsetzung einen davon auswählen.

Die Berechnung des Medians erfordert eine Sortierung der Daten, was bei großen Datensätzen nicht praktikabel ist.

Andererseits ist der Median robuster gegenüber Ausreißern als der Mittelwert, da der Mittelwert in die eine oder andere Richtung gezogen wird, wenn es einige sehr große Ausreißerwerte gibt.

Der Mittelwert und der Median können mit einfachen Numpy-Einzeilern berechnet werden:

numpy.mean(array)
numpy.median(array)

2 Ausbreitung

Im Rahmen der Statistik ist die Streuung der Daten das Ausmaß, in dem sie auf einen einzigen Wert zusammengedrückt werden oder sich über einen größeren Bereich erstrecken.

Stellen Sie sich vor, es handele sich um Wahrscheinlichkeitsverteilungen, die einen realen Datensatz beschreiben, und werfen Sie einen Blick auf die folgenden Darstellungen der Gaußschen Wahrscheinlichkeitsverteilungen

Die blaue Kurve hat den kleinsten Streuungswert, da die meisten Datenpunkte alle in einen relativ engen Bereich fallen. Die rote Kurve hat den größten Streuungswert, da die meisten Datenpunkte einen viel größeren Bereich einnehmen.

Die Legende zeigt die Standardabweichungswerte dieser Kurven, die im nächsten Abschnitt erläutert werden.

Standardabweichung

Die Standardabweichung ist die gebräuchlichste Methode zur Quantifizierung der Streuung von Daten. Ihre Berechnung umfasst 5 Schritte:

Ermitteln Sie den Mittelwert.
Bestimmen Sie für jeden Datenpunkt das Quadrat seines Abstands zum Mittelwert.
Addiere die Werte aus Schritt 2.
Teilen Sie durch die Anzahl der Datenpunkte.
Ziehen Sie die Quadratwurzel.

Ein größerer Wert bedeutet, dass unsere Daten weiter vom Mittelwert entfernt sind. Ein kleinerer Wert bedeutet, dass unsere Daten mehr um den Mittelwert herum konzentriert sind.

Berechnen Sie die Standardabweichung in Numpy ganz einfach wie folgt:

numpy.std(array)

3 Perzentile

Wir können die Position jedes Datenpunkts innerhalb des Bereichs mit Hilfe von Perzentilen weiter beschreiben.

Das Perzentil beschreibt die genaue Position des Datenpunktes, d. h. wie hoch oder niedrig er im Wertebereich positioniert ist.

Formal gesehen ist das p‑te Perzentil der Wert im Datensatz, bei dem dieser in zwei Teile geteilt werden kann. Der untere Teil enthält p Prozent der Daten, d. h. das p‑te Perzentil.

Betrachten wir zum Beispiel die folgende Menge von 11 Zahlen:

1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21

Die Zahl 15 ist das 70. Perzentil, denn wenn wir den Datensatz bei der Zahl 15 in zwei Teile teilen, liegen 70 % der verbleibenden Daten unter 15.

Perzentile in Kombination mit dem Mittelwert und der Standardabweichung können uns eine gute Vorstellung davon vermitteln, wo ein bestimmter Punkt innerhalb der Streuung/Spanne unserer Daten liegt. Wenn es sich um einen Ausreißer handelt, dann liegt das Perzentil nahe an den Enden – weniger als 5 % oder mehr als 95 %. Liegt das Perzentil dagegen nahe bei 50, dann wissen wir, dass es nahe an unserer zentralen Tendenz liegt.

Das 50. Perzentil für ein Array kann in Numpy wie folgt berechnet werden:

numpy.percentile(array, 50)

4 Schräglage

Die Schiefe der Daten misst ihre Asymmetrie.

Ein positiver Wert für die Schiefe bedeutet, dass die Werte links von der Mitte der Datenpunkte konzentriert sind; eine negative Schiefe bedeutet, dass die Werte rechts von der Mitte der Datenpunkte konzentriert sind.

Das nachstehende Diagramm bietet eine gute Veranschaulichung.

Wir können die Schiefe mit der folgenden Gleichung berechnen:

Die Schiefe gibt uns eine Vorstellung davon, wie nahe die Verteilung unserer Daten an der Gaußschen Verteilung liegt. Je größer die Schiefe ist, desto weiter ist unser Datensatz von einer Gauß-Verteilung entfernt.

Dies ist wichtig, denn wenn wir eine ungefähre Vorstellung von der Verteilung unserer Daten haben, können wir das ML-Modell, das wir trainieren wollen, auf diese spezielle Verteilung abstimmen. Außerdem sind nicht alle ML-Modellierungstechniken bei Daten, die nicht gaußförmig sind, wirksam.

Auch hier gibt uns die Statistik aufschlussreiche Informationen, bevor wir mit der Modellierung beginnen!

Hier ist, wie wir die Schiefe in Scipy-Code berechnen können:

scipy.stats.skew(array)

5 Kovarianz und Korrelation

Kovarianz
Die Kovarianz von zwei Merkmalsvariablen misst, wie „verwandt“ sie sind. Wenn die beiden Variablen eine positive Kovarianz haben, steigt bei einer Variablen auch die andere; bei einer negativen Kovarianz ändern sich die Werte der Merkmalsvariablen in entgegengesetzter Richtung.

Korrelation
Die Korrelation ist einfach die normalisierte (skalierte) Kovarianz, die durch das Produkt der Standardabweichung der beiden zu analysierenden Variablen geteilt wird. Dadurch liegt der Korrelationsbereich immer zwischen ‑1,0 und 1,0.

Wenn die Korrelation zweier Merkmalsvariablen 1,0 beträgt, dann haben die Variablen eine perfekte positive Korrelation. Das heißt, wenn sich eine Variable um einen bestimmten Betrag ändert, bewegt sich die zweite proportional in dieselbe Richtung.

Ein positiver Korrelationskoeffizient, der kleiner als eins ist, weist auf eine weniger als perfekte positive Korrelation hin, wobei die Stärke der Korrelation zunimmt, je näher die Zahl an eins heranrückt. Dasselbe gilt für negative Korrelationswerte, nur dass sich die Werte der Merkmalsvariablen in entgegengesetzte Richtungen und nicht in dieselbe Richtung ändern.

Die Kenntnis der Korrelation ist für Techniken wie die Hauptkomponentenanalyse (PCA), die zur Dimensionalitätsreduzierung verwendet wird, von großem Nutzen. Wir beginnen mit der Berechnung einer Korrelationsmatrix – wenn es 2 oder mehr Variablen gibt, die stark korreliert sind, dann sind sie bei der Erklärung unserer Daten effektiv redundant und einige von ihnen können weggelassen werden, um die Komplexität zu reduzieren.

Quelle: medium.com

Akzeptieren
Name	YouTube
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Youtube zu Marketingzwecken. Die Daten werden an einen Server in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://policies.google.com/privacy

Akzeptieren
Name	hellotrust
Anbieter	Keyed GmbH
Zweck	hellotrust speichert den Zustimmungsstatus des Benutzers für Cookies auf der aktuellen Domain.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://hellotrust.de/datenschutz

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Google Analytics zur Analyse der Websitebenutzung durch Nutzer. Die Daten werden an einen Server von Google in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden. In der Regel werden die Cookies von Google für eine Dauer von 2 Jahren gespeichert.
Weiterführende Infos	https://policies.google.com/privacy