Einige Konzepte der Datenwissenschaft sind zu abstrakt, um sie zu verstehen. Aber sie sind wichtig für den Entwurf von Algorithmen oder maschinelles Lernen. In diesem Artikel werde ich Diagramme verwenden, um Ihnen zu helfen, einige dieser Konzepte besser zu verstehen.
1 Bias-Varianz-Kompromiss
Dies ist eines der wichtigsten Konzepte in der Datenwissenschaft. Fast alle Algorithmen des maschinellen Lernens und des Deep Learning versuchen ihr Bestes, um Bias und Varianz auszugleichen. Die folgenden Diagramme erklären die antagonistische Beziehung zwischen Bias und Varianz.
2 Gini Impurity und Entropy
Gini Impurity und Entropy sind die Messgrößen im Entscheidungsbaum-Algorismus. Sie können auch für die Merkmalsauswahl verwendet werden.
3 PRC (Precision-Recall Curve)
Die Precision-Recall-Kurve zeigt den Kompromiss zwischen Präzision und Recall für verschiedene Schwellenwerte. Ein hoher Bereich unter der Kurve steht sowohl für eine hohe Rückrufquote als auch für eine hohe Präzision, wobei eine hohe Präzision mit einer niedrigen Falsch-Positiv-Rate und eine hohe Rückrufquote mit einer niedrigen Falsch-Negativ-Rate verbunden ist. Hohe Werte für beide zeigen, dass der Klassifikator sowohl genaue Ergebnisse liefert (hohe Präzision) als auch eine Mehrheit aller positiven Ergebnisse (hoher Rückruf).
Precision-Recall ist ein nützliches Maß für den Erfolg der Vorhersage, wenn die Klassen sehr unausgewogen sind. Beim Information Retrieval ist die Präzision ein Maß für die Relevanz der Ergebnisse, während der Rückruf ein Maß dafür ist, wie viele wirklich relevante Ergebnisse geliefert werden.
Der Nenner von Precision ist eine Variable: Falsches Positiv. Er ändert sich jedes Mal. Der Nenner von Recall ist eine Konstante. Er bleibt immer gleich.
Aus dem unten stehenden Diagramm können Sie eine kleine Welle am Ende der Präzisionskurve erkennen, während die Recall-Kurve glatt ist.
4 ROC (receiver operating characteristic curve)
Es handelt sich um eine Grafik, die die Leistung eines Klassifizierungsmodells bei allen Klassifizierungsschwellenwerten zeigt.
Diese Kurve stellt zwei Parameter dar: Wahr-Positiv-Rate. Falsch-Positiv-Rate.
Die Fläche unter der Kurve wird als AUC bezeichnet. Je höher die AUC, desto besser die Leistung des Modells.
5 Elbow curve (K‑Means)
Sie dient zur Bestimmung der besten Anzahl von Clustern im K‑means-Algorithmus.
WCSS (Within-Cluster Sum of Square) ist die Summe der quadratischen Abstände zwischen Punkten in einem Cluster und dem Clusterschwerpunkt. Der Graph sieht aus wie ein Ellbogen. Wenn k=1 ist, hat der WCSS-Wert den höchsten Wert, aber mit zunehmendem k‑Wert beginnt der WCSS-Wert zu sinken. Wir wählen den Wert von k, ab dem das Diagramm wie eine gerade Linie aussieht.
6 Scree Plot (PCA or Principal component analysis)
Der Scree Plot wird verwendet, um die Anzahl der Faktoren zu bestimmen, die in einer explorativen Faktorenanalyse (FA) oder Hauptkomponenten in einer Hauptkomponentenanalyse (PCA) beibehalten werden sollen.
7 Liner and Logistic Regression
Die lineare Regression dient der Vorhersage kontinuierlicher Variablen, während die logistische Regression für die Vorhersage binärer Klassifikationen geeignet ist.
8 SVM (Support Vector Machines)
9 Standard-Normalverteilung
Es handelt sich um eine Normalverteilung mit Mittelwert=0 und Standardabweichung=1.
Nach einer Faustregel liegen etwa 68 % der Daten innerhalb einer Standardabweichung (σ); etwa 95 % der Daten liegen innerhalb von 2σ; etwa 99,7 % der Daten liegen innerhalb von 3σ.
10 Student’s t‑Verteilung
Die Student’s t‑Verteilung (oder einfach die t‑Verteilung) ist eine kontinuierliche Wahrscheinlichkeitsverteilung, die eine Verallgemeinerung der Standardnormalverteilung darstellt. Wie letztere ist sie symmetrisch um Null und glockenförmig.
Wenn der Stichprobenumfang zu klein ist, verwenden wir die t‑Verteilung anstelle der Normalverteilung. Bei einem Stichprobenumfang von über 30 ist die t‑Verteilung mit der Normalverteilung identisch.
Statistische Konzepte in der Datenwissenschaft sind nicht einfach zu verstehen. Ich hoffe, diese Diagramme sind hilfreich.
Quelle: medium.com