Ein­ige Konzepte der Daten­wis­senschaft sind zu abstrakt, um sie zu ver­stehen. Aber sie sind wichtig für den Entwurf von Algorith­men oder maschinelles Lernen. In diesem Artikel werde ich Dia­gramme ver­wenden, um Ihnen zu helfen, ein­ige dieser Konzepte besser zu verstehen.

1 Bias-Vari­anz-Kom­promiss


Dies ist eines der wichtig­sten Konzepte in der Daten­wis­senschaft. Fast alle Algorith­men des maschinel­len Lernens und des Deep Learn­ing ver­suchen ihr Bestes, um Bias und Vari­anz aus­zugleichen. Die fol­genden Dia­gramme erklären die ant­ag­on­istische Bez­iehung zwis­chen Bias und Varianz.

2 Gini Impur­ity und Entropy

Gini Impur­ity und Entropy sind die Mess­größen im Entscheidungs­baum-Algor­is­mus. Sie können auch für die Merkmal­sauswahl ver­wen­det werden.

3 PRC (Pre­ci­sion-Recall Curve)

Die Pre­ci­sion-Recall-Kurve zeigt den Kom­promiss zwis­chen Präzi­sion und Recall für ver­schiedene Schwel­len­werte. Ein hoher Bereich unter der Kurve steht sowohl für eine hohe Rück­rufquote als auch für eine hohe Präzi­sion, wobei eine hohe Präzi­sion mit einer niedrigen Falsch-Pos­itiv-Rate und eine hohe Rück­rufquote mit einer niedrigen Falsch-Neg­ativ-Rate ver­bunden ist. Hohe Werte für beide zei­gen, dass der Klas­si­fikator sowohl genaue Ergeb­n­isse liefert (hohe Präzi­sion) als auch eine Mehrheit aller pos­it­iven Ergeb­n­isse (hoher Rückruf).

Pre­ci­sion-Recall ist ein nütz­liches Maß für den Erfolg der Vorhersage, wenn die Klassen sehr unaus­ge­wo­gen sind. Beim Inform­a­tion Retrieval ist die Präzi­sion ein Maß für die Rel­ev­anz der Ergeb­n­isse, während der Rück­ruf ein Maß dafür ist, wie viele wirk­lich rel­ev­ante Ergeb­n­isse geliefert werden.

Der Nen­ner von Pre­ci­sion ist eine Vari­able: Falsches Pos­itiv. Er ändert sich jedes Mal. Der Nen­ner von Recall ist eine Kon­stante. Er bleibt immer gleich.

Aus dem unten stehenden Dia­gramm können Sie eine kleine Welle am Ende der Präzi­sion­skurve erkennen, während die Recall-Kurve glatt ist.

4 ROC (receiver oper­at­ing char­ac­ter­istic curve)

Es han­delt sich um eine Grafik, die die Leis­tung eines Klas­si­fiz­ier­ungs­mod­ells bei allen Klas­si­fiz­ier­ungsschwel­len­wer­ten zeigt.

Diese Kurve stellt zwei Para­meter dar: Wahr-Pos­itiv-Rate. Falsch-Positiv-Rate.

Die Fläche unter der Kurve wird als AUC bezeich­net. Je höher die AUC, desto besser die Leis­tung des Modells.

5 Elbow curve (K‑Means)

Sie dient zur Bestim­mung der besten Anzahl von Clustern im K‑means-Algorith­mus.

WCSS (Within-Cluster Sum of Square) ist die Summe der quad­rat­ischen Abstände zwis­chen Punk­ten in einem Cluster und dem Cluster­schwer­punkt. Der Graph sieht aus wie ein Ell­bo­gen. Wenn k=1 ist, hat der WCSS-Wert den höch­sten Wert, aber mit zun­ehmen­dem k‑Wert beginnt der WCSS-Wert zu sinken. Wir wäh­len den Wert von k, ab dem das Dia­gramm wie eine gerade Linie aussieht.

6 Scree Plot (PCA or Prin­cipal com­pon­ent ana­lysis)

Der Scree Plot wird ver­wen­det, um die Anzahl der Faktoren zu bestim­men, die in einer explor­at­iven Faktoren­ana­lyse (FA) oder Hauptkom­pon­en­ten in einer Hauptkom­pon­en­ten­ana­lyse (PCA) beibe­hal­ten wer­den sollen.

7 Liner and Logistic Regression

Die lin­eare Regres­sion dient der Vorhersage kontinu­ier­licher Vari­ablen, während die logistische Regres­sion für die Vorhersage binärer Klas­si­fika­tionen geeignet ist.

8 SVM (Sup­port Vec­tor Machines)

9 Stand­ard-Nor­mal­ver­teilung

Es han­delt sich um eine Nor­mal­ver­teilung mit Mittelwert=0 und Standardabweichung=1.

Nach einer Faustregel lie­gen etwa 68 % der Daten inner­halb einer Stand­ard­ab­weichung (σ); etwa 95 % der Daten lie­gen inner­halb von 2σ; etwa 99,7 % der Daten lie­gen inner­halb von 3σ.

10 Student’s t‑Verteilung

Die Student’s t‑Verteilung (oder ein­fach die t‑Verteilung) ist eine kontinu­ier­liche Wahr­schein­lich­keits­ver­teilung, die eine Ver­allge­meiner­ung der Stand­ard­nor­mal­ver­teilung darstellt. Wie let­ztere ist sie sym­met­risch um Null und glockenförmig.

Wenn der Stich­probe­num­fang zu klein ist, ver­wenden wir die t‑Verteilung anstelle der Nor­mal­ver­teilung. Bei einem Stich­probe­num­fang von über 30 ist die t‑Verteilung mit der Nor­mal­ver­teilung identisch.

Stat­istische Konzepte in der Daten­wis­senschaft sind nicht ein­fach zu ver­stehen. Ich hoffe, diese Dia­gramme sind hilfreich.

Quelle: medium.com