Einige Kon­zepte der Daten­wis­sen­schaft sind zu abs­trakt, um sie zu ver­ste­hen. Aber sie sind wich­tig für den Ent­wurf von Algo­rith­men oder maschi­nel­les Ler­nen. In die­sem Arti­kel werde ich Dia­gramme ver­wen­den, um Ihnen zu hel­fen, einige die­ser Kon­zepte bes­ser zu verstehen.

1 Bias-Vari­anz-Kom­pro­miss


Dies ist eines der wich­tigs­ten Kon­zepte in der Daten­wis­sen­schaft. Fast alle Algo­rith­men des maschi­nel­len Ler­nens und des Deep Lear­ning ver­su­chen ihr Bes­tes, um Bias und Vari­anz aus­zu­glei­chen. Die fol­gen­den Dia­gramme erklä­ren die ant­ago­nis­ti­sche Bezie­hung zwi­schen Bias und Varianz.

2 Gini Impu­rity und Entropy

Gini Impu­rity und Entropy sind die Mess­grö­ßen im Ent­schei­dungs­baum-Algo­ris­mus. Sie kön­nen auch für die Merk­mals­aus­wahl ver­wen­det werden.

3 PRC (Pre­cis­ion-Recall Curve)

Die Pre­cis­ion-Recall-Kurve zeigt den Kom­pro­miss zwi­schen Prä­zi­sion und Recall für ver­schie­dene Schwel­len­werte. Ein hoher Bereich unter der Kurve steht sowohl für eine hohe Rück­ruf­quote als auch für eine hohe Prä­zi­sion, wobei eine hohe Prä­zi­sion mit einer nied­ri­gen Falsch-Posi­tiv-Rate und eine hohe Rück­ruf­quote mit einer nied­ri­gen Falsch-Nega­tiv-Rate ver­bun­den ist. Hohe Werte für beide zei­gen, dass der Klas­si­fi­ka­tor sowohl genaue Ergeb­nisse lie­fert (hohe Prä­zi­sion) als auch eine Mehr­heit aller posi­ti­ven Ergeb­nisse (hoher Rückruf).

Pre­cis­ion-Recall ist ein nütz­li­ches Maß für den Erfolg der Vor­her­sage, wenn die Klas­sen sehr unaus­ge­wo­gen sind. Beim Infor­ma­tion Retrie­val ist die Prä­zi­sion ein Maß für die Rele­vanz der Ergeb­nisse, wäh­rend der Rück­ruf ein Maß dafür ist, wie viele wirk­lich rele­vante Ergeb­nisse gelie­fert werden.

Der Nen­ner von Pre­cis­ion ist eine Varia­ble: Fal­sches Posi­tiv. Er ändert sich jedes Mal. Der Nen­ner von Recall ist eine Kon­stante. Er bleibt immer gleich.

Aus dem unten ste­hen­den Dia­gramm kön­nen Sie eine kleine Welle am Ende der Prä­zi­si­ons­kurve erken­nen, wäh­rend die Recall-Kurve glatt ist.

4 ROC (recei­ver ope­ra­ting cha­rac­te­ristic curve)

Es han­delt sich um eine Gra­fik, die die Leis­tung eines Klas­si­fi­zie­rungs­mo­dells bei allen Klas­si­fi­zie­rungs­schwel­len­wer­ten zeigt.

Diese Kurve stellt zwei Para­me­ter dar: Wahr-Posi­tiv-Rate. Falsch-Positiv-Rate.

Die Flä­che unter der Kurve wird als AUC bezeich­net. Je höher die AUC, desto bes­ser die Leis­tung des Modells.

5 Elbow curve (K‑Means)

Sie dient zur Bestim­mung der bes­ten Anzahl von Clus­tern im K‑me­ans-Algo­rith­mus.

WCSS (Within-Clus­ter Sum of Square) ist die Summe der qua­dra­ti­schen Abstände zwi­schen Punk­ten in einem Clus­ter und dem Clus­ter­schwer­punkt. Der Graph sieht aus wie ein Ell­bo­gen. Wenn k=1 ist, hat der WCSS-Wert den höchs­ten Wert, aber mit zuneh­men­dem k‑Wert beginnt der WCSS-Wert zu sin­ken. Wir wäh­len den Wert von k, ab dem das Dia­gramm wie eine gerade Linie aussieht.

6 Scree Plot (PCA or Prin­ci­pal com­po­nent ana­ly­sis)

Der Scree Plot wird ver­wen­det, um die Anzahl der Fak­to­ren zu bestim­men, die in einer explo­ra­ti­ven Fak­to­ren­ana­lyse (FA) oder Haupt­kom­po­nen­ten in einer Haupt­kom­po­nen­ten­ana­lyse (PCA) bei­be­hal­ten wer­den sollen.

7 Liner and Logi­stic Regression

Die lineare Regres­sion dient der Vor­her­sage kon­ti­nu­ier­li­cher Varia­blen, wäh­rend die logis­ti­sche Regres­sion für die Vor­her­sage binä­rer Klas­si­fi­ka­tio­nen geeig­net ist.

8 SVM (Sup­port Vec­tor Machines)

9 Stan­dard-Nor­mal­ver­tei­lung

Es han­delt sich um eine Nor­mal­ver­tei­lung mit Mittelwert=0 und Standardabweichung=1.

Nach einer Faust­re­gel lie­gen etwa 68 % der Daten inner­halb einer Stan­dard­ab­wei­chung (σ); etwa 95 % der Daten lie­gen inner­halb von 2σ; etwa 99,7 % der Daten lie­gen inner­halb von 3σ.

10 Student’s t‑Verteilung

Die Student’s t‑Verteilung (oder ein­fach die t‑Verteilung) ist eine kon­ti­nu­ier­li­che Wahr­schein­lich­keits­ver­tei­lung, die eine Ver­all­ge­mei­ne­rung der Stan­dard­nor­mal­ver­tei­lung dar­stellt. Wie letz­tere ist sie sym­me­trisch um Null und glockenförmig.

Wenn der Stich­pro­ben­um­fang zu klein ist, ver­wen­den wir die t‑Verteilung anstelle der Nor­mal­ver­tei­lung. Bei einem Stich­pro­ben­um­fang von über 30 ist die t‑Verteilung mit der Nor­mal­ver­tei­lung identisch.

Sta­tis­ti­sche Kon­zepte in der Daten­wis­sen­schaft sind nicht ein­fach zu ver­ste­hen. Ich hoffe, diese Dia­gramme sind hilfreich.

Quelle: medium.com