Data Pre­pa­ra­tion ist die Kern­kom­pe­tenz der Daten­ana­lyse. Ohne eine geeig­nete Trans­for­ma­tion der Daten, las­sen sich weder ML-Modelle gene­rie­ren noch Ana­ly­tics / BI im All­ge­mei­nen durch­füh­ren. Auf­grund der Bri­sanz des The­mas wun­dert es daher nicht, dass aus­ge­wählte Anbie­ter inno­va­tive Ansätze ent­wi­ckelt haben, um den Pro­zess zu opti­mie­ren. Das Stich­wort dazu lau­tet: Self Ser­vice Data Pre­pa­ra­tion. Wir haben in unse­rem Big Data Blog mit Trifacta bereits einen der Markt­füh­rer der letz­ten Jahre (Gart­ner) vor­ge­stellt. Trifacta ist nicht nur Vor­rei­ter, son­dern auch Mit­be­grün­der des Begriffs des Self Ser­vice Data Pre­pa­ra­tion.  Für einen Über­blick über den Funk­ti­ons­um­fang eines sol­chen Tools lesen sie gerne unse­ren Arti­kel, beden­ken dabei jedoch bitte, dass sich der Markt seit Novem­ber 2017 wei­ter ent­wi­ckelt hat.

Markt­über­sicht

Die Markt­größe betrug, laut Gart­ner, bereits Anfang 2018 eine Mil­li­arde Dol­lar und soll bis 2025 auf über 8,5 Mil­li­ar­den Dol­lar wach­sen. Kein Wun­der also das der Markt eine Viel­zahl unter­schied­li­cher Anbie­ter und Tools her­vor­ge­bracht hat. Gart­ner teilt diese Anbie­ter in 3 Kategorien:

1. Stand-Alone Data Pre­pa­ra­tion Tool

Anbie­ter die­ser Kate­go­rie bie­ten Lösun­gen spe­zi­ell für die Data-Pre­pa­ra­tion-Anfor­de­run­gen eines Unter­neh­mens. Ihr Fokus liegt auf dem Sup­port ver­schie­de­ner Ana­lyse / BI, Data Sci­ence und Data Inte­gra­tion Tools. Die unter­stüt­zen Tools die­nen dabei sowohl als Quel­len als auch Sen­ken der Daten. Da wir Trifacta bereits einen Blog­bei­trag gewid­met haben, wird Altair Mon­arch ehe­mals Data­watch diese Kate­go­rie vertreten.

2. Inte­griert als Teil eines Data Inte­gra­tion Tools

Diese Anbie­ter sind eigent­lich auf Data Inte­gra­tion und Manage­ment fokus­siert, aller­dings haben sie Data Pre­pa­ra­tion ihrem Port­fo­lio hin­zu­ge­fügt. Diese Tools sind ent­we­der in das bestehende Pro­dukt inte­griert oder wer­den als sepa­rate Pro­dukte ange­bo­ten, die den eige­nen Pro­zess unter­stüt­zen. Meist unter­stüt­zen die sepa­ra­ten Vari­an­ten neben dem eige­nen Pro­dukt noch einige wei­tere. Als Ver­tre­ter die­ser Kate­go­rie haben wir Tal­end Data Pre­pa­ra­tion gewählt.

3. Inte­griert als Teil einer Data-Sci­en­ce‑, Machine-Lear­ning- und BI-Plattform

Anbie­ter die­ser Kate­go­rie inte­grie­ren Data Pre­pa­ra­tion in ihren End-To-End Ana­ly­tics Work­flow. Alle Tools die­ser Kate­go­rie haben eine ein­ge­bet­tete Lösung zur Data Pre­pa­ra­tion. Rapid Miner Turbo Prep wird diese Kate­go­rie vertreten.

Die Masse an ver­füg­ba­ren Tools kann den Ent­schei­dungs­pro­zess erschwe­ren, gerade hin­sicht­lich der meist hohen Kos­ten ist die Wahl des geeig­ne­ten Tools uner­läss­lich. Die­ser Blog­bei­trag soll eine Hil­fe­stel­lung für spä­tere Eva­lua­tio­nen sein und einen Über­blick über die ver­schie­de­nen Kate­go­rien und ihre Anwen­dungs­be­rei­che liefern.

Eva­lua­ti­ons­kri­te­rien

In die­sem Abschnitt wer­den die Eva­lua­ti­ons­kri­te­rien vor­ge­stellt, die die Grund­lage für die Bewer­tung dar­stel­len. Die fina­len Kri­te­rien wer­den an die­ser Stelle zu Ober­ka­te­go­rien zusam­men­ge­fasst, um einen Ein­druck über die geprüf­ten Kri­te­rien zu vermitteln.

Data Under­stan­ding

Mög­lich­kei­ten zur explo­ra­ti­ven Ana­lyse der Daten. Kön­nen z.B. Dia­gramme erstellt wer­den, die zum Ver­ständ­nis des Daten­sat­zes bei­tra­gen? Ermit­telt das Tool auto­ma­tisch Sta­tis­ti­ken und zeigt Infor­ma­tio­nen zur Daten­qua­li­tät an?

Data Pre­pa­ra­tion

Dies ist die wich­tigste Kate­go­rie und stellt den Kern der Bewer­tung dar. Hier flie­ßen alle Fea­tures zur Berei­ni­gung und Aufbereitung der Daten ein. Es wer­den sowohl Machine Lear­ning spe­zi­fi­sche Anfor­de­run­gen wie One-Hot Enco­ding oder Balan­cing ein­be­zo­gen als auch Stan­dard Funk­tio­nen wie Aggre­ga­tion oder Pivotierung.

Usa­bi­lity

Diese Kate­go­rie deckt sowohl den Ein­stieg als auch die Arbeit mit dem Tool ab. Bewer­tet wird vom On-Boar­ding-Pro­zess über das Arbei­ten mit und in den Daten bis hin zu Schu­lungs­mög­lich­kei­ten und Support.

Secu­rity

Wie geht das Tool mit sen­si­blen Daten um? Kön­nen Daten mas­kiert oder anony­mi­siert wer­den? Wird der Zugriff auf Daten durch ein Rol­len­ma­nage­ment regu­liert? Blei­ben die Daten lokal oder müs­sen sie in die Cloud gela­den wer­den? Dies sind nur einige der getes­te­ten Eigenschaften.

Schnitt­stel­len und Connections

Unter­stützt das Tool gän­gige Daten­ban­ken und Dritt­an­bie­ter Tools? Geprüft wird in den Kate­go­rien SQL/NoSQL, Big Data, Cloud, Strea­ming, Flat Files sowie Dritt­an­bie­tern, wie z.B. Tableau. Da die benö­tig­ten Anbin­dun­gen je nach Unter­neh­men und Anwen­dungs­fall vari­ie­ren, wird der Umfang im Bran­chen­ver­gleich bewertet.

Sys­tem­ei­gen­schaf­ten

Wel­che zusätz­li­chen Fea­tures bie­tet das Pro­dukt? Ist es mög­lich in Teams zusam­men­zu­ar­bei­ten und seine Ergeb­nisse allen zur Ver­fü­gung zu stel­len? Ist das Sys­tem ska­lier­bar? Wie groß ist die maxi­male Menge an ver­ar­beit­ba­ren Daten?

In die­ser Eva­lua­tion wurde die Gewich­tung der Kri­te­rien so gewählt, dass spe­zi­fi­sche Funk­tio­nen berück­sich­tigt jedoch nicht über­be­wer­tet wer­den. Wäh­rend die Eva­lua­ti­ons­kri­te­rien ver­su­chen alle Anwen­dungs­fälle abzu­de­cken, ist das Ziel der Gewich­tung eine Anwen­dungs­fall spe­zi­fi­sche Aus­wer­tung zu ermöglichen.

Eva­lua­ti­ons­er­geb­nis

Um das Ergeb­nis inter­pre­tie­ren zu kön­nen müs­sen wir uns die Aus­gangs­lage ver­ge­gen­wär­ti­gen. Die eva­lu­ier­ten Tools gehö­ren alle unter­schied­li­chen Kate­go­rien an. Dem­entspre­chend könnte man für jede die­ser Kate­go­rien eine eigene Eva­lua­tion durch­füh­ren. In die­sem Fall soll der Schwer­punkt jedoch auf Data Pre­pa­ra­tion lie­gen. Abbil­dung 1  zeigt den Ver­gleich der Evaluationsergebnisse.

Der Self Service Data Preparation Markt Bild1
Abbil­dung 1 Ver­gleich der Evaluationsergebnisse
Stand-Alone Altair Monarch

Altair Mon­arch schließt erwar­tungs­ge­mäß am bes­ten ab. Immer­hin fokus­siert sich das Tool auf den unter­such­ten Kon­text. Neben umfang­rei­chen Data Pre­pa­ra­tion Fea­tures und einer Viel­zahl von Schnitt­stel­len zu ande­ren Sys­te­men, erzielt das Tool in allen Berei­chen starke Ergeb­nisse. Dafür schließt es im Bereich Data Under­stan­ding als Schluss­licht ab. Hier pro­fi­tie­ren die ande­ren Tools durch die im Haupt­pro­dukt ent­hal­te­nen Funk­tio­nen zur Dia­gramm Erstel­lung. Trotz­dem ist Altair Mon­arch mit 85% der mög­li­chen Punkte der Sie­ger der Evaluation.

In Data Inte­gra­tion inte­griert Tal­end Data Preparation

Mit knapp 75% der mög­li­chen Punkte folgt Tal­end auf dem zwei­ten Rang. Die Stär­ken lie­gen dabei in der Anbin­dung an Daten­quel­len und der Daten­si­cher­heit. Obwohl Tal­end bei den Daten­quel­len das beste Ergeb­nis lie­fert, ist es das schwächste Tool in Bezug auf die Out­put-For­mate. Auch hier lässt sich das Ergeb­nis gut inter­pre­tie­ren. Die Stär­ken des Tools spie­geln die Kern­kom­pe­ten­zen einer Data Inte­gra­tion Soft­ware wider. Auf­ge­fal­len ist das Tal­end auch im Data-Pre­pa­ra­tion-Bereich gute Werte erzielt. Abge­se­hen von den ML-spe­zi­fi­schen Anfor­de­run­gen wer­den alle Kate­go­rien erfüllt.

In Ana­ly­tics Platt­form inte­griert Rapid Miner Turbo Prep

Die geringste Punkt­zahl erreicht Rapid Miner Turbo Prep mit 65% der mög­li­chen Punkte. Schwä­chen zeigt das Tool bei Kon­zep­ten zur Daten­si­cher­heit. Außer­dem las­sen sich weder Pre­pa­ra­tion Work­flows anpas­sen noch durch Trig­ger etc. auto­ma­ti­sie­ren. Trotz­dem erfüllt es mit 85% der Punkte fast alle Anfor­de­run­gen in der Kate­go­rie Data Pre­pa­ra­tion . An die­ser Stelle pro­fi­tiert Turbo Prep von der Aus­rich­tung des Rapid Miner Stu­dios als Data Sci­ence Platt­form. Diese benö­tigt Daten­auf­be­rei­tung für Machine Learning.

Emp­feh­lung

In Zei­ten der daten­ge­stütz­ten Ent­schei­dungs­fin­dung wächst Data Pre­pa­ra­tion zu einer unver­zicht­ba­ren Kern­kom­pe­tenz. Der neue Ansatz Self Ser­vice Data Pre­pa­ra­tion beschleu­nigt und ver­ein­facht die­sen Pro­zess mas­siv. Viele Anbie­ter stel­len Lösun­gen bereit, diese las­sen sich in drei Kate­go­rien ein­tei­len. Im wei­te­ren Ver­lauf wird ledig­lich zwi­schen Stand-Alone und inte­grier­ten Lösun­gen unterschieden.

Stand-Alone Lösun­gen eige­nen sich im beson­de­ren Maße für Unter­neh­men, die im Daten­ana­ly­se­be­reich schon gut auf­ge­stellt sind. Aber trotz­dem ihren Data Pre­pa­ra­tion Pro­zess opti­mie­ren oder ein Nischen­pro­blem lösen müs­sen. Die Stär­ken die­ser Tools lie­gen in den umfang­rei­chen Mög­lich­kei­ten zur Daten­auf­be­rei­tung und der Kom­pa­ti­bi­li­tät mit einer Viel­zahl ande­rer Anwendungen.

Inte­grierte Data Pre­pa­ra­tion Tools hin­ge­gen eige­nen sich für Unter­neh­men, die noch keine Soft­ware in die­sem Bereich besit­zen und oder über zu wenig Know­how zur Ent­wick­lung eige­ner Lösun­gen ver­fü­gen. Gleich­zei­tig ver­rin­gert ein ein­zel­nes Sys­tem die Kom­ple­xi­tät. Je nach Anwen­dungs­fall sollte zwi­schen Data Sci­ence und Busi­ness-Intel­li­gence-Platt­for­men unter­schie­den werden .

Fazit

Ziel des Eva­lua­ti­ons­bo­gens ist eine Abbil­dung des gesam­ten Funk­ti­ons­um­fangs des Mark­tes. Nicht in allen Anwen­dungs­fäl­len wer­den jedoch alle bewer­te­ten Funk­tio­nen benö­tigt. Die Gewich­tung wirkt an die­ser Stelle als Steu­er­ele­ment. Je nach Anwen­dungs­fall und einer dem­entspre­chen­den Gewich­tung der Kri­te­rien vari­iert auch das Eva­lua­ti­ons­er­geb­nis. In die­sem Bei­spiel haben wir den Fokus z.B. auf Data Pre­pa­ra­tion Fea­tures gelegt.

Zusam­men­fas­send lässt sich fest­hal­ten, dass Tools jeder Kate­go­rie eine Daseins­be­rech­ti­gung haben. Sie zei­gen ihre Stär­ken in unter­schied­li­chen Berei­chen. Was sie hin­ge­gen alle gemein­sam haben sind sehr gute Werte im Bereich Data Pre­pa­ra­tion. Abschlie­ßend lässt sich daher sagen, dass die Wahl des rich­ti­gen Tools immer auch von der Situa­tion des Unter­neh­mens abhängt.