Data Preparation ist die Kernkompetenz der Datenanalyse. Ohne eine geeignete Transformation der Daten, lassen sich weder ML-Modelle generieren noch Analytics / BI im Allgemeinen durchführen. Aufgrund der Brisanz des Themas wundert es daher nicht, dass ausgewählte Anbieter innovative Ansätze entwickelt haben, um den Prozess zu optimieren. Das Stichwort dazu lautet: Self Service Data Preparation. Wir haben in unserem Big Data Blog mit Trifacta bereits einen der Marktführer der letzten Jahre (Gartner) vorgestellt. Trifacta ist nicht nur Vorreiter, sondern auch Mitbegründer des Begriffs des Self Service Data Preparation. Für einen Überblick über den Funktionsumfang eines solchen Tools lesen sie gerne unseren Artikel, bedenken dabei jedoch bitte, dass sich der Markt seit November 2017 weiter entwickelt hat.
Marktübersicht
Die Marktgröße betrug, laut Gartner, bereits Anfang 2018 eine Milliarde Dollar und soll bis 2025 auf über 8,5 Milliarden Dollar wachsen. Kein Wunder also das der Markt eine Vielzahl unterschiedlicher Anbieter und Tools hervorgebracht hat. Gartner teilt diese Anbieter in 3 Kategorien:
1. Stand-Alone Data Preparation Tool
Anbieter dieser Kategorie bieten Lösungen speziell für die Data-Preparation-Anforderungen eines Unternehmens. Ihr Fokus liegt auf dem Support verschiedener Analyse / BI, Data Science und Data Integration Tools. Die unterstützen Tools dienen dabei sowohl als Quellen als auch Senken der Daten. Da wir Trifacta bereits einen Blogbeitrag gewidmet haben, wird Altair Monarch ehemals Datawatch diese Kategorie vertreten.
2. Integriert als Teil eines Data Integration Tools
Diese Anbieter sind eigentlich auf Data Integration und Management fokussiert, allerdings haben sie Data Preparation ihrem Portfolio hinzugefügt. Diese Tools sind entweder in das bestehende Produkt integriert oder werden als separate Produkte angeboten, die den eigenen Prozess unterstützen. Meist unterstützen die separaten Varianten neben dem eigenen Produkt noch einige weitere. Als Vertreter dieser Kategorie haben wir Talend Data Preparation gewählt.
3. Integriert als Teil einer Data-Science‑, Machine-Learning- und BI-Plattform
Anbieter dieser Kategorie integrieren Data Preparation in ihren End-To-End Analytics Workflow. Alle Tools dieser Kategorie haben eine eingebettete Lösung zur Data Preparation. Rapid Miner Turbo Prep wird diese Kategorie vertreten.
Die Masse an verfügbaren Tools kann den Entscheidungsprozess erschweren, gerade hinsichtlich der meist hohen Kosten ist die Wahl des geeigneten Tools unerlässlich. Dieser Blogbeitrag soll eine Hilfestellung für spätere Evaluationen sein und einen Überblick über die verschiedenen Kategorien und ihre Anwendungsbereiche liefern.
Evaluationskriterien
In diesem Abschnitt werden die Evaluationskriterien vorgestellt, die die Grundlage für die Bewertung darstellen. Die finalen Kriterien werden an dieser Stelle zu Oberkategorien zusammengefasst, um einen Eindruck über die geprüften Kriterien zu vermitteln.
Data Understanding
Möglichkeiten zur explorativen Analyse der Daten. Können z.B. Diagramme erstellt werden, die zum Verständnis des Datensatzes beitragen? Ermittelt das Tool automatisch Statistiken und zeigt Informationen zur Datenqualität an?
Data Preparation
Dies ist die wichtigste Kategorie und stellt den Kern der Bewertung dar. Hier fließen alle Features zur Bereinigung und Aufbereitung der Daten ein. Es werden sowohl Machine Learning spezifische Anforderungen wie One-Hot Encoding oder Balancing einbezogen als auch Standard Funktionen wie Aggregation oder Pivotierung.
Usability
Diese Kategorie deckt sowohl den Einstieg als auch die Arbeit mit dem Tool ab. Bewertet wird vom On-Boarding-Prozess über das Arbeiten mit und in den Daten bis hin zu Schulungsmöglichkeiten und Support.
Security
Wie geht das Tool mit sensiblen Daten um? Können Daten maskiert oder anonymisiert werden? Wird der Zugriff auf Daten durch ein Rollenmanagement reguliert? Bleiben die Daten lokal oder müssen sie in die Cloud geladen werden? Dies sind nur einige der getesteten Eigenschaften.
Schnittstellen und Connections
Unterstützt das Tool gängige Datenbanken und Drittanbieter Tools? Geprüft wird in den Kategorien SQL/NoSQL, Big Data, Cloud, Streaming, Flat Files sowie Drittanbietern, wie z.B. Tableau. Da die benötigten Anbindungen je nach Unternehmen und Anwendungsfall variieren, wird der Umfang im Branchenvergleich bewertet.
Systemeigenschaften
Welche zusätzlichen Features bietet das Produkt? Ist es möglich in Teams zusammenzuarbeiten und seine Ergebnisse allen zur Verfügung zu stellen? Ist das System skalierbar? Wie groß ist die maximale Menge an verarbeitbaren Daten?
In dieser Evaluation wurde die Gewichtung der Kriterien so gewählt, dass spezifische Funktionen berücksichtigt jedoch nicht überbewertet werden. Während die Evaluationskriterien versuchen alle Anwendungsfälle abzudecken, ist das Ziel der Gewichtung eine Anwendungsfall spezifische Auswertung zu ermöglichen.
Evaluationsergebnis
Um das Ergebnis interpretieren zu können müssen wir uns die Ausgangslage vergegenwärtigen. Die evaluierten Tools gehören alle unterschiedlichen Kategorien an. Dementsprechend könnte man für jede dieser Kategorien eine eigene Evaluation durchführen. In diesem Fall soll der Schwerpunkt jedoch auf Data Preparation liegen. Abbildung 1 zeigt den Vergleich der Evaluationsergebnisse.
Stand-Alone Altair Monarch
Altair Monarch schließt erwartungsgemäß am besten ab. Immerhin fokussiert sich das Tool auf den untersuchten Kontext. Neben umfangreichen Data Preparation Features und einer Vielzahl von Schnittstellen zu anderen Systemen, erzielt das Tool in allen Bereichen starke Ergebnisse. Dafür schließt es im Bereich Data Understanding als Schlusslicht ab. Hier profitieren die anderen Tools durch die im Hauptprodukt enthaltenen Funktionen zur Diagramm Erstellung. Trotzdem ist Altair Monarch mit 85% der möglichen Punkte der Sieger der Evaluation.
In Data Integration integriert Talend Data Preparation
Mit knapp 75% der möglichen Punkte folgt Talend auf dem zweiten Rang. Die Stärken liegen dabei in der Anbindung an Datenquellen und der Datensicherheit. Obwohl Talend bei den Datenquellen das beste Ergebnis liefert, ist es das schwächste Tool in Bezug auf die Output-Formate. Auch hier lässt sich das Ergebnis gut interpretieren. Die Stärken des Tools spiegeln die Kernkompetenzen einer Data Integration Software wider. Aufgefallen ist das Talend auch im Data-Preparation-Bereich gute Werte erzielt. Abgesehen von den ML-spezifischen Anforderungen werden alle Kategorien erfüllt.
In Analytics Plattform integriert Rapid Miner Turbo Prep
Die geringste Punktzahl erreicht Rapid Miner Turbo Prep mit 65% der möglichen Punkte. Schwächen zeigt das Tool bei Konzepten zur Datensicherheit. Außerdem lassen sich weder Preparation Workflows anpassen noch durch Trigger etc. automatisieren. Trotzdem erfüllt es mit 85% der Punkte fast alle Anforderungen in der Kategorie Data Preparation . An dieser Stelle profitiert Turbo Prep von der Ausrichtung des Rapid Miner Studios als Data Science Plattform. Diese benötigt Datenaufbereitung für Machine Learning.
Empfehlung
In Zeiten der datengestützten Entscheidungsfindung wächst Data Preparation zu einer unverzichtbaren Kernkompetenz. Der neue Ansatz Self Service Data Preparation beschleunigt und vereinfacht diesen Prozess massiv. Viele Anbieter stellen Lösungen bereit, diese lassen sich in drei Kategorien einteilen. Im weiteren Verlauf wird lediglich zwischen Stand-Alone und integrierten Lösungen unterschieden.
Stand-Alone Lösungen eigenen sich im besonderen Maße für Unternehmen, die im Datenanalysebereich schon gut aufgestellt sind. Aber trotzdem ihren Data Preparation Prozess optimieren oder ein Nischenproblem lösen müssen. Die Stärken dieser Tools liegen in den umfangreichen Möglichkeiten zur Datenaufbereitung und der Kompatibilität mit einer Vielzahl anderer Anwendungen.
Integrierte Data Preparation Tools hingegen eigenen sich für Unternehmen, die noch keine Software in diesem Bereich besitzen und oder über zu wenig Knowhow zur Entwicklung eigener Lösungen verfügen. Gleichzeitig verringert ein einzelnes System die Komplexität. Je nach Anwendungsfall sollte zwischen Data Science und Business-Intelligence-Plattformen unterschieden werden .
Fazit
Ziel des Evaluationsbogens ist eine Abbildung des gesamten Funktionsumfangs des Marktes. Nicht in allen Anwendungsfällen werden jedoch alle bewerteten Funktionen benötigt. Die Gewichtung wirkt an dieser Stelle als Steuerelement. Je nach Anwendungsfall und einer dementsprechenden Gewichtung der Kriterien variiert auch das Evaluationsergebnis. In diesem Beispiel haben wir den Fokus z.B. auf Data Preparation Features gelegt.
Zusammenfassend lässt sich festhalten, dass Tools jeder Kategorie eine Daseinsberechtigung haben. Sie zeigen ihre Stärken in unterschiedlichen Bereichen. Was sie hingegen alle gemeinsam haben sind sehr gute Werte im Bereich Data Preparation. Abschließend lässt sich daher sagen, dass die Wahl des richtigen Tools immer auch von der Situation des Unternehmens abhängt.