Datenanalyse und Machine Learning - II/III

Im letzten Beitrag der Serie wurden zunächst die ASHRAE Kaggle Competition vorgestellt und die dort verfügbaren Daten visualisiert. Dabei wurden die Daten aus verschiedenen Blickwinkeln beleuchtet, um ein Gefühl für die Daten zu bekommen. Man konnte sehen, wie in der Realität eigentlich immer üblich, dass der Datensatz einige Makel hat.

Im folgenden Beitrag wollen wir uns nun mit dem Schritt des Data Cleansings beschäftigen und an dem Use Case der Kaggle Competition vorstellen, wie dieser aussehen kann.

Data Cleansing bezeichnet dabei das Vorgehen einen Rohdatensatz zu analysieren, um fehlerhafte bzw. fehlende Datensätze zu erkennen und diese zu korrigieren oder zu löschen. Weiter werden relevante Features identifiziert für die zu erwarten ist, dass die Zielvariable (in unserem Fall meter_reading) von diesen abhängt. Ziel dabei ist es einen wohlgearteten Trainingsdatensatz zu erzeugen, von dem ein Lerner die zugrunde liegenden – unbekannten – Gesetzmäßigkeiten lernen kann.

Im letzten Blogbeitrag haben wir schon sehen können, dass zum einen einige Daten fehlen und zum anderen unsere Zielvariable meter_reading sich je nach meter_type, primary_use und site_id ganz unterschiedlich verhält. In diesem Teil wollen wir die Missstände der Daten nochmal aufzeigen und Möglichkeiten beschreiben, wie man mit diesen umgehen kann.

Die Daten

Wie schon im ersten Beitrag gesehen, lassen sich die Ungleichverteilungen der Daten besonders gut visuell untersuchen. Die Probleme der Daten, die wir nun zu bewältigen haben, wollen wir hier noch einmal kurz beleuchten:

1. Zum einen ist die Gestalt und Menge der Daten je nach gemessenem Energietyp (meter) sehr unterschiedlich.

**Abbildung 1** Verteilung der Daten nach Energietyp

2. Zum anderen sieht man bei Verwendung einer logarithmierten Skala, dass meter_reading nach meter im Mittel um etwa zwei, nach primary_use sogar um mehr als drei Größenordnungen variiert. Dies wird in den folgenden Abbildungen deutlich:

**Abbildung 2** Variation der Größenordnungen verschiedener Energietypen

**Abbildung 3** Variation der Größenordnungen verschiedener Anwendungsbereiche

Wie im ersten Teil der Beitragsserie bereits angesprochen, beschränken wir uns im Folgenden nun auf den meter Chilled Water.

3. Weiter gibt es vereinzelte Gebäude mit einigen großen Ausreißern in den meter_reading Werten (z.B. Das building_id = 954).

**Abbildung 4** Energieverbrauch von Gebäude 954

4. Außerdem sind, wie schon im ersten Teil gesehen, die Daten je nach site_id (es gibt nur Daten für die site_ids 0, 2, 6, 7, 9) von sehr verschiedener Gestalt (vgl. auch Blogbeitrag 1):

**Abbildung 5** Energieverbrauch von Sites 0, 2 und 6

5. Schließlich gibt es noch einige Datensätze mit fehlenden (essenziellen) Attributen, die wir für unseren Lerner verwenden wollen.

Ziel

Wir wollen nun die Daten für Chilled Water so aufbereiten, dass ein Lerner eine möglichst gute Vorhersage für das meter_reading treffen kann. Ein Indiz für gute Voraussetzungen ist die Korrelation der einzelnen Features mit unserer Zielgröße meter_reading. Wenn man sich von dem unbereinigten Datensatz die Korrelationen ansieht (wie im 1. Beitrag bereits gezeigt), stellt man fest, dass es außer zwischen den Features wind_direction und wind_speed sowie dew_temperature und air_temperature kaum Korrelationen gibt. Insbesondere gibt es – außer age – auch keine Größen, die merklich mit unserer Zielgröße korrelieren.

**Abbildung 6** Correlation-Heat-Map des Beispieldatensatzes

Einerseits bedeutet dies nicht, dass jeder Lerner, der mit den Rohdaten trainiert wird, zum Scheitern verurteilt wäre. Ein Indiz für eine erfolgreiche Vorhersage unserer Zielvariablen ist es aber auch nicht.

Ziel ist nun, die verfügbaren Daten so aufzubereiten, dass wir möglichst Korrelationen zwischen unseren Messgrößen und unserer Zielvariablen meter_reading finden.

Der Aufbereitungsprozess

Im Folgenden werden wir die von uns unternommenen Schritte beschreiben, um die im vorherigen Abschnitt aufgezeigten Probleme anzugehen.

1. Da es sich bei der Energieart um einen kategorisches Attribut handelt, haben wir uns wie bereits vorher angekündigt dazu entschlossen nur die Energieart Chilled Water zu betrachten. Damit verbleibt uns eine Grundmenge aus 4182440 Datensätze, die wir bereinigen wollen. So müssen wir uns nicht mit der Konsolidierung der verschiedenen Energiearten auseinandersetzen. Um Vorhersagen für die anderen drei Energiearten zu machen, würde man für diese gesondert eigene Modelle trainieren.

2. Auch bei dem primary_use handelt es sich um ein kategorisches Attribut. Dieses könnte wie die Energieart in 1. behandelt werden, indem man sich auf einen primary_use konzentriert und für die anderen gesondert Modelle trainiert. Allerdings würde man dadurch die Anzahl der verfügbaren Daten drastisch reduzieren und hätte letztendlich nicht mehr ausreichend Daten um vernünftig ein Modell zu trainieren:

primary_use	Anzahl Datensätze
Education	1823125
Entertainment/public assembly	371663
Food sales and service	35132
Healthcare	111324
Lodging/residential	457833
Manufacturing/industrial	6677
Office	1117099
Other	22684
Parking	8781
Public services	179877
Religious worship	7327
Retail	16039
Technology/science	16106
Utility	8783

Wenn man doch diesen Weg gehen will, müsste man sich überlegen, wie man geschickt seine Daten vermehrt oder doch verschiedene primary_uses zusammenfassen. Wir werden unser Modell auf allen primary_uses trainieren. Wenn keine ausreichende Genauigkeit des Modells erzielt werden kann, wäre dies ein Punkt an dem man die Daten noch verbessern könnte.

3. Skaliert man das meter_reading linear auf das Intervall [0, 1], so ergibt sich für die für das Maximum der meter_reading Werte je Gebäude folgende Grafik:

**Abbildung 7** Reskalierter Energieverbrauch aller Gebäude

Man sieht deutlich, dass der Großteil der Gebäude ein meter_reading von weniger als 0,1 hat. Gebäude mit einem größeren meter_reading werten wir als Ausreißer (wie oben). Damit verbleiben uns etwa 99,97% der Datensätze (4181281).

4. Da sich die Sites strukturell sehr unterscheiden, haben wir uns dazu entschieden nur Daten von site_id = 2 zu verwenden. Die Daten von Site 2 sehen ziemlich homogen aus und können daher vermutlich gut für einen Lerner verwendet werden. Damit verlieren wir einige Datensätze und haben noch 863845. Um die Varianz noch etwas zu verringern, mitteln wir die stündlichen Daten noch jeweils über einen Tag und erhalten 36134 Datenpunkte. Damit sind wir noch im Rahmen der für LightGBM empfohlenen Mindestgröße von 10000 Datensätzen. Für andere Sites sind allerdings noch deutlich weniger Daten vorhanden. Diese müsste man dann mit anderen Sites zusammenfassen, um LightGBM auf diesen zu trainieren.

5. Schaut man sich nun die Korrelationen an, so stellt man fest, dass meter_reading, age, air_temperature sowie dew_temperature korreliert scheinen:

**Abbildung 8** Correlation-Heat-Map von Site 2

Daher werden wir uns nun auf diese Features einschränken und zu guter letzt alle Datensätze vernachlässigen, die dort fehlende Informationen haben.

Damit verbleiben uns insgesamt 27375 Datensätze, um einen Lerner zu trainieren. Wie schon angemerkt, reicht dies aus, um den LightGBM Algorithmus auf unseren bereinigten Datensatz anzuwenden. Wäre der Datensatz merklich kleiner, so könnte allein durch unsere mangelnde Datensatzgröße Overfitting auftreten. Mit unseren 27375 haben wir zwar einen kleineren Datensatz, aber noch nicht zu klein für unser Vorhaben.

Fazit

Das Resultat des Data Cleansings sieht für unsere Einschränkungen erfolgsversprechend aus. Um die anderen Energietypen und Sites zu untersuchen, wäre ähnlich vorzugehen.

Fachlich wäre zu erwarten, dass der Energieverbrauch jeweils eine Saisonalität aufweist. Anhand der zur Verfügung stehenden Daten wird diese allerdings nicht von einem Lerner erkannt werden können. Um diese dem Modell doch beizubringen, wäre es zum Beispiel eine Option fiktive Daten für 2015 als Duplikat derer von 2016 zu generieren.

Im letzten Teil dieser Beitragsserie wollen wir den LightGBM Algorithmus vorstellen, mit dem präparierten Datensatz trainieren und dabei zeigen, was für einen Einfluss das Data Cleansing auf die Güte des Lerners hat.

Akzeptieren
Name	YouTube
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Youtube zu Marketingzwecken. Die Daten werden an einen Server in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://policies.google.com/privacy

Akzeptieren
Name	hellotrust
Anbieter	Keyed GmbH
Zweck	hellotrust speichert den Zustimmungsstatus des Benutzers für Cookies auf der aktuellen Domain.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://hellotrust.de/datenschutz

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Google Analytics zur Analyse der Websitebenutzung durch Nutzer. Die Daten werden an einen Server von Google in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden. In der Regel werden die Cookies von Google für eine Dauer von 2 Jahren gespeichert.
Weiterführende Infos	https://policies.google.com/privacy

Datenanalyse und Machine Learning anhand eines Use Cases – II/III

Die Daten

Ziel

Der Aufbereitungsprozess

Fazit

Kommende Webinare

Gen AI für das HR Management

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

dbt – viel mehr als nur ein Transform Tool

Snowflake vs. BigQuery

Bringing GenAI to Production

AIOps – IT-Herausforderungen in Echtzeit

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Change Management aus der IT-Perspektive

Einführung in Iceberg Tables – Teil I

Das synvert saracus Data Governance Vorgehensmodell

Integration von Iceberg Tables in Big Data Architekturen und Snowflake – Teil II

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Webinare auf Abruf

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Ähnliche Artikel

Der ultimative Leitfaden für eine sinnvolle Nutzung von Daten

Automatisiertes Fehlerlösen mit Databricks und Apache Airflow

Die Datendiskrepanz: Warum die digitale Transformation eine Datenstrategie braucht

Das Problem mit Data Governance

Wir verwenden Cookies

Die Daten

Ziel

Der Auf­be­rei­tungs­pro­zess

Fazit

Beitrag teilen

Kommende Webinare

Gen AI für das HR Management

Ein­füh­rung in Cloud Data Ware­housing: Schwer­punkt Snow­flake vs. Redshift

dbt – viel mehr als nur ein Trans­form Tool

Snow­flake vs. BigQuery

Brin­ging GenAI to Production

AIOps – IT-Her­aus­for­de­run­gen in Echtzeit

Data Inges­tion aus SAP-Sys­te­men mit Azure Data Factory

Change Manage­ment aus der IT-Perspektive

Ein­füh­rung in Ice­berg Tables – Teil I

Das syn­vert saracus Data Gover­nance Vorgehensmodell

Inte­gra­tion von Ice­berg Tables in Big Data Archi­tek­tu­ren und Snow­flake – Teil II

Dat­ab­ricks: Beschleu­ni­gung von Data Ware­housing und ETL mit PySpark

Webinare auf Abruf

Data Cata­logs Part I: Ein­füh­rung in Meta­da­ten­ma­nage­ment und Data Catalogs

Data Cata­logs Part II: Data Cata­log in Action: Alation

Data Cata­logs Part III: Data Cata­log in Action: Infor­ma­tica Enter­prise Data Catalog

Ähnliche Artikel

Der ulti­ma­tive Leit­fa­den für eine sinn­volle Nut­zung von Daten

Auto­ma­ti­sier­tes Feh­ler­lö­sen mit Dat­ab­ricks und Apa­che Airflow

Die Daten­dis­kre­panz: Warum die digi­tale Trans­for­ma­tion eine Daten­stra­te­gie braucht

Das Pro­blem mit Data Governance

Abonnieren Sie unseren Newsletter, um aktuelle Infos von synvert saracus zu erhalten

Dan­ke­schön!

Anmel­dung

Um Zugang zu all unse­ren On-Demand-Web­i­na­ren und White­pa­pers zu erhalten!

Ein­log­gen

Stö­bern Sie jeder­zeit in Web­i­nar-Videos und White­pa­pers von syn­vert saracus

Pass­wort zurücksetzen

Pass­wort ver­ges­sen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhal­ten einen Link zum Zurück­set­zen des Passworts

Wir verwenden Cookies

Der Aufbereitungsprozess

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

dbt – viel mehr als nur ein Transform Tool

Snowflake vs. BigQuery

Bringing GenAI to Production

AIOps – IT-Herausforderungen in Echtzeit

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Change Management aus der IT-Perspektive

Einführung in Iceberg Tables – Teil I

Das synvert saracus Data Governance Vorgehensmodell

Integration von Iceberg Tables in Big Data Architekturen und Snowflake – Teil II

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Der ultimative Leitfaden für eine sinnvolle Nutzung von Daten

Automatisiertes Fehlerlösen mit Databricks und Apache Airflow

Die Datendiskrepanz: Warum die digitale Transformation eine Datenstrategie braucht

Das Problem mit Data Governance

Abonnieren Sie unseren Newsletter,
um aktuelle Infos von synvert saracus zu erhalten

Dankeschön!

Anmeldung

Um Zugang zu all unseren On-Demand-Webinaren und Whitepapers zu erhalten!

Einloggen

Stöbern Sie jederzeit in Webinar-Videos und Whitepapers von synvert saracus

Passwort zurücksetzen

Passwort vergessen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhalten einen Link zum Zurücksetzen des Passworts