GDPR Compliance und Data Analytics – Teil 2

Die jüngsten Fortschritte im Bereich des maschinellen Lernens haben ein wirtschaftliches Interesse erzeugt, die neuen Technologien in Geschäftsprozessen zu integrieren. Das belegen die ansteigenden Investitionen in ML-Tools und der rapide Aufbau von Analytics-Abteilungen. Gleichzeitig wurden Fragen nach Datenschutz und einer digitalen Ethik laut. Als rechtliche Antwort auf diese Entwicklungen hat die Europäische Union im Mai 2018 ihr bislang umfangreichstes Datenschutzgesetz, die General Data Protection (GDPR), erlassen. Und stellt damit die noch jungen Analytics-Abteilungen vor neue Herausforderungen. Welche Auswirkungen werden die zahlreichen Compliance-Anforderungen auf die praktische Arbeit von Data Analytics und Business Intelligence entfalten? Eine endgültige Antwort kann erst die Arbeit und Kontrolle der Regulierungsbehörden geben. Dennoch sind schon zum jetzigen Zeitpunkt relevante Aspekte für Data Analytics identifizierbar, auf die der regulatorische Rahmen einen Einfluss ausüben wird.

Dieser Blogeintrag ist Teil zwei unserer Blogserie zur GDPR. Im ersten Teil diskutieren wir den Zusammenhang zwischen der neuen Regulierung und dem unternehmensinternen Datenmanagement. Dieser Blogbeitrag ist keine rechtliche Beratung und erhebt nicht den Anspruch auf Vollständigkeit.

Die Einwilligungserklärung als Schlüssel für Analytics

Im Zentrum des neuen Datenschutzes stehen sensible Daten, die eine Person direkt identifizieren oder zur Identifikation beitragen, beispielsweise Wohnort, IP-Adresse oder Konfessionszugehörigkeit. Während anonyme Daten weiterhin bedenkenlos analysiert werden können, setzt die Verarbeitung und Speicherung sensibler Daten ab sofort eine Rechtsgrundlage voraus, z. B. eine Einwilligungserklärung, ein berechtigtes Interesse oder ein Gesetz.

Das Prinzip des berechtigten Interesses erlaubt es Unternehmen, die Wichtigkeit und Notwendigkeit einer Datenverarbeitung für das operative Geschäft geltend zu machen. Als Beispiel: ein Online-Händler benötigt für die Warenauslieferung Kontaktdaten des Empfängers. Ohne Adresse, kein Leistungsaustausch und kein Geschäft. Andere Unternehmen sind wiederum auf persönliche Daten angewiesen, um Betrugsfälle aufzuklären. In beiden Fällen ist die analytische Verarbeitung der Daten geschäftsrelevant und stellt somit keine Verletzung des Datenschutzes dar. Sollte ein berechtigtes Interesse vorliegen, muss keine zusätzliche Einwilligung eingeholt werden. Deshalb sollten Unternehmen sehr genau prüfen, für welche Datenverarbeitungszwecke ein besonderes Interesse vorliegt und davon Gebrauch machen.

Wichtiger, da der Regelfall, ist jedoch die Einwilligungserklärung. Für Analytics-Abteilungen ist die Einwilligung des Betroffenen (in GDPR-Sprache „Datensubjekt“) gleich in zweifacher Hinsicht von Bedeutung. Zum einen müssen sie in der vorangehenden Erklärung den Betroffenen in einer verständlichen und eindeutigen Sprache über den Verarbeitungszweck seiner Daten aufklären. Das bedeutet ein gutes Verständnis von den analytischen Zielen und dem analytischen Umfang und eine engere Zusammenarbeit mit Legal, damit die Ziele der analytischen Datenauswertung rechtmäßig kommuniziert werden. Ebenso empfiehlt es sich vor neuen Projekten, die Fachmeinung des zuständigen Datenschutzbeauftragten zu konsultieren, um die Rechtmäßigkeit der Datenverarbeitung sicherzustellen.

Zum anderen muss sichergestellt werden, dass der Analyseumfang nur sensible Daten mit einer vorliegenden Erklärung einschließt. Dies ist angesichts der neuen Betroffenenrechte keine leichte Aufgabe, denn Einwilligungen können abgelehnt, vergeben und widerrufen werden. Eine Verarbeitung ohne Einwilligung stellt einen Datenschutzverstoß dar. Damit ist klar: die Arbeit von Analytics setzt ein aktives Einwilligungsmanagement und ein sicheres Wissen über den Datenursprung voraus. Für beides kann ein Data Catalog helfen, der sowohl eine Übersicht über den Datenbestand als auch Beschreibungen, Kommentare und Informationen über den Datenursprung ermöglicht. Ein angemessenes Dokumentationswesen sollte zusätzlich hinreichend Aufschluss über die Datenverarbeitung liefern, so dass zu jedem Zeitpunkt die Rechtmäßigkeit überprüft und bewiesen werden kann.

Weniger ist mehr – Speichern und der Geschäftszweck

Die Rechtmäßigkeit der Datenverarbeitung hat Auswirkungen auf die Menge an verfügbaren Daten. Bislang war es gängige Praxis, große Datenmengen für potentielle Analysezwecke zu speichern. Oftmals lagen diese Daten unbenutzt im Datenbestand, konnten aber später in einem neuen Modell ihren besonderen Mehrwert entfalten. Was wird die GDPR an dieser Praxis ändern? Sofern es sich um personenbezogene Daten handelt, soll das vorsorgliche Speichern eingeschränkt werden. Das Prinzip der Datenminimierung fordert von Unternehmen, sich beim Speichern auf den Zweck der Verarbeitung zu beschränken. Heißt, nur so viele personenbezogene Daten wie nötig, um den Geschäftszweck auszuführen. Dies soll ein exzessives Datensammeln verhindern, kann aber auch mit dem explorativen Arbeitsansatz der Data Analytics in Konflikt geraten. Denn oftmals führt das ungeplante kreative Zusammenführen von Datenquellen zu neuen Erkenntnissen. Und mehr Daten bedeutet ein präziseres Modell und eine exaktere Bestimmung von Regelmäßigkeiten. Die Quintessenz von Big Data.

Natürlich ist eine neue Vorschrift keine Einbahnstraße. Und so sind auch insbesondere zwei Vorteile der Datenminimierung denkbar: Ein effizientes Datenmanagement von sensiblen Daten spart Zeit. Denn die Arbeit von Data Analytics erschöpft sich allzu oft in der Frage, welche Daten in das Modell fließen dürfen. Zudem schaffen es nur wenige Modelle in die Produktion. Fußt die Speicherung auf den Geschäftszweck, schärft sich der Fokus auf Daten, um eine wertschöpfende Analyse durchzuführen und hindert Analysten, sich in vielen Ideen ohne messbaren Mehrwert zu verlieren. Gleichzeitig minimiert sich das Risiko einer Datenpanne. Je weniger sensible Daten sich im eigenen Bestand befinden, desto mehr Überblick und Kontrolle gewinnt ein Unternehmen. Das senkt die Wahrscheinlichkeit eines Datenverlusts an unbefugte Eindringlinge. Ebenso wird die Weitergabe personenbezogener Daten an Dritte strenger bewertet. Auch das trägt zu einem professionellen Risikomanagement bei. In Zeiten ansteigender Hackerangriffe gewinnt das Thema Informationssicherheit spürbar an Bedeutung.

Mensch oder Maschine? Der Fall der automatisierten Entscheidung

Maschinelles Lernen ist für Data Analytics zum Mittel der Wahl geworden. Daher stellt sich unmittelbar die Frage, ob die GDPR daran etwas ändern wird.

Die GDPR unterscheidet zwischen einer teilweise automatisierten und einer ausschließlich automatisierten Verarbeitung. Eine ausschließlich automatisierte Verarbeitung kommt ohne menschliches Eingreifen aus. Trotzdem kann sie durch eine Entscheidung rechtliche Wirkung entfalten, z.B. ob für die Gruppe schwacher Kreditnehmer ein Kreditantrag bewilligt wird oder für die Gruppe profitabler Kunden ein Produktpreis höher oder niedriger ausfällt. Die Entscheidungsfindung ohne menschliches Zutun ist für die GDPR besonders sensibel. Daher gewährt sie Datensubjekten das Recht, nicht alleinig einer voll automatisierten Entscheidung unterworfen zu sein. Die Leitlinien des Expertengremiums European Data Protection Board sprechen sogar von einem Verbot rein automatisierter Entscheidungen. Gleichzeitig formuliert die GDPR Ausnahmen, die eine ausschließlich auf einer automatisierten Verarbeitung beruhenden Entscheidung ermöglichen, so z.B. eine Einwilligungserklärung, Erfüllung vertraglicher oder rechtlicher Verpflichtungen oder Erlaubnis durch ein anderes Recht. An dieser Stelle wird wieder einmal die herausragende Rolle der Einwilligungserklärung deutlich. Das populäre Profiling, wie im oberen Beispiel der Gruppierung, fällt nicht per se in die Kategorie voll automatisierter Entscheidungen, da Profiling erst einmal nur eine Bewertungsgrundlage schafft. Ausschlaggebend ist, ob die anschließende Entscheidung entweder von einem Menschen oder von der Maschine getroffen wird, wobei die GDPR ein rein symbolisches menschliches Eingreifen ausschließt. Insgesamt wird sich ein neues Zusammenspiel zwischen Algorithmen und sensiblen Daten einstellen.

The New Age of Data – GDPR Compliance und Data Analytics – Teil 2 Bild1 — **Abbildung 1** Automatisierte Entscheidung

Neben dieser Kategorisierung fordert die GDPR mehr Transparenz. In ihrem Gesetzestext gibt sie Betroffenen das Recht auf aussagekräftige Informationen über die automatisierte Entscheidungsfindung. Nicht das Wie (technische Details), sondern das Warum (die Logik) soll der Betroffene verstehen. Rechtsexperten diskutieren derzeit, welchen Umfang dieses Warum hat und ob es ein Recht auf Erklärung impliziert. Eine verbindliche Erklärungspflicht würde sich in jedem Fall auf die Arbeit von Data Analytics auswirken, denn analytische Modelle dürften nicht mehr als Black-Box-Funktionen betrachtet werden. Und das kann für komplexe Modelle schwierig werden. So sind Entscheidungsbäume leicht zu erklären, da sie Regeln abbilden. Die Entscheidungsfindung eines Neuronalen Netzwerks mit zahlreichen Ebenen ist jedoch immer noch ein aktives Forschungsthema (siehe z.B. das Forschungsprojekt “XAI” der US-amerikanischen Forschungsbehörde DARPA). Die Diskussion der Interpretierbarkeit wird auch durch jüngste Publikationen zu fehlerhaftem Klassifizieren angetrieben. In einem Experiment konnte ein Neurales Netzwerk mit einer hohen Genauigkeit zwischen Huskies und Wölfen unterscheiden, jedoch war das ausschlaggebende Unterscheidungskriterium der Schnee im Hintergrund von Huskies (siehe den Fachartikel zur LIME-Methode). Analog kann dieser Fall von Scheinkorrelation im Geschäftskontext zu Diskriminierungseffekten führen und erheblichen Schaden anrichten. Sollte ein Analytics-Mitarbeiter die Determinanten seines komplexen Modells nicht ausreichend verstehen, könnte ein einfacherer Modelrahmen zu mehr Sicherheit beitragen. Die neue Anforderung nach Erklärbarkeit, abhängig vom Umfang, könnte dazu führen, dass das Verhältnis zwischen Interpretierbarkeit und Modellgüte neu verhandelt wird und Analytics-Mitarbeiter in Zukunft etwas Modellgenauigkeit für Erklärbarkeit eintauschen.

Fazit

Die GDPR hat konkrete Auswirkungen auf die Arbeit von Data Analytics. Insgesamt sind Analytics-Mitarbeiter in ihrer Kommunikation stärker gefordert. Voraussetzung dafür ist ein neues Verständnis für den Umgang mit sensiblen Daten. Speichern und verarbeiten erfordert eine Einwilligung oder ein berechtigtes Interesse. Daher müssen Analyseziele klar kommuniziert und das Innenleben von Modellen zu einem gewissen Grad erklärt werden. Eine engere Zusammenarbeit mit dem Datenschutzbeauftragten sorgt für eine rechtmäßige Verarbeitung. Vorteile der neuen Anforderungen können eine zielgerichtete Modellierung und mehr Modelle in Produktion sein. Eine erklärbare Datenauswertung beugt zudem potentiellen Diskriminierungseffekten vor, während die Datensparksamkeit Risiken minimiert und damit das Risikomanagement vereinfacht. Insgesamt wird die GDPR mehr Vertrauen zwischen Unternehmen und ihren Kunden schaffen. Unternehmen mit einer nachvollziehbaren Datenauswertung verdienen sich die Akzeptanz und werden von langfristigen Kundenbindungen profitieren. Daher sollten Unternehmen die GDPR Compliance als Hebel für eine neue Vertrauensbasis verstehen.

Akzeptieren
Name	YouTube
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Youtube zu Marketingzwecken. Die Daten werden an einen Server in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://policies.google.com/privacy

Akzeptieren
Name	hellotrust
Anbieter	Keyed GmbH
Zweck	hellotrust speichert den Zustimmungsstatus des Benutzers für Cookies auf der aktuellen Domain.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden.
Weiterführende Infos	https://hellotrust.de/datenschutz

Akzeptieren
Name	Google Analytics
Anbieter	Google LLC
Zweck	Diese Webseite verwendet Google Analytics zur Analyse der Websitebenutzung durch Nutzer. Die Daten werden an einen Server von Google in den USA übertragen und dort gespeichert. Die personenbezogenen Daten werden auf Grundlage des Art. 46 und/oder Art. 49 Abs. 1 lit. a) DSGVO übermittelt.
Laufzeit	Daten werden gelöscht, sobald sie für die Bearbeitung nicht mehr benötigt werden. In der Regel werden die Cookies von Google für eine Dauer von 2 Jahren gespeichert.
Weiterführende Infos	https://policies.google.com/privacy

The New Age of Data – GDPR Compliance und Data Analytics – Teil 2

Die Einwilligungserklärung als Schlüssel für Analytics

Weniger ist mehr – Speichern und der Geschäftszweck

Mensch oder Maschine? Der Fall der automatisierten Entscheidung

Fazit

Weitere interessante synvert saracus Materialien

Das synvert saracus Data Governance Vorgehensmodell

Das Problem mit Data Governance

Kommende Webinare

Gen AI für das HR Management

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

dbt – viel mehr als nur ein Transform Tool

Snowflake vs. BigQuery

Bringing GenAI to Production

AIOps – IT-Herausforderungen in Echtzeit

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Change Management aus der IT-Perspektive

Einführung in Iceberg Tables – Teil I

Das synvert saracus Data Governance Vorgehensmodell

Integration von Iceberg Tables in Big Data Architekturen und Snowflake – Teil II

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Webinare auf Abruf

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Ähnliche Artikel

Der ultimative Leitfaden für eine sinnvolle Nutzung von Daten

Automatisiertes Fehlerlösen mit Databricks und Apache Airflow

Die Datendiskrepanz: Warum die digitale Transformation eine Datenstrategie braucht

Das Problem mit Data Governance

Wir verwenden Cookies

Die Ein­wil­li­gungs­er­klä­rung als Schlüs­sel für Analytics

Weni­ger ist mehr – Spei­chern und der Geschäftszweck

Mensch oder Maschine? Der Fall der auto­ma­ti­sier­ten Entscheidung

Fazit

Beitrag teilen

Wei­tere inter­es­sante syn­vert saracus Materialien

Das syn­vert saracus Data Gover­nance Vorgehensmodell

Das Pro­blem mit Data Governance

Kommende Webinare

Gen AI für das HR Management

Ein­füh­rung in Cloud Data Ware­housing: Schwer­punkt Snow­flake vs. Redshift

dbt – viel mehr als nur ein Trans­form Tool

Snow­flake vs. BigQuery

Brin­ging GenAI to Production

AIOps – IT-Her­aus­for­de­run­gen in Echtzeit

Data Inges­tion aus SAP-Sys­te­men mit Azure Data Factory

Change Manage­ment aus der IT-Perspektive

Ein­füh­rung in Ice­berg Tables – Teil I

Das syn­vert saracus Data Gover­nance Vorgehensmodell

Inte­gra­tion von Ice­berg Tables in Big Data Archi­tek­tu­ren und Snow­flake – Teil II

Dat­ab­ricks: Beschleu­ni­gung von Data Ware­housing und ETL mit PySpark

Webinare auf Abruf

Data Cata­logs Part I: Ein­füh­rung in Meta­da­ten­ma­nage­ment und Data Catalogs

Data Cata­logs Part II: Data Cata­log in Action: Alation

Data Cata­logs Part III: Data Cata­log in Action: Infor­ma­tica Enter­prise Data Catalog

Ähnliche Artikel

Der ulti­ma­tive Leit­fa­den für eine sinn­volle Nut­zung von Daten

Auto­ma­ti­sier­tes Feh­ler­lö­sen mit Dat­ab­ricks und Apa­che Airflow

Die Daten­dis­kre­panz: Warum die digi­tale Trans­for­ma­tion eine Daten­stra­te­gie braucht

Das Pro­blem mit Data Governance

Abonnieren Sie unseren Newsletter, um aktuelle Infos von synvert saracus zu erhalten

Dan­ke­schön!

Anmel­dung

Um Zugang zu all unse­ren On-Demand-Web­i­na­ren und White­pa­pers zu erhalten!

Ein­log­gen

Stö­bern Sie jeder­zeit in Web­i­nar-Videos und White­pa­pers von syn­vert saracus

Pass­wort zurücksetzen

Pass­wort ver­ges­sen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhal­ten einen Link zum Zurück­set­zen des Passworts

Wir verwenden Cookies

Die Einwilligungserklärung als Schlüssel für Analytics

Weniger ist mehr – Speichern und der Geschäftszweck

Mensch oder Maschine? Der Fall der automatisierten Entscheidung

Weitere interessante synvert saracus Materialien

Das synvert saracus Data Governance Vorgehensmodell

Das Problem mit Data Governance

Einführung in Cloud Data Warehousing: Schwerpunkt Snowflake vs. Redshift

dbt – viel mehr als nur ein Transform Tool

Snowflake vs. BigQuery

Bringing GenAI to Production

AIOps – IT-Herausforderungen in Echtzeit

Data Ingestion aus SAP-Systemen mit Azure Data Factory

Change Management aus der IT-Perspektive

Einführung in Iceberg Tables – Teil I

Das synvert saracus Data Governance Vorgehensmodell

Integration von Iceberg Tables in Big Data Architekturen und Snowflake – Teil II

Databricks: Beschleunigung von Data Warehousing und ETL mit PySpark

Data Catalogs Part I: Einführung in Metadatenmanagement und Data Catalogs

Data Catalogs Part II: Data Catalog in Action: Alation

Data Catalogs Part III: Data Catalog in Action: Informatica Enterprise Data Catalog

Der ultimative Leitfaden für eine sinnvolle Nutzung von Daten

Automatisiertes Fehlerlösen mit Databricks und Apache Airflow

Die Datendiskrepanz: Warum die digitale Transformation eine Datenstrategie braucht

Das Problem mit Data Governance

Abonnieren Sie unseren Newsletter,
um aktuelle Infos von synvert saracus zu erhalten

Dankeschön!

Anmeldung

Um Zugang zu all unseren On-Demand-Webinaren und Whitepapers zu erhalten!

Einloggen

Stöbern Sie jederzeit in Webinar-Videos und Whitepapers von synvert saracus

Passwort zurücksetzen

Passwort vergessen? Geben Sie Ihre E‑Mail-Adresse ein und Sie erhalten einen Link zum Zurücksetzen des Passworts