Die jüngs­ten Fort­schritte im Bereich des maschi­nel­len Ler­nens haben ein wirt­schaft­li­ches Inter­esse erzeugt, die neuen Tech­no­lo­gien in Geschäfts­pro­zes­sen zu inte­grie­ren. Das bele­gen die anstei­gen­den Inves­ti­tio­nen in ML-Tools und der rapide Auf­bau von Ana­ly­tics-Abtei­lun­gen. Gleich­zei­tig wur­den Fra­gen nach Daten­schutz und einer digi­ta­len Ethik laut. Als recht­li­che Ant­wort auf diese Ent­wick­lun­gen hat die Euro­päi­sche Union im Mai 2018 ihr bis­lang umfang­reichs­tes Daten­schutz­ge­setz, die Gene­ral Data Pro­tec­tion (GDPR), erlas­sen. Und stellt damit die noch jun­gen Ana­ly­tics-Abtei­lun­gen vor neue Her­aus­for­de­run­gen. Wel­che Aus­wir­kun­gen wer­den die zahl­rei­chen Com­pli­ance-Anfor­de­run­gen auf die prak­ti­sche Arbeit von Data Ana­ly­tics und Busi­ness Intel­li­gence ent­fal­ten? Eine end­gül­tige Ant­wort kann erst die Arbeit und Kon­trolle der Regu­lie­rungs­be­hör­den geben. Den­noch sind schon zum jet­zi­gen Zeit­punkt rele­vante Aspekte für Data Ana­ly­tics iden­ti­fi­zier­bar, auf die der regu­la­to­ri­sche Rah­men einen Ein­fluss aus­üben wird.

Die­ser Blog­ein­trag ist Teil zwei unse­rer Blog­se­rie zur GDPR. Im ers­ten Teil dis­ku­tie­ren wir den Zusam­men­hang zwi­schen der neuen Regu­lie­rung und dem unter­neh­mens­in­ter­nen Daten­ma­nage­ment. Die­ser Blog­bei­trag ist keine recht­li­che Bera­tung und erhebt nicht den Anspruch auf Vollständigkeit.

Die Ein­wil­li­gungs­er­klä­rung als Schlüs­sel für Analytics

Im Zen­trum des neuen Daten­schut­zes ste­hen sen­si­ble Daten, die eine Per­son direkt iden­ti­fi­zie­ren oder zur Iden­ti­fi­ka­tion bei­tra­gen, bei­spiels­weise Wohn­ort, IP-Adresse oder Kon­fes­si­ons­zu­ge­hö­rig­keit. Wäh­rend anonyme Daten wei­ter­hin beden­ken­los ana­ly­siert wer­den kön­nen, setzt die Ver­ar­bei­tung und Spei­che­rung sen­si­bler Daten ab sofort eine Rechts­grund­lage vor­aus, z. B. eine Ein­wil­li­gungs­er­klä­rung, ein berech­tig­tes Inter­esse oder ein Gesetz.

Das Prin­zip des berech­tig­ten Inter­es­ses erlaubt es Unter­neh­men, die Wich­tig­keit und Not­wen­dig­keit einer Daten­ver­ar­bei­tung für das ope­ra­tive Geschäft gel­tend zu machen. Als Bei­spiel: ein Online-Händ­ler benö­tigt für die Waren­aus­lie­fe­rung Kon­takt­da­ten des Emp­fän­gers. Ohne Adresse, kein Leis­tungs­aus­tausch und kein Geschäft. Andere Unter­neh­men sind wie­derum auf per­sön­li­che Daten ange­wie­sen, um Betrugs­fälle auf­zu­klä­ren. In bei­den Fäl­len ist die ana­ly­ti­sche Ver­ar­bei­tung der Daten geschäfts­re­le­vant und stellt somit keine Ver­let­zung des Daten­schut­zes dar. Sollte ein berech­tig­tes Inter­esse vor­lie­gen, muss keine zusätz­li­che Ein­wil­li­gung ein­ge­holt wer­den. Des­halb soll­ten Unter­neh­men sehr genau prü­fen, für wel­che Daten­ver­ar­bei­tungs­zwe­cke ein beson­de­res Inter­esse vor­liegt und davon Gebrauch machen.

Wich­ti­ger, da der Regel­fall, ist jedoch die Ein­wil­li­gungs­er­klä­rung. Für Ana­ly­tics-Abtei­lun­gen ist die Ein­wil­li­gung des Betrof­fe­nen (in GDPR-Spra­che „Daten­sub­jekt“) gleich in zwei­fa­cher Hin­sicht von Bedeu­tung. Zum einen müs­sen sie in der vor­an­ge­hen­den Erklä­rung den Betrof­fe­nen in einer ver­ständ­li­chen und ein­deu­ti­gen Spra­che über den Ver­ar­bei­tungs­zweck sei­ner Daten auf­klä­ren. Das bedeu­tet ein gutes Ver­ständ­nis von den ana­ly­ti­schen Zie­len und dem ana­ly­ti­schen Umfang und eine engere Zusam­men­ar­beit mit Legal, damit die Ziele der ana­ly­ti­schen Daten­aus­wer­tung recht­mä­ßig kom­mu­ni­ziert wer­den. Ebenso emp­fiehlt es sich vor neuen Pro­jek­ten, die Fach­mei­nung des zustän­di­gen Daten­schutz­be­auf­trag­ten zu kon­sul­tie­ren, um die Recht­mä­ßig­keit der Daten­ver­ar­bei­tung sicherzustellen.

Zum ande­ren muss sicher­ge­stellt wer­den, dass der Ana­ly­se­umfang nur sen­si­ble Daten mit einer vor­lie­gen­den Erklä­rung ein­schließt. Dies ist ange­sichts der neuen Betrof­fe­nen­rechte keine leichte Auf­gabe, denn Ein­wil­li­gun­gen kön­nen abge­lehnt, ver­ge­ben und wider­ru­fen wer­den. Eine Ver­ar­bei­tung ohne Ein­wil­li­gung stellt einen Daten­schutz­ver­stoß dar. Damit ist klar: die Arbeit von Ana­ly­tics setzt ein akti­ves Ein­wil­li­gungs­ma­nage­ment und ein siche­res Wis­sen über den Daten­ur­sprung vor­aus. Für bei­des kann ein Data Cata­log hel­fen, der sowohl eine Über­sicht über den Daten­be­stand als auch Beschrei­bun­gen, Kom­men­tare und Infor­ma­tio­nen über den Daten­ur­sprung ermög­licht. Ein ange­mes­se­nes Doku­men­ta­ti­ons­we­sen sollte zusätz­lich hin­rei­chend Auf­schluss über die Daten­ver­ar­bei­tung lie­fern, so dass zu jedem Zeit­punkt die Recht­mä­ßig­keit über­prüft und bewie­sen wer­den kann.

Weni­ger ist mehr – Spei­chern und der Geschäftszweck

Die Recht­mä­ßig­keit der Daten­ver­ar­bei­tung hat Aus­wir­kun­gen auf die Menge an ver­füg­ba­ren Daten. Bis­lang war es gän­gige Pra­xis, große Daten­men­gen für poten­ti­elle Ana­ly­se­zwe­cke zu spei­chern. Oft­mals lagen diese Daten unbe­nutzt im Daten­be­stand, konn­ten aber spä­ter in einem neuen Modell ihren beson­de­ren Mehr­wert ent­fal­ten. Was wird die GDPR an die­ser Pra­xis ändern? Sofern es sich um per­so­nen­be­zo­gene Daten han­delt, soll das vor­sorg­li­che Spei­chern ein­ge­schränkt wer­den. Das Prin­zip der Daten­mi­ni­mie­rung for­dert von Unter­neh­men, sich beim Spei­chern auf den Zweck der Ver­ar­bei­tung zu beschrän­ken. Heißt, nur so viele per­so­nen­be­zo­gene Daten wie nötig, um den Geschäfts­zweck aus­zu­füh­ren. Dies soll ein exzes­si­ves Daten­sam­meln ver­hin­dern, kann aber auch mit dem explo­ra­ti­ven Arbeits­an­satz der Data Ana­ly­tics in Kon­flikt gera­ten. Denn oft­mals führt das unge­plante krea­tive Zusam­men­füh­ren von Daten­quel­len zu neuen Erkennt­nis­sen. Und mehr Daten bedeu­tet ein prä­zi­se­res Modell und eine exak­tere Bestim­mung von Regel­mä­ßig­kei­ten. Die Quint­essenz von Big Data.

Natür­lich ist eine neue Vor­schrift keine Ein­bahn­straße. Und so sind auch ins­be­son­dere zwei Vor­teile der Daten­mi­ni­mie­rung denk­bar: Ein effi­zi­en­tes Daten­ma­nage­ment von sen­si­blen Daten spart Zeit. Denn die Arbeit von Data Ana­ly­tics erschöpft sich allzu oft in der Frage, wel­che Daten in das Modell flie­ßen dür­fen. Zudem schaf­fen es nur wenige Modelle in die Pro­duk­tion. Fußt die Spei­che­rung auf den Geschäfts­zweck, schärft sich der Fokus auf Daten, um eine wert­schöp­fende Ana­lyse durch­zu­füh­ren und hin­dert Ana­lys­ten, sich in vie­len Ideen ohne mess­ba­ren Mehr­wert zu ver­lie­ren. Gleich­zei­tig mini­miert sich das Risiko einer Daten­panne. Je weni­ger sen­si­ble Daten sich im eige­nen Bestand befin­den, desto mehr Über­blick und Kon­trolle gewinnt ein Unter­neh­men. Das senkt die Wahr­schein­lich­keit eines Daten­ver­lusts an unbe­fugte Ein­dring­linge. Ebenso wird die Wei­ter­gabe per­so­nen­be­zo­ge­ner Daten an Dritte stren­ger bewer­tet. Auch das trägt zu einem pro­fes­sio­nel­len Risi­ko­ma­nage­ment bei. In Zei­ten anstei­gen­der Hacker­an­griffe gewinnt das Thema Infor­ma­ti­ons­si­cher­heit spür­bar an Bedeutung.

Mensch oder Maschine? Der Fall der auto­ma­ti­sier­ten Entscheidung

Maschi­nel­les Ler­nen ist für Data Ana­ly­tics zum Mit­tel der Wahl gewor­den. Daher stellt sich unmit­tel­bar die Frage, ob die GDPR daran etwas ändern wird.

Die GDPR unter­schei­det zwi­schen einer teil­weise auto­ma­ti­sier­ten und einer aus­schließ­lich auto­ma­ti­sier­ten Ver­ar­bei­tung. Eine aus­schließ­lich auto­ma­ti­sierte Ver­ar­bei­tung kommt ohne mensch­li­ches Ein­grei­fen aus. Trotz­dem kann sie durch eine Ent­schei­dung recht­li­che Wir­kung ent­fal­ten, z.B. ob für die Gruppe schwa­cher Kre­dit­neh­mer ein Kre­dit­an­trag bewil­ligt wird oder für die Gruppe pro­fi­ta­bler Kun­den ein Pro­dukt­preis höher oder nied­ri­ger aus­fällt. Die Ent­schei­dungs­fin­dung ohne mensch­li­ches Zutun ist für die GDPR beson­ders sen­si­bel. Daher gewährt sie Daten­sub­jek­ten das Recht, nicht allei­nig einer voll auto­ma­ti­sier­ten Ent­schei­dung unter­wor­fen zu sein. Die Leit­li­nien des Exper­ten­gre­mi­ums Euro­pean Data Pro­tec­tion Board spre­chen sogar von einem Ver­bot rein auto­ma­ti­sier­ter Ent­schei­dun­gen. Gleich­zei­tig for­mu­liert die GDPR Aus­nah­men, die eine aus­schließ­lich auf einer auto­ma­ti­sier­ten Ver­ar­bei­tung beru­hen­den Ent­schei­dung ermög­li­chen, so z.B. eine Ein­wil­li­gungs­er­klä­rung, Erfül­lung ver­trag­li­cher oder recht­li­cher Ver­pflich­tun­gen oder Erlaub­nis durch ein ande­res Recht. An die­ser Stelle wird wie­der ein­mal die her­aus­ra­gende Rolle der Ein­wil­li­gungs­er­klä­rung deut­lich. Das popu­läre Pro­fil­ing, wie im obe­ren Bei­spiel der Grup­pie­rung, fällt nicht per se in die Kate­go­rie voll auto­ma­ti­sier­ter Ent­schei­dun­gen, da Pro­fil­ing erst ein­mal nur eine Bewer­tungs­grund­lage schafft. Aus­schlag­ge­bend ist, ob die anschlie­ßende Ent­schei­dung ent­we­der von einem Men­schen oder von der Maschine getrof­fen wird, wobei die GDPR ein rein sym­bo­li­sches mensch­li­ches Ein­grei­fen aus­schließt. Ins­ge­samt wird sich ein neues Zusam­men­spiel zwi­schen Algo­rith­men und sen­si­blen Daten einstellen.

The New Age of Data – GDPR Compliance und Data Analytics – Teil 2 Bild1
Abbil­dung 1 Auto­ma­ti­sierte Entscheidung

Neben die­ser Kate­go­ri­sie­rung for­dert die GDPR mehr Trans­pa­renz. In ihrem Geset­zes­text gibt sie Betrof­fe­nen das Recht auf aus­sa­ge­kräf­tige Infor­ma­tio­nen über die auto­ma­ti­sierte Ent­schei­dungs­fin­dung. Nicht das Wie (tech­ni­sche Details), son­dern das Warum (die Logik) soll der Betrof­fene ver­ste­hen. Rechts­exper­ten dis­ku­tie­ren der­zeit, wel­chen Umfang die­ses Warum hat und ob es ein Recht auf Erklä­rung impli­ziert. Eine ver­bind­li­che Erklä­rungs­pflicht würde sich in jedem Fall auf die Arbeit von Data Ana­ly­tics aus­wir­ken, denn ana­ly­ti­sche  Modelle dürf­ten nicht mehr als Black-Box-Funk­tio­nen betrach­tet wer­den. Und das kann für kom­plexe Modelle schwie­rig wer­den. So sind Ent­schei­dungs­bäume leicht zu erklä­ren, da sie Regeln abbil­den. Die Ent­schei­dungs­fin­dung eines Neu­ro­na­len Netz­werks mit zahl­rei­chen Ebe­nen ist jedoch immer noch ein akti­ves For­schungs­thema (siehe z.B. das For­schungs­pro­jekt “XAI” der US-ame­ri­ka­ni­schen For­schungs­be­hörde DARPA). Die Dis­kus­sion der Inter­pre­tier­bar­keit wird auch durch jüngste Publi­ka­tio­nen zu feh­ler­haf­tem Klas­si­fi­zie­ren ange­trie­ben. In einem Expe­ri­ment konnte ein Neu­r­a­les Netz­werk mit einer hohen Genau­ig­keit zwi­schen Hus­kies und Wöl­fen unter­schei­den, jedoch war das aus­schlag­ge­bende Unter­schei­dungs­kri­te­rium der Schnee im Hin­ter­grund von Hus­kies (siehe den Fach­ar­ti­kel zur LIME-Methode). Ana­log kann die­ser Fall von Schein­kor­re­la­tion im Geschäfts­kon­text zu Dis­kri­mi­nie­rungs­ef­fek­ten füh­ren und erheb­li­chen Scha­den anrich­ten. Sollte ein Ana­ly­tics-Mit­ar­bei­ter die Deter­mi­nan­ten sei­nes kom­ple­xen Modells nicht aus­rei­chend ver­ste­hen, könnte ein ein­fa­che­rer Model­rah­men zu mehr Sicher­heit bei­tra­gen. Die neue Anfor­de­rung nach Erklär­bar­keit, abhän­gig vom Umfang, könnte dazu füh­ren, dass das Ver­hält­nis zwi­schen Inter­pre­tier­bar­keit und Modell­güte neu ver­han­delt wird und Ana­ly­tics-Mit­ar­bei­ter in Zukunft etwas Modell­ge­nau­ig­keit für Erklär­bar­keit eintauschen.

Fazit

Die GDPR hat kon­krete Aus­wir­kun­gen auf die Arbeit von Data Ana­ly­tics. Ins­ge­samt sind Ana­ly­tics-Mit­ar­bei­ter in ihrer Kom­mu­ni­ka­tion stär­ker gefor­dert. Vor­aus­set­zung dafür ist ein neues Ver­ständ­nis für den Umgang mit sen­si­blen Daten. Spei­chern und ver­ar­bei­ten erfor­dert eine Ein­wil­li­gung oder ein berech­tig­tes Inter­esse. Daher müs­sen Ana­ly­se­ziele klar kom­mu­ni­ziert und das Innen­le­ben von Model­len zu einem gewis­sen Grad erklärt wer­den. Eine engere Zusam­men­ar­beit mit dem Daten­schutz­be­auf­trag­ten sorgt für eine recht­mä­ßige Ver­ar­bei­tung. Vor­teile der neuen Anfor­de­run­gen kön­nen eine ziel­ge­rich­tete Model­lie­rung und mehr Modelle in Pro­duk­tion sein. Eine erklär­bare Daten­aus­wer­tung beugt zudem poten­ti­el­len Dis­kri­mi­nie­rungs­ef­fek­ten vor, wäh­rend die Datens­park­sam­keit Risi­ken mini­miert und damit das Risi­ko­ma­nage­ment ver­ein­facht. Ins­ge­samt wird die GDPR mehr Ver­trauen zwi­schen Unter­neh­men und ihren Kun­den schaf­fen. Unter­neh­men mit einer nach­voll­zieh­ba­ren Daten­aus­wer­tung ver­die­nen sich die Akzep­tanz und wer­den von lang­fris­ti­gen Kun­den­bin­dun­gen pro­fi­tie­ren. Daher soll­ten Unter­neh­men die GDPR Com­pli­ance als Hebel für eine neue Ver­trau­ens­ba­sis verstehen.