4. Use-Cases

4.1 Eine Liste typi­scher Use-Cases

AIOps, die Anwen­dung von künst­li­cher Intel­li­genz auf IT-Betriebs­pro­bleme, bie­tet eine Viel­zahl von Anwen­dungs­fäl­len, die dazu bei­tra­gen, die Effi­zi­enz und Effek­ti­vi­tät von IT-Sys­te­men zu stei­gern. Im Fol­gen­den wer­den einige der typischs­ten Anwen­dungs­fälle von AIOps vor­ge­stellt, die zei­gen, wie diese Tech­no­lo­gie dazu bei­tra­gen kann, IT-Ope­ra­tio­nen zu trans­for­mie­ren und zu optimieren. 

Anoma­lie Erken­nung: 

In der Auto­ma­ti­sie­rung von Betriebs­ab­läu­fen steht die effi­zi­ente Pro­blem­lö­sung im Vor­der­grund. Das Haupt­ziel ist die Mini­mie­rung der durch­schnitt­li­chen Wie­der­her­stel­lungs­zeit (MTTR). Dies wird durch die auto­ma­ti­sche Erken­nung von Anoma­lien und schnelle Benach­rich­ti­gung, also eine zügige durch­schnitt­li­che Ent­de­ckungs­zeit (MTTD), erreicht. Um die MTTR jedoch noch wei­ter zu redu­zie­ren, ist eine auto­ma­ti­sche Ana­lyse der Ursa­chen unerlässlich. 

Tra­di­tio­nelle Über­wa­chungs­werk­zeuge legen ihren Fokus auf Anwen­dungs­leis­tung und eta­blierte Metho­den, um nor­ma­les von abwei­chen­dem Ver­hal­ten zu unter­schei­den. Das Defi­nie­ren von Anoma­lieschwel­len­wer­ten ist kom­plex und erfor­dert oft den Ein­satz von fort­ge­schrit­te­nen sta­tis­ti­schen Metho­den wie dem maschi­nel­len Ler­nen. Ins­be­son­dere in Cloud-Umge­bun­gen sto­ßen her­kömm­li­che Metho­den an ihre Grenzen. 

In moder­nen Mikro­ser­vice-Archi­tek­tu­ren kann ein ein­zel­ner Feh­ler zahl­rei­che ver­bun­dene Dienste beein­träch­ti­gen. Ein sol­ches Pro­blem kann zu einer Flut von Alarm­mel­dun­gen füh­ren. Tra­di­tio­nelle Über­wa­chungs­lö­sun­gen kön­nen die­ses Pro­blem oft nicht effek­tiv adres­sie­ren, sodass es an den IT-Teams liegt, die Flut an Mel­dun­gen zu inter­pre­tie­ren und zu prio­ri­sie­ren. Dies kann zu zeit­auf­wän­di­gen und frus­trie­ren­den Dia­gno­se­sit­zun­gen führen. 

AIOps bie­tet hier die Fähig­keit, IT-Sys­teme kon­ti­nu­ier­lich zu über­wa­chen. Dabei wer­den unge­wöhn­li­che Mus­ter oder Abwei­chun­gen von der Norm erkannt, die auf poten­zi­elle Pro­bleme hin­wei­sen könn­ten. Dies ermög­licht es den Teams, pro­ak­tiv zu han­deln, bevor diese Anoma­lien zu ernst­haf­ten Pro­ble­men wer­den. Außer­dem ist mit AIOps eine auto­ma­ti­sche Bestim­mung der zugrunde lie­gen­den Haupt­ur­sa­che möglich. 

Root-Cause-Ana­lyse: 

Wenn es zu einem Sys­tem­aus­fall oder einem ande­ren kri­ti­schen Pro­blem kommt, kann AIOps durch die Ana­lyse von Daten aus ver­schie­de­nen Quel­len schnell die zugrunde lie­gende Ursa­che iden­ti­fi­zie­ren. Dies beschleu­nigt den Pro­blem­be­he­bungs­pro­zess erheblich. 

Ohne AIOps besteht eine große Her­aus­for­de­rung darin, dass eine enorme Kom­ple­xi­tät der Sys­teme und Umge­bun­gen (ins­be­son­dere im Multi-Cloud-Kon­text) sowie Daten­vo­lu­men eine Über­wa­chung, ein Ver­ständ­nis, das Han­deln sowie eine Ursa­chen­ana­lyse durch Men­schen abhän­gig von der kon­kre­ten Umge­bung min­des­tens her­aus­for­dernd, wenn nicht unmög­lich, machen. 

Mit AIOps kön­nen zahl­rei­che Ansätze für eine Ursa­chen­ana­lyse gewählt wer­den. Ein Bei­spiel ist die Ver­wen­dung einer deter­mi­nis­ti­schen KI, z.B. basie­rend auf Fehlerbäumen. 

Kapa­zi­täts­pla­nung: 

AIOps kann his­to­ri­sche Daten ana­ly­sie­ren, um Trends und Mus­ter zu erken­nen. Auf diese Weise kann es vor­her­sa­gen, wann die Kapa­zi­tät von Sys­te­men oder Netz­wer­ken erhöht wer­den muss, um zukünf­tige Anfor­de­run­gen zu erfül­len, wodurch Aus­fall­zei­ten und Leis­tungs­pro­bleme ver­mie­den werden. 

Auto­ma­ti­sche Feh­ler­be­he­bung: 

Ein wei­te­rer Vor­teil von AIOps ist die Fähig­keit zur auto­ma­ti­schen Feh­ler­be­he­bung. Bei der Erken­nung eines Pro­blems kann das Sys­tem auto­ma­tisch vor­de­fi­nierte Kor­rek­tur­maß­nah­men ergrei­fen, was die Not­wen­dig­keit mensch­li­chen Ein­grei­fens mini­miert und die Reak­ti­ons­zeit erheb­lich verkürzt. 

Netz­werk­ana­lyse und ‑opti­mie­rung: 

Durch die Ana­lyse des Netz­werk­ver­kehrs kann AIOps Eng­pässe und andere Pro­bleme iden­ti­fi­zie­ren. Basie­rend auf die­sen Erkennt­nis­sen kann es Vor­schläge zur Opti­mie­rung des Netz­werks machen, um eine maxi­male Leis­tung sicherzustellen. 

Vor­her­sa­gende War­tung: 

Anstatt zu war­ten, bis Hard­ware­kom­po­nen­ten aus­fal­len, kann AIOps vor­her­sa­gen, wann diese Kom­po­nen­ten wahr­schein­lich ver­sa­gen wer­den. Dies ermög­licht pro­ak­tive War­tungs­maß­nah­men oder den Aus­tausch von Kom­po­nen­ten, bevor sie aus­fal­len, wodurch Aus­fall­zei­ten ver­mie­den werden. 

Inte­gra­tion von IT-Ope­ra­tio­nen und DevOps: 

AIOps kann eine Brü­cke zwi­schen IT-Betriebs­teams und Ent­wick­ler­teams schla­gen. Es bie­tet wert­volle Ein­bli­cke in die Sys­tem­leis­tung und hilft dabei, Pro­bleme im neu imple­men­tier­ten Code oder in der Infrastruktur schnell zu iden­ti­fi­zie­ren, was zu einer bes­se­ren Zusam­men­ar­beit und schnel­le­ren Pro­blem­be­he­bung führt. 

Durch die Inte­gra­tion die­ser Anwen­dungs­fälle in ihre IT-Stra­te­gie kön­nen Unter­neh­men sicher­stel­len, dass sie das volle Poten­zial von AIOps aus­schöp­fen und ihre IT-Sys­teme effi­zi­en­ter und reak­ti­ons­fä­hi­ger machen. 

4.2 Situa­tio­nen, in denen AIOps mög­li­cher­weise nicht opti­mal ist 

Wäh­rend AIOps eine revo­lu­tio­näre Tech­no­lo­gie in der IT-Betriebs­welt dar­stellt, gibt es bestimmte Sze­na­rien, in denen es mög­li­cher­weise nicht der beste Ansatz ist. Ein sol­ches Sze­na­rio sind ein­ma­lige, nicht wie­der­keh­rende Pro­bleme. Diese sind oft unvor­her­seh­bar, da sie nicht durch his­to­ri­sche Daten oder wie­der­keh­rende Mus­ter gekenn­zeich­net sind. Ein klas­si­sches Bei­spiel hier­für ist ein mensch­li­cher Feh­ler bei der Kon­fi­gu­ra­tion eines Sys­tems, der zu uner­war­te­ten Aus­fäl­len füh­ren kann. 

Dar­über hin­aus gibt es Pro­bleme, die ein tie­fes mensch­li­ches Ver­ständ­nis und Fach­wis­sen erfor­dern. Diese kom­ple­xen Her­aus­for­de­run­gen kön­nen nicht allein durch Algo­rith­men gelöst wer­den. Zum Bei­spiel könnte ein spe­zi­fi­sches Geschäfts­pro­blem auf­tre­ten, das eine Anpas­sung der Geschäfts­lo­gik in einer Soft­ware­an­wen­dung erfor­dert. Sol­che Pro­bleme erfor­dern oft eine mensch­li­che Intui­tion und ein Ver­ständ­nis für das zugrunde lie­gende Geschäftsumfeld. 

Ein wei­te­rer Bereich, in dem AIOps an seine Gren­zen stößt, sind Pro­bleme, die eine phy­si­sche Inter­ven­tion erfor­dern. Einige Pro­bleme kön­nen nicht remote oder auto­ma­tisch gelöst wer­den. Ein Hard­ware-Aus­fall, bei dem eine kri­ti­sche Kom­po­nente ersetzt wer­den muss, ist ein sol­ches Bei­spiel. In sol­chen Fäl­len ist mensch­li­ches Ein­grei­fen unerlässlich. 

Schließ­lich gibt es situa­tive Ent­schei­dun­gen, die auf dem aktu­el­len Kon­text oder der spe­zi­fi­schen Situa­tion basie­ren. Diese Ent­schei­dun­gen sind oft nuan­ciert und kön­nen nicht leicht durch Daten oder Algo­rith­men vor­her­ge­sagt wer­den. Bei­spiels­weise könn­ten Ent­schei­dun­gen über IT-Bud­gets oder die Aus­wahl von Tech­no­lo­gie­part­nern je nach den aktu­el­len Geschäfts­an­for­de­run­gen und ‑zie­len variieren. 

Ins­ge­samt, obwohl AIOps in vie­len Berei­chen der IT-Betriebs­füh­rung Vor­teile bie­tet, ist es wich­tig zu erken­nen, dass es nicht für jede Situa­tion die ideale Lösung ist. 

4.3 Prak­ti­sches Bei­spiel 1 

Sze­na­rio 

In einem gro­ßen Finanz­un­ter­neh­men, das Online-Ban­king-Dienste für seine Kun­den anbie­tet, trat ein wie­der­keh­ren­des Pro­blem auf. 

Pro­blem 

Die Bank bemerkte, dass ihre Ser­ver wäh­rend der Gehalts­zah­lungs­zeit­räume am Monats­ende regel­mä­ßig über­las­tet waren. Dies resul­tierte in lang­sa­men Reak­ti­ons­zei­ten und gele­gent­li­chen Aus­fäl­len des Online-Ban­king-Sys­tems. Sol­che tech­ni­schen Schwie­rig­kei­ten führ­ten zu erheb­li­cher Unzu­frie­den­heit und zahl­rei­chen Beschwer­den der Kunden. 

AIOps-Lösung 

Um die­ses Pro­blem zu adres­sie­ren, griff das IT-Team der Bank auf AIOps-Tech­no­lo­gien zurück. Zunächst inte­grier­ten sie Daten aus einer Viel­zahl von Quel­len, dar­un­ter Ser­ver­logs, Anwen­dungs­logs, Netz­werk­ver­kehrs­da­ten und Daten­bank­trans­ak­tio­nen. Ein dar­auf­hin imple­men­tier­tes AIOps-Sys­tem über­wachte diese Daten kon­ti­nu­ier­lich in Echt­zeit. Durch Trai­ning auf nor­ma­lem Ver­hal­ten konnte das Sys­tem Anoma­lien, wie unge­wöhn­lich hohen Daten­ver­kehr oder Ser­ver­last, früh­zei­tig erkennen. 

Mit der Fähig­keit des maschi­nel­len Ler­nens iden­ti­fi­zierte das AIOps-Sys­tem Mus­ter in den Daten und erkannte, dass es regel­mä­ßig zu Spit­zen­be­las­tun­gen am Monats­ende kam, wenn Gehäl­ter aus­ge­zahlt wur­den. Auf Basis die­ser Erkennt­nisse konnte das Sys­tem zukünf­tige Spit­zen­be­las­tun­gen vor­her­sa­gen. Um sol­chen Belas­tungs­spit­zen pro­ak­tiv zu begeg­nen, wurde eine Auto­ma­ti­sie­rungs­funk­tion imple­men­tiert. Das AIOps-Sys­tem konnte so vor einer erwar­te­ten Spit­zen­last auto­ma­tisch zusätz­li­che Res­sour­cen, wie zusätz­li­che Ser­ver oder Daten­bank­in­stan­zen, bereit­stel­len – ein Pro­zess, der oft als „Auto-Sca­ling“ bezeich­net wird.

Dar­über hin­aus ermög­lichte das Sys­tem tie­fer­ge­hende Ana­ly­sen, um die Ursa­chen bestimm­ter Pro­bleme zu iden­ti­fi­zie­ren. Bei­spiels­weise konnte es inef­fi­zi­ente Daten­bank­ab­fra­gen iden­ti­fi­zie­ren, die zu den Ver­zö­ge­run­gen bei­tru­gen. Eine kon­ti­nu­ier­li­che Feed­back-Schleife sorgte dafür, dass das IT-Team stets über Erkennt­nisse und Aktio­nen des AIOps-Sys­tems infor­miert wurde. Dies ermög­lichte es dem Team, das Sys­tem regel­mä­ßig wei­ter zu trai­nie­ren und anzu­pas­sen, um seine Genau­ig­keit und Effek­ti­vi­tät ste­tig zu verbessern. 

Ergeb­nis 

Dank der Imple­men­tie­rung von AIOps konnte die Bank schließ­lich ihre Online-Ban­king-Dienste auch wäh­rend der Spit­zen­zei­ten zuver­läs­sig und effi­zi­ent anbie­ten. Dies führte zu einer deut­li­chen Stei­ge­rung der Kun­den­zu­frie­den­heit durch redu­zierte Aus­fall­zei­ten und ver­bes­serte Reak­ti­ons­zei­ten. Das IT-Team der Bank konnte nun pro­ak­tiv agie­ren und seine Res­sour­cen wesent­lich effi­zi­en­ter nut­zen, anstatt nur reak­tiv auf auf­tre­tende Pro­bleme zu reagieren. 

4.4 Prak­ti­sches Bei­spiel 2

Sze­na­rio 

Ein renom­mier­tes Unter­neh­men setzt Ser­viceNow als pri­märe IT Ser­vice Manage­ment (ITSM) Platt­form ein. Das IT-Team sieht sich täg­lich mit Hun­der­ten von Inci­dents kon­fron­tiert, die einer manu­el­len Über­prü­fung und Kate­go­ri­sie­rung bedür­fen. Ein Groß­teil die­ser Inci­dents tritt wie­der­holt auf und könnte auto­ma­ti­siert behan­delt wer­den. Aller­dings gestal­tet sich ihre effi­zi­ente Ver­wal­tung auf­grund des hohen Volu­mens und der Kom­ple­xi­tät als herausfordernd. 

AIOps-Lösung 

Um die­ser Her­aus­for­de­rung zu begeg­nen, wurde ein AIOps-Sys­tem imple­men­tiert, das kon­ti­nu­ier­lich Daten sowohl aus Ser­viceNow als auch aus ande­ren Über­wa­chungs­tools und Sys­tem­logs sam­melt. Mit Hilfe von maschi­nel­lem Ler­nen ist das Sys­tem in der Lage, Anoma­lien in den Daten zu erken­nen. Ein plötz­li­cher Anstieg von Inci­dents nach einem Soft­ware-Update, bei denen alle ein ähn­li­ches Pro­blem mel­den, wäre ein sol­ches Beispiel. 

Das AIOps-Sys­tem bie­tet zudem die Mög­lich­keit, ein­ge­hende Inci­dents in Ser­viceNow auto­ma­tisch zu kate­go­ri­sie­ren. Es nutzt die gesam­mel­ten Daten und erlern­ten Mus­ter, um den Schwe­re­grad des Inci­dents zu bestim­men und ihn dem zustän­di­gen Team zuzu­wei­sen. Für bekannte und wie­der­keh­rende Pro­bleme kann das Sys­tem auto­ma­tisch Lösungs­vor­schläge aus der Know­ledge Base von Ser­viceNow gene­rie­ren und diese dem zustän­di­gen Mit­ar­bei­ter oder sogar direkt dem End­be­nut­zer präsentieren. 

In bestimm­ten Fäl­len ist das AIOps-Sys­tem sogar in der Lage, pro­ak­tiv zu han­deln und ein Pro­blem zu behe­ben, bevor es zu einem Inci­dent eska­liert. Bei­spiels­weise könnte es auto­nom einen feh­ler­haf­ten Ser­ver neu star­ten oder einen erfor­der­li­chen Patch anwen­den. Das Sys­tem pro­fi­tiert von einer kon­ti­nu­ier­li­chen Feed­back-Schleife, indem es aus den in Ser­viceNow gelös­ten Inci­dents lernt und seine Algo­rith­men ent­spre­chend anpasst. Es kann auch Vor­schläge für lang­fris­tige Lösun­gen oder Ver­bes­se­run­gen machen, um wie­der­keh­rende Pro­bleme zu ver­hin­dern. Zusätz­lich bie­tet das AIOps-Sys­tem Dash­boards und Berichte, die Trends, häu­fig auf­tre­tende Pro­bleme und die Per­for­mance des IT-Teams visua­li­sie­ren. Dies ermög­licht den Füh­rungs­kräf­ten, fun­dierte Ent­schei­dun­gen zu tref­fen und die IT-Stra­te­gie ent­spre­chend anzupassen. 

Ergeb­nis 

Durch die naht­lose Inte­gra­tion von AIOps in Ser­viceNow konnte das Unter­neh­men seine IT-Inci­dents wesent­lich effi­zi­en­ter ver­wal­ten. Dies führte zu kür­ze­ren Lösungs­zei­ten und einer gestei­ger­ten Kun­den­zu­frie­den­heit. Das IT-Team kann sich nun stär­ker auf kom­ple­xere Her­aus­for­de­run­gen kon­zen­trie­ren, wäh­rend das AIOps-Sys­tem rou­ti­ne­mä­ßige und wie­der­keh­rende Auf­ga­ben auto­nom übernimmt.

5. Risi­ken und Her­aus­for­de­run­gen bei AIOps

Die Imple­men­tie­rung von AIOps in Unter­neh­men ver­spricht viele Vor­teile, bringt jedoch auch eine Reihe von Her­aus­for­de­run­gen und Risi­ken mit sich. Es ist ent­schei­dend, diese zu erken­nen und geeig­nete Stra­te­gien zu ent­wi­ckeln, um sie zu bewältigen. 

Daten­qua­li­tät und ‑inte­gri­tät 

Die Grund­lage für effek­tive AIOps und Smart Ope­ra­ti­ons bil­det die Qua­li­tät der Daten. Unge­naue oder unvoll­stän­dige Daten kön­nen zu feh­ler­haf­ten Vor­her­sa­gen oder Ent­schei­dun­gen füh­ren. Dies birgt das Risiko, dass Fehl­ent­schei­dun­gen getrof­fen wer­den, die wie­derum zu inef­fi­zi­en­ten Betriebs­ab­läu­fen füh­ren können. 

Kom­ple­xi­tät der Inte­gra­tion 

Die Inte­gra­tion von AIOps erfor­dert das Zusam­men­spiel ver­schie­de­ner Sys­teme, Tools und Daten­quel­len. Eine unzu­rei­chende Inte­gra­tion kann zu Daten­lü­cken und Inkon­sis­ten­zen füh­ren, was wie­derum inef­fi­zi­ente Pro­zesse zur Folge hat. 

Über­mä­ßige Abhän­gig­keit von Auto­ma­ti­sie­rung 

Wäh­rend Auto­ma­ti­sie­rung viele Vor­teile bie­tet, kann ein über­mä­ßi­ges Ver­trauen dar­auf dazu füh­ren, dass mensch­li­che Über­wa­chung und Ein­griffe ver­nach­läs­sigt wer­den. Dies kann beson­ders pro­ble­ma­tisch sein, da auto­ma­ti­sierte Sys­teme nicht feh­ler­frei sind und unvor­her­ge­se­hene Situa­tio­nen mög­li­cher­weise nicht rich­tig bewäl­ti­gen können. 

Wider­stand gegen Ver­än­de­run­gen 

Die Ein­füh­rung neuer Tech­no­lo­gien kann bei Mit­ar­bei­tern zu Unsi­cher­hei­ten füh­ren, ins­be­son­dere wenn sie befürch­ten, dass ihre Rol­len durch Auto­ma­ti­sie­rung ersetzt wer­den könn­ten. Die­ser Wider­stand kann die Imple­men­tie­rung und Akzep­tanz von AIOps erheb­lich ver­lang­sa­men oder gar verhindern. 

Sicher­heits­be­den­ken 

Neue Tech­no­lo­gien kön­nen auch neue Sicher­heits­ri­si­ken mit sich brin­gen. Unter­neh­men müs­sen sicher­stel­len, dass sie geeig­nete Sicher­heits­maß­nah­men ergrei­fen, um Daten­ver­let­zun­gen, Cyber­an­griffe oder den Miss­brauch von Auto­ma­ti­sie­rungs­funk­tio­nen zu verhindern. 

Hohe Anfangs­in­ves­ti­tio­nen 

Die Imple­men­tie­rung von AIOps erfor­dert erheb­li­che Inves­ti­tio­nen in Tech­no­lo­gie, Schu­lung und Pro­zess­ge­stal­tung. Wenn diese Imple­men­tie­rung nicht erfolg­reich ist, könn­ten diese Inves­ti­tio­nen ver­lo­ren gehen. 

Feh­lende Fach­kennt­nisse 

Die Ein­füh­rung von AIOps erfor­dert spe­zia­li­sier­tes Wis­sen in den Berei­chen KI, maschi­nel­les Ler­nen und Daten­ana­lyse. Ein Man­gel an die­sem Know-how kann zu inef­fi­zi­en­ten oder feh­ler­haf­ten Imple­men­tie­run­gen führen. 

Ska­lier­bar­keits­pro­bleme 

AIOps-Sys­teme müs­sen in der Lage sein, mit dem Wachs­tum eines Unter­neh­mens zu ska­lie­ren. Wenn sie dies nicht tun, kön­nen Leis­tungs­pro­bleme oder Sys­tem­aus­fälle auftreten. 

Feh­lende Stan­dar­di­sie­rung 

Da es mög­li­cher­weise keine fes­ten Stan­dards oder Best Prac­ti­ces für AIOps gibt, kön­nen Inkon­sis­ten­zen in der Imple­men­tie­rung auf­tre­ten. Dies kann zu Inte­gra­ti­ons­pro­ble­men und inef­fi­zi­en­ten Pro­zes­sen führen. 

Feh­lende Klar­heit über den ROI (Return on Invest­ment) 

Die Bestim­mung des genauen ROI von AIOps-Initia­ti­ven kann eine Her­aus­for­de­rung dar­stel­len. Unter­neh­men müs­sen sicher­stel­len, dass sie rea­lis­ti­sche Erwar­tun­gen an den Wert die­ser Initia­ti­ven haben. 

Abschlie­ßend ist zu sagen, dass die erfolg­rei­che Imple­men­tie­rung und der Betrieb von AIOps eine sorg­fäl­tige Pla­nung, kon­ti­nu­ier­li­che Über­wa­chung und die Bereit­schaft erfor­dern, sich an ver­än­dernde Bedin­gun­gen und Anfor­de­run­gen anzupassen.