
A mai üzleti környezetben az IT üzemeltetési csapatok folyamatos nyomás alatt dolgoznak. Szolgáltatási szintek teljesítése, incidensek kezelése, leállások megelőzése, hibakeresés és jegykezelés egyszerre zajlik, gyakran komplex, gyorsan változó infrastruktúrában. Ez a fajta „komplexitás-menedzsment” sok esetben elveszi az erőforrásokat az értékteremtő feladatoktól. Ezt a kihívást hivatott kezelni az AIOps.
Mi az AIOps?
Az AIOps, azaz Artificial Intelligence for IT Operations, egy olyan megközelítés, amely mesterséges intelligenciát és gépi tanulást alkalmaz az IT-üzemeltetési folyamatok támogatására és automatizálására.
Az AIOps célja, hogy az IT-rendszerekből, alkalmazásokból és infrastruktúrából származó nagy mennyiségű adatot elemezhetővé tegye, az események közötti összefüggéseket feltárja, és segítsen az incidensek okainak azonosításában.
A Gartner meghatározása szerint az AIOps a big data és a machine learning kombinációja, amely automatizálja többek között:
- az esemény korrelációt,
- az anomália felismerést,
- és az ok-okozati összefüggések meghatározását.
Fontos különbség az observability és az AIOps között, hogy míg az observability elsődleges célja a rendszerek működésének átláthatóvá tétele és értelmezése, addig az AIOps ezt a megértést használja fel operatív döntések támogatására és bizonyos esetekben automatizálására. Az observability megmutatja, mi történik a rendszerben és milyen összefüggések mentén alakulnak ki a problémák. Az AIOps erre az alapra építve priorizál, előre jelez, és javaslatot tesz a szükséges lépésekre az üzemeltetés oldaláról.
Az AIOps önmagában is képes értéket teremteni, ugyanakkor tartós és megbízható működése teljes körű, kontextusban értelmezett adatokra épül, amelyeket az observability biztosít.
AIOps gyakorlatok és tipikus felhasználási esetek
Az AIOps célja, hogy az IT üzemeltetés csapatok kezelni tudják a modern IT-környezetek növekvő komplexitását anélkül, hogy az üzemeltetés reaktívvá vagy túlterheltté válna. Ennek érdekében az AIOps több, jól körülhatárolható gyakorlatot támogat:
Proaktív incidens felismerés és megelőzés
Az AIOps nem kizárólag az aktuális állapotot figyeli. A historikus és valós idejű adatok elemzésével képes felismerni azokat a mintázatokat és eltéréseket, amelyek később tipikusan incidenshez, vagy szolgáltatás romláshoz vezethetnek.
Ez a proaktív megközelítés lehetővé teszi, hogy az IT csapatok még azelőtt beavatkozzanak, hogy a probléma érzékelhető hatással lenne a felhasználókra vagy az üzleti folyamatokra.
Riasztási zaj csökkentése
A monitoring eszközök gyakran nagy mennyiségű alertet generálnak, amelyek jelentős része egymással összefüggő eseményekből áll. Az AIOps event correlation segítségével ezeket az eseményeket összekapcsolja, kiszűri a false positive jelzéseket, és kontextusba helyezi az alerteket.
Ennek eredményeként az IT Operations csapatok kevesebb, viszont lényegesen relevánsabb riasztást kapnak, amelyeket gyorsabban és hatékonyabban tudnak kezelni.
MTTR (Mean Time to Resolution) csökkentése
Az AIOps egyik legfontosabb, mérhető üzleti értéke az MTTR (Mean Time to Resolution) vagyis az átlagos hibaelhárítási idő csökkentése. Az események közötti összefüggések feltárásával és a root cause azonosításának támogatásával az AIOps segít elkerülni a párhuzamos, egymástól független hibakezelést.
A fókusz a teljes probléma megoldására kerül, amely jellemzően gyorsabb incidenskezelést és rövidebb szolgáltatás kiesést eredményez.
Skálázhatóság az IT üzemeltetésben
A modern IT-környezetek nemcsak nagyobbak, összetettebbek is. Több service, több adat és több event jelenik meg, amelyeket manuálisan már nem lehet hatékonyan kezelni.
Megfelelő adatminőség és modellkarbantartás mellett az AIOps képes együtt skálázódni a környezettel, és releváns elemzéseket biztosítani akkor is, amikor az adatmennyiség és az események száma jelentősen megnő. Ez biztosítja, hogy az IT Operations működés hosszú távon is fenntartható maradjon.
Cross-domain visibility és együttműködés
Az AIOps érettebb megvalósítások esetén különböző domain-ekből származó adatokat integrál, például infrastruktúra, applikáció és network forrásokból. Ezek összekapcsolásával egységes képet ad az IT-környezet aktuális állapotáról.
A cross-domain visibility közös alapot teremt az IT Operations, DevOps és SRE csapatok számára, és támogatja az együttműködést a komplex incidensek kezelése során.
Hogyan működik az AIOps?
Az AIOps nem önálló rendszerként működik, hanem szorosan együttműködik a meglévő monitoring és observability platformokkal. Feladata, hogy az ezekből származó adatokat elemezze, összekapcsolja és értelmezhető formában az IT Operations számára hasznosítsa.
Az AIOps működése több, jól elkülöníthető lépésre bontható.
Adatgyűjtés
Az első lépés az adatok begyűjtése. Az AIOps különböző forrásokból ingestál adatokat, például:
- infrastruktúra és applikáció metrikák,
- logok,
- események és riasztások,
- tejlesítményadatok különböző rendszerekből és szolgáltatásokból.
Az AIOps hatékonysága nagymértékben függ attól, hogy milyen mennyiségű és minőségű adat áll rendelkezésre. A teljes környezet lefedése alapfeltétel ahhoz, hogy az AI-modellek pontos elemzéseket tudjanak készíteni.
Anomáliák felismerése
A begyűjtött adatokat az AIOps machine learning és AI modellek segítségével elemzi. Ezek a modellek a historikus és valós idejű adatok alapján meghatározzák, mi tekinthető normál működésnek az adott környezetben.
Amikor ettől eltérés történik, az AIOps anomáliákat és outlier-eket azonosít. Ez a képesség lehetővé teszi a problémák korai felismerését, még azelőtt, hogy azok incidenshez vagy szolgáltatásromláshoz vezetnének.
Event correlation
A modern IT-környezetekben egyetlen probléma gyakran több, egymással összefüggő event és alert formájában jelenik meg. Az AIOps feladata ezeknek az eseményeknek az összekapcsolása.
Az event correlation során az AIOps:
- felismeri, mely események tartoznak ugyanahhoz az incidenshez,
- csökkenti a duplikált és egymást ismétlő riasztásokat,
- segít kiszűrni a téves riasztásokat.
Ez jelentősen csökkenti az alert noise-t és támogatja az IT Operations hatékonyabb munkáját.
Contextual analysis és root cause insight
Az AIOps nem csupán eseményeket korrelál. A környezeti és topológiai adatok bevonásával kontextusba helyezi az eseményeket, és támogatja a root cause azonosítását.
Ebben a fázisban az AIOps megmutatja:
- mely komponensek érintettek,
- hogyan kapcsolódnak egymáshoz az események,
- honnan indult el a probléma,
- és milyen hatással van az incidens az üzleti működésre.
Ez a lépés gyorsítja az incidens investigation folyamatát és csökkenti a Mean Time to Resolution értékét.
Reagálás és automatizált beavatkozások
Az AIOps működésének utolsó lépése a reakció és az automatizáció támogatása. A rendszer képes:
- megoldási javaslatokat adni az IT csapatok számára,
- feladatokat létrehozni és kiosztani,
- automation workflow-kat indítani előre definiált szabályok és runbook-ok alapján.
Ez a képesség csökkenti a manuális beavatkozás szükségességét, és segít abban, hogy az IT üzemeltetés skálázható és fenntartható maradjon.
Milyen előnyöket nyújt az AIOps?
Az AIOps legnagyobb értéke az, hogy segít az IT Operations csapatoknak megelőzni, priorizálni és gyorsabban kezelni a problémákat egy egyre komplexebb IT-környezetben.
Proaktív működés és kevesebb kiesés
Az AIOps a valós idejű és historikus adatok elemzésével képes felismerni azokat a mintázatokat és anomaly-kat, amelyek később incidenshez vagy service degradation-höz vezethetnek. Ez lehetővé teszi a beavatkozást még azelőtt, hogy az üzleti működés sérülne.
Kevesebb alert, jobb fókusz
Az event correlation és contextual analysis révén az AIOps jelentősen csökkenti az alert noise-t. Az IT csapatok kevesebb, relevánsabb riasztást kapnak, így elkerülhető az üzemeltetői túlterheltség, és gyorsabbá válik az incidens triage.
Gyorsabb hibaelhárítás és alacsonyabb MTTR
Az AIOps támogatja a root cause gyors azonosítását az események és a környezeti kontextus összekapcsolásával. Ez lerövidíti az investigation idejét, csökkenti az MTTR-t, és kisebb üzleti kockázatot eredményez.
Automatizáció és skálázható IT üzemeltetés
Előre definiált runbook-ok és automation workflow-k segítségével az AIOps képes gyorsabb response-ra, akár manuális beavatkozás nélkül. Ez különösen fontos nagy, dinamikusan változó környezetekben, ahol a hagyományos üzemeltetési modell már nem skálázható.
Milyen kihívásokkal jár az AIOps bevezetése?
Sok szervezet ott követ el hibát az AIOps bevezetésénél, hogy technológiai problémának tekinti. Megvesz egy AIOps platformot, integrálja néhány adatforrással, majd gyors eredményeket vár. Ilyenkor hamar csalódás következik, és gyakran az hangzik el, hogy „az AIOps nem működik”.
A valóságban ilyenkor nem az AIOps nem működik, hanem a környezet nem áll készen rá.
Az első akadály szinte mindig az adatminőség. Az AIOps csak abból tud dolgozni, amit lát. Ha az observability adatok széttagoltak, hiányosak, rosszul taggeltek vagy több különálló eszközben élnek, az AI-modellek nem kapnak elég kontextust. Ilyenkor az anomaly detection pontatlan, az event correlation félrevezető, a következtetések bizonytalanok. AIOps ebben a helyzetben zajt próbál értelmezni.
Gyakori probléma a topology ismeretének hiánya is. Sok környezetben nincs tiszta kép arról, mely service mely database-hez kapcsolódik, milyen függőségek léteznek az alkalmazások között, és hol futnak ezek valójában. AIOps szempontból ez kritikus. Topológia nélkül az események összefüggései nem értelmezhetők, a root cause elemzés felszínes marad, az automation csak korlátozottan alkalmazható biztonságosan.
A következő kihívás az integration. Az AIOps akkor működik jól, ha gyorsan és megbízhatóan hozzáfér a releváns monitoring, observability és security adatokhoz. Emellett fontos az ITSM rendszerekkel való integráció is. Ha az AIOps nem illeszkedik a meglévő incidens management folyamatokhoz, az üzemeltetés oldalán inkább zavart okoz, mint segítséget.
Végül sok szervezetnél nem technológiai, hanem működési és szemléleti akadály jelenik meg. Az AIOps bevezetése ugyanis az IT üzemeltetés működésének átalakulását is jelenti. Az üzemeltetés fókusza fokozatosan elmozdul a manuális triage és eseti beavatkozások irányából a folyamatos, adatvezérelt döntéstámogatás felé. Ez a működés megköveteli, hogy az IT üzemeltetés, DevOps és SRE csapatok közös adatképre és közös értelmezési keretre támaszkodjanak. Ez bizalmat igényel az adatok minősége, a modellek következtetései és az automatizált javaslatok iránt, valamint egyértelmű felelősségi köröket követel meg az automatizmusok használatában.
Összegzés
Az AIOps arra ad választ, hogyan tartható kézben egy egyre összetettebb IT-környezet anélkül, hogy az üzemeltetés folyamatos tűzoltássá válna. Az események összekapcsolásával, a problémák gyorsabb értelmezésével és az automatizáció támogatásával az AIOps segít fókuszáltabban és kiszámíthatóbban működni.
A működő AIOps alapja a megfelelő minőségű, összefüggéseiben értelmezett observability adat. Teljes és kontextusban értelmezhető adatok nélkül az AI nem tud megbízható következtetéseket levonni. Azok a szervezetek tudják valóban kihasználni az AIOps előnyeit, amelyek először átláthatóvá tették a rendszereiket, majd erre építve léptek tovább az automatizáció irányába.
A Telvice Zrt. abban támogatja ügyfeleit, hogy az AIOps és az observability ne különálló technológiák legyenek, hanem tudatosan felépített működési képességgé váljanak.
Készüljön fel a növekvő komplexitás és az AI-alapú IT-üzemeltetés kihívásaira a Telvice tapasztalatával! Vegye fel velünk a kapcsolat, és kérjen szakértőinktől ingyenes konzultációt vagy demót!
Források:
Dynatrace – How an AIOps strategy unlocks new possibilities for automation and customer satisfaction (Dynatrace blog)
Datadog – What is AIOps? (Datadog Knowledge Center)Dynatrace – AIOps platform overview (Dynatrace platform bemutató)