
A monitoring nem tegnap született. Évtizedek óta ott van az IT-szervezetek eszköztárában — és minden korszakban ugyanazt tette: követte a komplexitást.
Amikor az infrastruktúra volt a fő kihívás, infrastruktúrát monitoroztunk. Amikor az alkalmazások kerültek előtérbe, APM-eszközöket vezettünk be. Amikor a felhő és a mikroszolgáltatások felrobbantották a rendszerek összetettségét, megszületett az observability fogalma.
Ez a folyamat ma sem állt meg.
A szervezetek egyre több AI-t futtatnak éles környezetben — chatbotokat, döntéstámogató rendszereket, automatizációkat, LLM-alapú folyamatokat. Az AI nem különálló projekt többé: beépült az üzleti működésbe.
Ez egy újabb kihívást teremtett, amelyre a monitoring evolúciójának következő lépése ad választ: az AI Observability.
Az evolúció állomásai
Hogy megértsük, mi az AI Observability és miért van rá szükség, érdemes végigkövetni azt az utat, amelyen az IT-monitoring az elmúlt évtizedekben átment.
- Az infrastruktúra korszaka
A monitoring az alapoknál indult: az 1990-es és 2000-es években a monitoring egyetlen kérdést tett fel: él-e a szerver? CPU, memória, hálózati forgalom. Ha ezek rendben voltak, az IT-csapat nyugodtan aludhatott. A rendszerek monolitikusak voltak, a hibák jól körülhatárolhatók. Egy bankfiók leállt, a helyi szerver újraindult, kész. Egy riasztás egy problémát jelzett, és egy csapat megoldotta.
Ez a modell jól működött, amíg az IT-környezet egyszerű és statikus maradt.
- Az alkalmazások előtérbe kerülése
A 2005 és 2012 közötti időszakban, a digitális szolgáltatások terjedésével az alkalmazások váltak az üzleti működés elsődleges csatornáivá. Megszületett az APM — az Application Performance Monitoring —, amely már nem csak azt mutatta, hogy él-e a szerver, hanem azt is, hogyan teljesít az alkalmazás, hol lassul le, hol szakad meg egy felhasználói folyamat.
A figyelem ekkor kezdett elmozdulni a technológiától az élmény felé.
- A komplexitás robbanása és az observability megjelenése
A következő töréspontot a 2015 és 2020 közötti időszak hozta, amikor a mikroszolgáltatások, a konténerizáció és a felhő alapjaiban változtatták meg az IT-architektúrák működését. Egy üzleti folyamat tucatnyi — néha százas nagyságrendű — komponensen futott át. Egy hiba már nem egyetlen rendszerben keletkezett, hanem láncreakcióként terjedt végig az architektúrán.
A 2018-as Amazon Prime Day leállása ezt példásan illusztrálta: az egyik belső rendszer, a Sable nevű számítási és tárolási szolgáltatás túlterhelése kaszkádszerű hibát okozott az autentikációtól a videólejátszásig több szolgáltatásban. A hiba feltérképezése órákat vett igénybe, miközben a CNBC belső dokumentumokra hivatkozva becslése szerint percenként 1,2 millió dolláros bevételkiesés keletkezett (CNBC, 2018).
Az observability erre adott választ: a logok, metrikák és trace-ek összekapcsolásával lehetővé vált a technikai ok-okozati összefüggések feltárása.
- A felhő és a valós idejű működés kora
A 2020 utáni időszak a felhő és a valós idejű működés kora lett. A hibrid és multi-cloud architektúrák normává váltak, az infrastruktúra percenként változik, a terhelés ingadozik. Számos szervezet szembesült azzal, hogy a hirtelen megnövekedett digitális forgalmat a korábbi eszközök már nem tudták értelmezni — jelezték, hogy valami lassabb lett, de nem tudták megmutatni, hol és miért. A Dynatrace State of Observability 2024 kutatása szerint a szervezetek 73%-a számolt be súlyos láthatósági vakfoltokról modern, elosztott architektúrákban. Az observability ebben a korszakban nem opcionális eszköz lett, hanem a működés fenntartásának feltétele.
Az újabb kihívás: AI fut a rendszerekben
Az evolúció nem állt meg 2020-ban. Ma egy új réteg épül rá az eddig ismert IT-architektúrákra: a mesterséges intelligencia.
Ez nem elméleti fejlemény. A Dynatrace State of Observability 2025 kutatása — amely 842 CIO-t, CTO-t és senior technológiai vezető bevonásával készült — megállapítja, hogy a megkérdezett szervezetek 100%-a használ már valamilyen formában AI-t az üzleti működésében. Chatbotok, döntéstámogató rendszerek, dokumentumelemző megoldások, LLM-alapú automatizációk — az AI beépült a napi folyamatokba.
Ez azonban egy minőségileg új kihívást jelent a monitoring szempontjából.
A hagyományos alkalmazásokkal szemben egy AI rendszer valószínűségi alapon működik. Ugyanarra a bemenetre különböző kimeneteket adhat, és ezek a kimenetek észrevétlenül befolyásolhatják az üzleti folyamatokat. Egy ügyfélszolgálati AI téves tájékoztatást adhat. Egy hitelminősítő modell elfogult döntést hozhat. Egy automatizált folyamatban egy LLM hibás kimenete továbbléphet a következő lépésre anélkül, hogy bárki észrevenné.
A Dynatrace AI Observability dokumentációja szerint az AI-rendszerek megfigyelésekor egészen más kérdéseket kell feltenni, mint a hagyományos alkalmazásoknál: milyen a modell válaszideje és pontossága, tapasztalható-e model drift (azaz a modell viselkedésének fokozatos eltolódása a várt működéstől), hogyan alakul a token-felhasználás és az azzal járó költség, és mi történik akkor, ha az AI-agent eszközöket hív meg vagy más agentekkel kommunikál.
Ahogy a 2000-es évek infrastruktúra-monitoringja nem tudta kezelni a mikroszolgáltatások komplexitását, úgy a jelenlegi observability eszközök sem adnak teljes képet arról, amit az AI csinál a rendszereinkben.
Ez az a pont, ahol már AI Observability-re is szükség van.
Mit jelent az AI observability?
Az AI Observability fogalmát a Dynatrace így definiálja: az AI-rendszerek, agentek és nagy nyelvi modellek (LLM-ek) telemetria-adatainak gyűjtése, elemzése és korrelációja annak érdekében, hogy valós időben láthatóvá váljon, hogyan viselkednek ezek a rendszerek minden környezetben, beleértve az éles üzemet is.
Ez a definíció fontos különbséget rejt magában.
A hagyományos observability a rendszer állapotát figyeli: él-e a szolgáltatás, mennyi a válaszidő, hány hiba keletkezett. Az AI Observability mindezeken túl azt is megfigyeli, amit az AI csinál: mit kap bemenetként, mit ad ki kimenetként, hogyan dönt, mennyibe kerül egy-egy válasz, és mikor tér el a várttól.
A Dynatrace dokumentációja alapján az AI Observability négy fő rétegen keresztül biztosít láthatóságot:
- A felhasználói oldalon látjuk, hogyan találkoznak az emberek az AI-alapú szolgáltatással, mit kérdeznek, mit kapnak válaszul, elégedettek-e az eredménnyel.
- Az AI döntési folyamatában nyomon követhető, hogyan épül fel egy prompt, milyen lépéseken megy végig az AI, mielőtt választ ad, és hol akad el vagy tér el a várttól.
- Az agentek szintjén láthatóvá válik, amikor több AI-agent együtt dolgozik: ki mit csinál, hogyan kommunikálnak egymással, és hol keletkezhet hiba az autonóm folyamatokban.
- Az infrastruktúrán mérhető, mennyibe kerül az AI futtatása, GPU-használat, memória, hálózati terhelés.
Mindez együtt biztosítja a jelenleg elérhető legnagyobb rálátást arra, amit az AI valójában csinál a rendszereinkben. Ugyanakkor nem terjed ki az AI-döntések teljes magyarázhatóságára. Arra, hogy miért hozott egy modell egy adott döntést, nem mindig adható egyértelmű válasz. Az agentic AI rendszereknél, ahol több AI-agent együtt, nem determinisztikus módon működik, a teljes körű nyomon követés még fejlődő terület (OpenTelemetry GenAI SIG, 2025).
Mit nyerek azzal, ha látom, amit az AI csinál?
Ez az a kérdés, amelyet érdemes feltenni még azelőtt, hogy bárki platformot választ, projektet indít vagy költségvetést tervez.
A válasz megértéséhez érdemes először tisztán látni, hol tartunk most, és hová tartunk.
Hol tart ma egy átlagos nagyvállalat?
A legtöbb szervezet ma még viszonylag egyszerű AI-megoldásokat futtat éles környezetben: ügyfélszolgálati chatbotokat, dokumentumelemző eszközöket, kódgenerálást, belső tudásbázis-keresőt. A Menlo Ventures 2025-ös kutatása szerint az enterprise szervezetek mindössze 16%-ánál futnak valódi AI-agentek — ahol az LLM önállóan tervez és hajt végre lépéseket. A többség egyszerű, fix szekvenciájú folyamatokat futtat egyetlen modellhívás köré építve.
Ez az állapot gyorsan változik. A GenAI-ra fordított vállalati kiadások a 2024-es 11,5 milliárd dollárról 2025-re 37 milliárd dollárra nőttek, ami 3,2-szeres növekedést jelent egyetlen év alatt (Portkey, 2026). A McKinsey adatai szerint a szervezetek 78%-a már legalább egy üzleti funkcióban alkalmaz AI-t, szemben a két évvel korábbi 55%-kal.
Hová tartunk pár éven belül?
Az iparági előrejelzések egyértelmű irányt mutatnak: az egyszerű copilot-eszközökről az autonóm, többlépéses AI-agent rendszerek felé haladunk. Ezek az agentek nem csak válaszolnak: önállóan döntenek, eszközöket hívnak meg, más agentekkel kommunikálnak, és üzleti folyamatokat visznek végig emberi beavatkozás nélkül. A Dynatrace State of Observability 2025 szerint az agentic AI várható ROI-ja 41% — ez az egyik legmagasabb szám az összes AI alkalmazási terület között.
Hol keletkezhet probléma?
Minél autonómabb az AI, annál nagyobb a tét, és annál láthatatlanabb a hiba.
Három tipikus kockázati pont:
- Az első a model drift. Az AI-modellek teljesítménye idővel csúszhat: a bemeneti adatok megváltoznak, a modell viselkedése lassan eltolódik a várt működéstől. Ez nem azonnal látható: hetek, hónapok alatt történik, és mire az üzleti hatás megjelenik, a forrás már nehezen visszakövethető.
- A második a költségrobbanás. Az LLM-hívások token-alapú árazása kiszámíthatatlan lehet. Egy rosszul optimalizált prompt, egy váratlan forgalomugrás vagy egy végtelen agent-hurok percek alatt súlyos költséget generálhat. Láthatóság nélkül ezek csak utólag derülnek ki.
- A harmadik az agentic hiba. Amikor több AI-agent együtt dolgozik, egy hibás döntés kaszkádszerűen terjedhet tovább a folyamatban. Az ember csak az eredményt látja — azt nem, hogy hol romlott el valami, és miért.
Hogyan védhető ki mindez?
Az AI Observability pontosan ezekre a kockázatokra ad választ. Valós idejű rálátást biztosít a modellek viselkedésére, a token-felhasználásra, az agent-döntésekre és azok üzleti hatására. Nem megakadályozza a hibákat, hanem láthatóvá teszi őket, mielőtt következményük keletkezne.
Záró gondolat
A monitoring történetének van egy visszatérő mintázata: minden új technológiai korszak új láthatósági igényt teremtett. Az infrastruktúra kora szülte a szerver-monitoringot. A digitális alkalmazások kora szülte az APM-et. A felhő és a mikroszolgáltatások kora szülte az observability-t.
Az AI kora most ugyanezt a lépést követeli meg. A különbség annyi, hogy most gyorsabban kell reagálni. Amíg az előző váltások évek alatt zajlottak le, az AI-alapú rendszerek terjedése hónapok kérdése. Aki látja, amit az AI csinál, irányítani tudja. Aki nem látja, csak reménykedhet, hogy nem okoz majd üzleti és reputációs kárt a szervezetnek.
Azok a szervezetek, amelyek ma elkezdik kiépíteni ezt a láthatóságot, előnnyel indulnak abban a versenyben, amelynek tétje nem az, hogy bevezessük-e az AI-t, hanem az, hogy irányítás alatt tudjuk-e tartani.
Források
- Dynatrace – AI Observability documentation: docs.dynatrace.com
- Dynatrace – State of Observability 2025 (842 CIO/CTO globális kutatás, Qualtrics): dynatrace.com
- Dynatrace – State of Observability 2024: dynatrace.com
- CNBC – Amazon Prime Day 2018 internal documents: cnbc.com
- Menlo Ventures – State of Generative AI in the Enterprise 2025: menlovc.com
- McKinsey – The State of AI 2025: mckinsey.com
- Portkey – Enterprise LLM Report 2026: portkey.ai
OpenTelemetry GenAI Semantic Conventions SIG, 2025: opentelemetry.io