Teljesítmény vagy biztonság? Így biztosítja az Observability mindkettőt

Az IT-vezetők nap mint nap kompromisszumokat kötnek: vagy gyors a rendszer, vagy biztonságos. Vagy megfelelünk a szabályozásoknak, vagy tudunk fejleszteni. A komplex, gyorsan változó környezetekben (multi-cloud, Kubernetes, CI/CD) egyensúlyozás helyett valódi kontrollra van szükség. A jó hír az, hogy a technológiai környezet azonban mára elérte azt az érettségi szintet, ahol ezek a kompromisszumok elkerülhetők. Egyetlen, egységes observability platform képes lefedni azokat a feladatokat, amelyekre korábban több eszköz sem adott teljes körű választ.

Ebben a cikkben konkrét példákon keresztül mutatjuk be, hogyan lehet az IT-t újra irányíthatóvá tenni, kompromisszumok nélkül.

Teljesítmény és biztonság egyszerre, egy platformon

A technológiai környezet érettsége ma már lehetővé teszi, hogy a digitális rendszerek gyorsasága és védelme nem zárják ki egymást.
A kulcs az, hogy a teljesítménnyel, felhasználói élménnyel és biztonsággal kapcsolatos adatok egy helyen jelennek meg, nem széttöredezett rendszerekben.
Ez teremti meg az egységes értelmezést és a gyors, célzott reakció képességét.

De mit is jelent a teljesítmény és a biztonság a mindennapi működésben? Egy lassuló tranzakciós szolgáltatás mögött gyakran nem látható azonnal, hogy az adatbázis oldali erőforrás terhelés nőtt-e meg, vagy hogy egy elosztási hiba miatt az európai felhasználók kérései egy másik kontinensen futnak végig. Ezek az anomáliák elsőre aprónak tűnnek, de valós felhasználói élményromlást és bevételkiesést okozhatnak.

Hasonló a helyzet a biztonsági oldalról: egy nyilvánosan elérhető API-hívásban elrejtett sebezhetőség, vagy egy hibás Kubernetes-konfiguráció következményei csak akkor derülnek ki időben, ha a rendszer összefüggéseiben képes értelmezni az eseményeket. Egy új dependency frissítéssel bekerülő sérülékenység pedig könnyen észrevétlen maradhat, ha nincs olyan megfigyelőrendszer, ami nemcsak listázza, de értékeli is a valós kockázatot.

Ezekben a helyzetekben a döntés gyorsasága és pontossága attól függ, hogy az adatok technikai, biztonsági és üzleti szinten is egyetlen kontextusban értelmezhetők-e.

Íme négy példa arról, hogy a Dynatrace hogyan segít megoldani a biztonsági problémákat:

1. Ingress Nightmare – kritikus sebezhetőség Kubernetes környezetben

2025 márciusában több európai vállalat DevOps-csapatai egyszerre kapták fel a fejüket: napvilágra került egy új sebezhetőséglánc, amely az Ingress-NGINX Controller-t – a Kubernetes-alkalmazások egyik legkritikusabb belépési pontját – érintette. A neve: IngressNightmare. A komponens a Kubernetes klaszterek bejáratát kezeli, és az internet felől érkező forgalmat irányítja a megfelelő szolgáltatásokhoz. A legsúlyosabb CVE-2025-1974 sebezhetőség távoli kódfuttatást tesz lehetővé, akár Kubernetes API hozzáférés nélkül is.

Mi volt a kockázat?
A támadó az ingress-nginx controller egyik gyenge pontján keresztül fájlokat tudott feltölteni a rendszerbe, és a belső nginx konfigurációs parancsokat kihasználva futtathatta is ezeket. Így néhány láncolt lépésen keresztül teljes klaszter szintű kompromittálást lehetett elérni – jogosulatlan hozzáféréssel, adatlopással, vagy akár további támadások kiindulópontjaként.

Hogyan kezelték Dynatrace nélkül?

Ahol nem volt egységes rálátás a klaszter állapotára és a kapcsolódó szolgáltatásokra, ott napokba telt, mire azonosították a problémás komponenseket.

Ahol egységes, Dynatrace observability platform működött, ott viszont:

A platform automatikusan azonosította, mely podok futnak a kritikus CVE-2025-1974-es verzióval, és azt is megmutatta, hogy ezekhez mely szolgáltatások kapcsolódnak. A legfontosabb: a trace-ek alapján az is kiderült, hogy ezek a szolgáltatások éppen elérhetők voltak az internet felől.

Az incidensmenedzsment-csapat azonnal elkülönítette a kritikus komponenseket, majd egy előre definiált workflow alapján elindította a frissítést. Mindezt úgy, hogy közben végig látták: milyen szolgáltatások érintettek, mely ügyfélfolyamatokra van hatással a beavatkozás, és milyen SLA-ket kell védeniük. Itt a teljes folyamat lezajlott néhány óra alatt – nulla adatvesztéssel, nulla reputációs kárral, nulla üzleti kieséssel.

2. Apache Struts 2 – amikor a sérülékenység nem látszik a felszínen

2024 végén az Apache Struts 2 sebezhetősége már jelen volt a rendszerekben. A vállalatok azonban semmi szokatlant nem tapasztaltak. Az alkalmazások kiszolgálták a felhasználókat, nem volt teljesítményprobléma, semmilyen nyoma nem volt támadásnak – minden a megszokott rendben zajlott.

A CVE-2024-53677 kód alatt nyilvánosságra hozott hiba ugyanakkor lehetőséget adott arra, hogy egy támadó – a fájlfeltöltési folyamatot manipulálva – rosszindulatú fájlokat helyezzen el a kiszolgálón, majd azokat távolról végrehajtsa. A klasszikus RCE (Remote Code Execution) támadás egyik legnehezebben észlelhető formája – különösen olyan környezetekben, ahol nincs folyamatos, kontextus-alapú megfigyelés.

Ahol nem volt observability
Sok szervezetnél a probléma még hetekig rejtve maradt. Nem jelentkeztek hibák, a naplók nem mutattak kiugró eltérést, és a biztonsági riasztások is elmaradtak. A támadás csak akkor vált láthatóvá, amikor már megtörtént: gyanús fájlok jelentek meg a szerveren, szokatlan parancsokat futtatott a rendszer, vagy a felhasználók jogkörei módosultak. A kiváltó ok visszakövetése pedig napokba telt – ha egyáltalán sikerült.

Ahol egységes Dynatrace observability platform működött
Azoknál a szervezeteknél, ahol a Dynatrace Runtime Vulnerability Analytics aktívan futott, más volt a forgatókönyv. A platform:

azonnal azonosította az érintett Struts 2 verzióval működő alkalmazásokat,
jelezte, ha a sebezhető metódus aktív végrehajtási útvonalra került,
riasztott, amikor a támadási feltételek (pl. nem megbízható fájlfeltöltés + végrehajtható útvonal) egyszerre teljesültek.

A biztonsági csapat így már a támadás előfeltételeinél közbe tudott lépni. A sebezhetőség nem maradt észrevétlen, és nem jutott el a kihasználásig.

3. CrowdStrike-frissítés – globális leállás a Windows rendszerekben

2024 júliusában egy péntek reggel különösen csendesen indult – legalábbis első ránézésre. Aztán az IT-vezetők képernyőin elkezdtek sorakozni a riasztások: kék halál Windows rendszereken, leállt szolgáltatások, elsötétült ügyfélfelületek. Nem egy vállalatnál, hanem világszerte, egyszerre.

Kiderült: a CrowdStrike egyik frissítése – egy biztonsági érzékelő logikai hibája – olyan módon küldött konfigurációt a Windows rendszerekre, amely azonnali összeomlást okozott. A cél eredetileg jogos volt: egy új típusú C2-alapú támadási mintát próbáltak szűrni. De a frissítés hibás formátuma miatt több mint 8 millió gép állt meg néhány óra alatt.

A hiba nem volt támadás, mégis katasztrófa-szerű működési zavarokat okozott. Kórházi rendszerek álltak le, repülőjáratokat töröltek, banki háttérrendszerek váltak elérhetetlenné. Az informatikai csapatok első kérdése mindenhol ugyanaz volt: mely gépeket érinti, és hol kell azonnal beavatkozni?

Ahol nem volt observability
A legtöbb helyen manuálisan indult a hibaelhárítás. Listákat kértek be, auditálták a CrowdStrike verziókat, logokat gyűjtöttek és próbálták összekötni, hogy mely rendszereken omlott össze a kernel. A legnagyobb kihívás: nem a hiba javítása, hanem az érintett kör azonosítása volt.

Az idő telt, a rendszerek álltak, a kockázatok nőttek – reputációs, pénzügyi, operatív szinten is.

Ahol egységes Dynatrace observability platform működött
Azoknál a vállalatoknál, ahol Dynatrace futott, a kérdésre már megvolt a válasz. A platform:

azonnal láthatóvá tette, mely hostokat érintette a hiba,
kirajzolta a szolgáltatási topológiát, így elsőként a kritikus rendszereket tudták izolálni,
és a hiba hatását összekapcsolta a felhasználói élmény és üzleti folyamatok állapotával.

A hibaelhárítás nem azzal kezdődött, hogy „hol a baj?”, hanem azzal, hogy „hol kell elsőként beavatkozni”? Ezáltal a válsághelyzetet teljes rálátással, célzott lépésekkel tudták kezelni.

Log4Shell sérülékenység

2021 decemberében egy technikai blogbejegyzés váratlanul globális biztonsági válságot indított el. Nyilvánosságra került, hogy a rendkívül elterjedt Apache Log4j naplózókönyvtár kritikus sérülékenységet tartalmaz. A hír gyorsabban terjedt, mint ahogy a legtöbb szervezet reagálni tudott volna. A sebezhetőség – CVE-2021-44228, közismertebb nevén Log4Shell – olyan egyszerűen volt kihasználható, hogy a támadók azonnal rámozdultak. Nem kellett hozzá jelszó, nem kellett hozzá kód, elég volt egy speciálisan formázott szöveg egy HTTP-fejlécben vagy logolt adatmezőben.

A Log4j automatikusan értelmezte a benne lévő JNDI-hivatkozást, például egy LDAP URL-t, és minden további ellenőrzés nélkül lekérte és végrehajtotta a támadó által megadott Java-kódot. Ez nemcsak távoli kódfuttatást jelentett, hanem teljes rendszerhozzáférést, mindezt naplózáson keresztül.

Ahol nem volt observability
A legtöbb IT-csapatnak fogalma sem volt róla, hány alkalmazás, konténer vagy microservice használja a Log4j-t – és főként azt nem tudták, hogy ezek közül melyek érhetők el az internet felől. A sebezhetőséget szoftverfrissítés nélkül is ki lehetett használni. A javítások felkutatása, tesztelése és telepítése hetekbe telt – sok esetben úgy, hogy az érintettség ténye sem volt biztos.

Mire a szervezetek beazonosították, mely rendszereik futtatják a sérülékeny verziót, addigra több esetben már kompromittált gépekkel kellett számolniuk.

Ahol egységes Dynatrace observability platform működött
Jól működő observability platform esetében nem volt szükség manuális auditokra. A platform:

automatikusan feltérképezte az összes Log4j-t használó komponenst,
valós időben azonosította, melyek érintettek közülük,
és megmutatta, hol vannak ezek publikus interfészen keresztül elérhetővé téve.

Továbbá azonnal riasztott, ha a támadási minta – például egy tipikus JNDI exploit string – megjelent a naplózott kérések között. Így a biztonsági csapatok nemcsak gyorsan léphettek, hanem pontosan tudták, hol kell közbeavatkozni.

Összegzés

Az elmúlt évek tanulsága világos: a kockázatok gyorsabban érkeznek, mint a manuális reakció. A modern IT-környezetek túl összetettek ahhoz, hogy különálló eszközökkel, részleges információk alapján próbáljuk értelmezni, mi történik. Az egységes observability nem egy újabb eszköz a listán. Ez az alapréteg, amire a megbízható működés, az üzleti biztonság és a gyors döntések épülnek. Az observability segítségével egyszerre növelhető az üzleti teljesítmény és a biztonság. A Telvice célja, hogy partnereit olyan technológiai megoldásokhoz segítse, amelyek hosszú távon is fenntartható, biztonságos és hatékony IT-működést tesznek lehetővé. Amennyiben érdekel a szolgáltatásunk, kérj díjmentes DEMÓ-t, vagy szakértői konzultációt!

Mizsei János

A szerző

János a Dynatrace hazai nagykövete és vezető observability szakértő. Több mint 20 éve dolgozik az IT iparágban, kiemelkedő tapasztalattal rendelkezik a biztosítók és bankok IT rendszereinek monitoringjában és stabilizálásában. Meggyőződése, hogy a Dynatrace megoldásai jelentősen javítják az ügyfélélményt, és növelik az IT rendszerek megbízhatóságát. 2024-ben elnyerte a Dynatrace közösség Community RockStar díját, amelyet Las Vegasban, a cég éves konferenciáján vehetett át. Szabadidejében a természet szerelmese, különösen az európai hegyvidéki tavak körüli túrázást kedveli.