Mi az az observability? – A lényeg érthetően

Mi az az observability? – A lényeg érthetően - observability
Az IT-ban az „observability” (láthatóság) azt jelenti, hogy egy rendszer belső állapota és működése a kimeneti adatok (pl. logok, metrikák, trace-ek) alapján átfogóan megérthető és elemezhető. A monitoringgal ellentétben, ami az előre definiált metrikák és riasztások figyelésére épül, az „observability” lehetővé teszi, hogy ismeretlen problémákat is feltárja a rendszer viselkedésének mélyebb, összefüggés-alapú elemzésével (pl. logok, metrikák és trace-ek együttes vizsgálatával). 

Cikkünkben közérthetően magyarázzuk el az observability lényegét.

Monitoring és observability – mi a különbség valójában?

A monitoring (Zabbix, Nagios, Grafana stb.) évtizedek óta az IT alapeszköze. Megmondja, ha a szerver leállt, ha a válaszidő megugrik, ha egy szolgáltatás nem elérhető. Ehhez azonban előre meg kell határozni, hogy mit figyeljen – milyen metrikákat gyűjtsön, milyen küszöbértékekre riasszon.

Ez a megközelítés addig működött jól, amíg a rendszerek viszonylag egyszerűek voltak.

Az observability ezzel szemben lényegesen kevesebb előzetes konfiguráció nélkül is megmutatja, mi romlott el és hol. Emiatt a beállítása és testreszabása is sokkal egyszerűbb, és pontosabb képet ad, mint a hagyományos monitoring.

Ezt három adattípus együttes kezelésével teszi: metrikák, logok és trace-ek. Mindhárom más-más nézőpontból mutatja meg ugyanazt a rendszert – együtt azonban olyan összefüggések válnak láthatóvá, amelyeket külön-külön egyik sem tudna feltárni.

Ha a monitoring GPS-koordinátát ad, az observability a teljes térképet mutatja meg.

Az observability fogalma

A fogalmat Rudolf E. Kálmán magyar-amerikai mérnök vezette be a vezérléselméletben – és ott pontosan azt jelenti: mennyire lehet egy rendszer belső állapotát megbecsülni csupán a külső kimenetek ismerete alapján.

Az IT ezt a gondolatot vette át. Az IT-ben az observability egy rendszer azon tulajdonsága, amely megmutatja, mi történik belül – a kívülről mérhető adatok alapján. Azt teszi lehetővé, hogy éles működés közben is látható legyen a rendszer állapota, és gyorsan kiderüljön, miért nem működik valami megfelelően.

A vezérléselméletből jön egy másik fontos összefüggés is: az observability és a controllability – az irányíthatóság – egymás párjai. Csak azt lehet irányítani, amit látunk. Erről Darabos Tamás, a Telvice vezérigazgató-helyettese részletesen is ír.

A Telvice saját definíciója: Az observability a digitális vállalati ökoszisztéma folyamatos öndiagnosztikai képessége. Azonnal jelzést ad, ha veszélybe kerül a stabilitás. Megmutatja egy esetleges hibának a teljes összefüggésrendszerét, ezzel azt is, hogy hol kell beavatkozni.

Hogyan működik?

Egy orvos sem elégszik meg azzal az információval, hogy a beteg lázas. Tudni akarja, mi okozza, ezért rendel el vérképet, képalkotót, egyéb vizsgálatot. Nem izolált tünetet kezel, összefüggéseket keres.

Az observability ugyanígy gondolkodik. A rendszer három forrásból olvas egyszerre: metrikákból, amelyek megmutatják, hogyan teljesít; naplókból, amelyek rögzítik, mi történt és mikor; valamint trace-ekből, amelyek végigkövetik, hogyan haladt egy kérés a rendszer különböző részein át. Ezek az adatok önmagukban is hasznosak, együtt azonban olyat tárnak fel, amit külön-külön egyik sem tudna megmutatni: a teljes összefüggésrendszert.

Erről bővebben olvashat AIOps és observability kapcsolatáról szóló cikkünkben is.

Mikor van rá szükség?

Három szituáció van, ahol az observability szükségessége a legélesebben megjelenik.

Az első: amikor már nincs olyan ember a szervezetben, aki faltól falig átlátja az IT-t. A modern nagyvállalati rendszerek annyira összetetté váltak, hogy ez ma szinte minden 500 főnél nagyobb szervezetnél így van. A kiszámítható IT működés megteremtéséhez ez az átláthatóság elengedhetetlen.

A második: amikor az online ügyfélkiszolgálás (vagy egyéb kritikus folyamat) megszakadása vagy lassulása közvetlen üzleti következménnyel jár. Ilyenkor minden elvesztegetett perc számít. Az observability ebben az esetben nemcsak a hibák gyorsabb megtalálásában segít, hanem abban is, hogy a szervezet bátrabban tudjon újítani.

A harmadik: amikor a digitális működés költségei áttekinthetetlenné válnak. Nem látszik, hogy valójában mennyibe kerül egy-egy rendszer üzemeltetése, hol folynak el feleslegesen az erőforrások, és hol lenne érdemes optimalizálni. Az observability és az OPEX csökkentés kapcsolatáról külön cikkben is írunk.

Hogyan zajlik a bevezetés?

A legtöbb szervezetnél már vannak monitoring eszközök, vannak adatok. A kérdés csak az, hogy ezek szétszórtan, egymástól elszigetelve működnek, vagy egyetlen helyen, összefüggéseikben láthatóak. A bevezetés logikája ezért egyszerű: először össze kell gyűjteni, ami van. Aztán össze kell kötni. Aztán üzleti kontextusba helyezni. Ezáltal látható, hogy egy technikai jelzés milyen üzleti folyamatot érint, melyik szolgáltatást lassítja, és hol kell beavatkozni.

Ez az a pont, ahol a Single Source of Truth szemlélete és a business observability összeér: a technikai adatok üzleti döntések alapjává válnak.

Erre ma számos platform áll rendelkezésre – a Telvice a két piacvezető megoldással, a Dynatrace-szel és a Datadog-gal dolgozik.

Mi az az observability? – A lényeg érthetően - observability

Aki mélyebbre szeretne menni, hallgassa meg podcast adásunkat – ahol ezeket a kérdéseket 35 percben, gyakorlati szemszögből járjuk körbe. 

Források