AI & INNOVATION
SRE (Site Reliability Engineering)
Vad är SRE (Site Reliability Engineering)?
SRE (Site Reliability Engineering) är en disciplin som tillämpar mjukvaruutvecklingens principer på drift och förvaltning av IT-system. Konceptet, som uppstod på Google, syftar till att göra tjänster mer tillförlitliga, skalbara och effektiva genom att automatisera det som annars skulle vara manuellt driftarbete.
Centrala begrepp inom SRE
- SLI (Service Level Indicator): Ett mätvärde på tjänstens prestanda, t.ex. svarstid eller felfrekvens.
- SLO (Service Level Objective): Ett internt mål för en SLI, t.ex. 99,9 % tillgänglighet.
- SLA (Service Level Agreement): Det avtalade löftet till kunden, med konsekvenser om det inte hålls.
- Error budget: Den tillåtna mängden opålitlighet, som balanserar nyutveckling mot stabilitet.
SRE i praktiken
- Minska toil: Eliminera repetitivt manuellt arbete genom automation.
- Observability: Bygg in observerbarhet med loggar, mätvärden och spårning.
- Incidenthantering: Strukturerad respons och blamefria postmortems för ständig förbättring.
SRE överlappar med DevOps men har ett tydligare fokus på mätbar tillförlitlighet. Tankesättet är centralt i hur Advania levererar stabil IT-drift och managerade tjänster med hög tillgänglighet.