Gå tillbaka

SRE (Site Reliability Engineering)

Vad är SRE (Site Reliability Engineering)?

SRE (Site Reliability Engineering) är en disciplin som tillämpar mjukvaruutvecklingens principer på drift och förvaltning av IT-system. Konceptet, som uppstod på Google, syftar till att göra tjänster mer tillförlitliga, skalbara och effektiva genom att automatisera det som annars skulle vara manuellt driftarbete.

Centrala begrepp inom SRE

  • SLI (Service Level Indicator): Ett mätvärde på tjänstens prestanda, t.ex. svarstid eller felfrekvens.
  • SLO (Service Level Objective): Ett internt mål för en SLI, t.ex. 99,9 % tillgänglighet.
  • SLA (Service Level Agreement): Det avtalade löftet till kunden, med konsekvenser om det inte hålls.
  • Error budget: Den tillåtna mängden opålitlighet, som balanserar nyutveckling mot stabilitet.

SRE i praktiken

  • Minska toil: Eliminera repetitivt manuellt arbete genom automation.
  • Observability: Bygg in observerbarhet med loggar, mätvärden och spårning.
  • Incidenthantering: Strukturerad respons och blamefria postmortems för ständig förbättring.

SRE överlappar med DevOps men har ett tydligare fokus på mätbar tillförlitlighet. Tankesättet är centralt i hur Advania levererar stabil IT-drift och managerade tjänster med hög tillgänglighet.