Failover är en automatisk mekanism som flyttar drift och trafik från ett primärt system till ett sekundärt standby-system vid fel, krasch eller underhåll. Syftet är att minimera avbrott och hålla tjänster tillgängliga.

Vad är skillnaden mellan active-active och active-passive failover?

Vid active-passive (hot standby) hanterar bara det primära systemet trafik medan standby-systemet väntar. Vid active-active hanterar båda systemen trafik parallellt, vilket ger bättre resursutnyttjande men kräver mer komplex konfiguration.

Vad betyder RTO och RPO i samband med failover?

RTO (Recovery Time Objective) anger maximal acceptabel tid för att återställa en tjänst. RPO (Recovery Point Objective) anger maximal acceptabel dataförlust mätt i tid. Båda påverkar vilken typ av failover-lösning som krävs.

Hur fungerar failover i molnmiljöer?

Molnleverantörer som Azure, AWS och Google Cloud erbjuder inbyggda failover-funktioner via availability zones, geo-redundans, load balancers och managed database failover som automatiskt dirigerar trafik bort från ohälsosamma instanser.

Gå tillbaka

Failover

Vad är failover?

Failover är en automatisk mekanism som flyttar drift och trafik från ett primärt system till ett sekundärt standby-system när det primära systemet drabbas av ett fel, en krasch eller planerat underhåll. Syftet är att minimera avbrott och säkerställa att tjänster och applikationer förblir tillgängliga – ofta utan att slutanvändarna märker någon skillnad.

Begreppet används inom allt från servrar och databaser till nätverkskomponenter och molnmiljöer. Failover är en central del av varje business continuity plan (BCP) och nära kopplat till disaster recovery.

Hur fungerar failover?

En failover-lösning bygger på att det finns minst två instanser av samma system: en aktiv (primär) och en passiv (sekundär). Den passiva instansen övervakar den primära kontinuerligt genom så kallade heartbeat-signaler eller hälsokontroller. Om den primära instansen slutar svara – till exempel på grund av ett hårdvarufel, mjukvarukrasch eller nätverksavbrott – tar den sekundära instansen automatiskt över.

Processen ser typiskt ut så här:

Detektion – Övervakningssystemet upptäcker att det primära systemet inte svarar inom en fördefinierad tidsram.
Beslut – Failover-logiken bedömer om felet är tillfälligt (flapping) eller permanent och beslutar om övergång.
Växling – Trafik, sessioner och arbetsbelastning dirigeras om till standby-systemet. I bästa fall sker detta på sekunder.
Notifiering – IT-teamet meddelas om att en failover har ägt rum så att rotorsaken kan utredas.

Typer av failover

Det finns flera varianter beroende på krav och infrastruktur:

Hot standby (active-passive) – Det sekundära systemet är igång och synkroniserat men hanterar ingen trafik förrän en failover triggas. Vanligast för databaser och affärskritiska applikationer.
Active-active – Båda systemen hanterar trafik parallellt. Om ett system faller bort tar det kvarvarande systemet hela lasten. Ger bättre resursutnyttjande men kräver mer avancerad konfiguration.
Cold standby – Det sekundära systemet är avstängt och måste startas manuellt eller automatiskt vid behov. Billigare men med längre återställningstid.
DNS-baserad failover – DNS-poster uppdateras för att peka trafik till en annan server eller region. Enkelt men begränsat av DNS-cache och TTL-värden.

Failover i molnmiljöer

I moderna molnmiljöer har failover blivit enklare att implementera men också mer komplext att designa rätt. Molnleverantörer som Microsoft Azure, AWS och Google Cloud erbjuder inbyggda failover-funktioner:

Availability Zones – Redundanta datacenter inom samma region med automatisk failover.
Geo-redundans – Failover mellan regioner för att skydda mot regionala katastrofer.
Load balancers – Automatisk trafikdirigering bort från ohälsosamma instanser.
Managed database failover – Tjänster som Azure SQL och Amazon RDS erbjuder automatisk failover för databaskluster.

Failover vs. disaster recovery

Failover och disaster recovery (DR) överlappar men är inte samma sak. Failover är den tekniska mekanismen som automatiskt växlar till ett reservsystem – ofta inom sekunder. Disaster recovery är den bredare strategin för att återställa hela IT-miljön efter en allvarlig incident, vilket kan inkludera failover som en komponent.

I praktiken ingår failover som en del av en DR-plan, tillsammans med backup, kommunikationsrutiner och testning.

Viktiga begrepp kopplade till failover

RTO (Recovery Time Objective) – Maximal acceptabel tid för att återställa en tjänst efter avbrott.
RPO (Recovery Point Objective) – Maximal acceptabel dataförlust mätt i tid (hur gammalt det senaste sparade datat får vara).
Failback – Processen att flytta tillbaka driften till det ursprungliga primära systemet efter att felet har åtgärdats.
SLA – Service Level Agreements specificerar ofta krav på tillgänglighet som direkt påverkar failover-designen.

Varför failover är affärskritiskt

Oplanerade driftstopp kostar. Enligt branschrapporter kan en timmes avbrott kosta allt från hundratusentals till miljontals kronor beroende på verksamhet. Failover minskar risken för intäktsbortfall, produktivitetsförlust, skadat varumärkesförtroende och SLA-brott.

För organisationer inom exempelvis finanssektorn, sjukvården och offentlig sektor finns dessutom regulatoriska krav på tillgänglighet som gör failover till ett måste – inte ett val.

DIGITAL MOTSTÅNDSKRAFT

Hur snabbt är er verksamhet igång igen efter ett avbrott?

Utforska digital motståndskraft