Gå tillbaka

Self-hosted LLM

Q: Vilken hårdvara krävs?

En 7B-modell kan köras på en enstaka GPU, medan 70B+ kräver flera GPU:er.

Q: Vad är kvantisering?

Kvantisering reducerar modellens numeriska precision vilket minskar minnesbehovet kraftigt med begränsad påverkan på kvaliteten.

Vad är Self-hosted LLM?

Self-hosted LLM innebär att en organisation kör en stor språkmodell på sin egen infrastruktur istället för att använda en extern molntjänst som OpenAI eller Anthropic. Med framväxten av open source-modeller som LLaMA, Mistral och Falcon har det blivit allt mer praktiskt att drifta kraftfulla AI-modeller internt.

Varför self-hosta en LLM?

De främsta motiven är datasuveränitet (ingen data skickas till externa parter), anpassningsmöjligheter (fintuning på egen domändata), kostnadskontroll (inga per-token-avgifter vid hög volym), oberoende (inget leverantörsberoende) och regulatorisk efterlevnad (GDPR, AI Act, NIS2).

Tekniska förutsättningar

Att köra en LLM lokalt kräver GPU-kapacitet – moderna modeller på 7–70 miljarder parametrar behöver allt från ett enstaka GPU till ett kluster. Tekniker som kvantisering (reducering av modellens precision) gör det möjligt att köra modeller på mer modest hårdvara. Verktyg som vLLM, Ollama och TGI förenklar driftsättningen avsevärt.

Avvägningar

Self-hosting ger kontroll men kräver kompetens inom MLOps, modelloptimering och IT-drift. Modellerna behöver uppdateras, övervakas och underhållas. Organisationer bör noga utvärdera om fördelarna med self-hosting överväger de ökade driftkraven jämfört med att använda en hanterad AI-tjänst.

Vanliga frågor om Self-hosted LLM

Vad är en self-hosted LLM?

En self-hosted LLM är en stor språkmodell som en organisation kör på egen infrastruktur istället för att använda en extern molntjänst.

Vilka modeller kan man self-hosta?

Populära open source-alternativ inkluderar Meta LLaMA, Mistral, Falcon, Qwen och svenska GPT-SW3. Valet beror på användningsfall och hårdvara.

Vilken hårdvara krävs?

Det varierar med modellstorlek. En 7B-modell kan köras på en enstaka GPU (16-24 GB VRAM), medan 70B+ kräver flera GPU:er eller specialiserad hårdvara.

Är self-hosted LLM säkrare?

Från ett dataskyddsperspektiv ja – ingen data lämnar organisationen. Men säkerheten beror också på hur infrastrukturen skyddas och underhålls.

Vad är kvantisering?

Kvantisering reducerar modellens numeriska precision (t.ex. från 16-bit till 4-bit) vilket minskar minnesbehovet kraftigt med begränsad påverkan på kvaliteten.