Model serving
Vad är Model serving?
Model serving är processen att driftsätta och göra tränade AI-modeller tillgängliga för användning i produktionsmiljöer. Det handlar om att ta en modell från utvecklingsfasen och exponera den som en tjänst som kan ta emot förfrågningar, göra prediktioner och returnera resultat i realtid – ofta via ett API.
Varför är Model serving viktigt?
Att träna en bra AI-modell är bara halva arbetet. Utan effektiv model serving kan organisationer inte dra nytta av sina modeller i verkliga tillämpningar. Model serving hanterar skalbarhet, latens, resursoptimering och tillförlitlighet – alla kritiska faktorer för AI i produktion.
Tekniker och verktyg
Populära verktyg för model serving inkluderar vLLM, TensorFlow Serving, NVIDIA Triton, BentoML och Seldon Core. För self-hosted LLM:er används ofta vLLM eller Text Generation Inference (TGI). Containerisering med Docker och orkestrering med Kubernetes är vanligt för att hantera skalning.
Utmaningar med Model serving
De största utmaningarna inkluderar att balansera latens med genomströmning, hantera varierande belastning (autoskalning), uppdatera modeller utan avbrott (blue-green deployment), övervaka modellprestanda i produktion (model monitoring) och optimera resursutnyttjande. MLOps-praxis adresserar dessa utmaningar systematiskt.
Vanliga frågor om Model serving
Vad är model serving?
Model serving är processen att driftsätta AI-modeller i produktion så de kan ta emot förfrågningar och leverera prediktioner i realtid.
Vilka verktyg används för model serving?
Vanliga verktyg inkluderar vLLM, TensorFlow Serving, NVIDIA Triton, BentoML och Seldon Core, ofta i kombination med Docker och Kubernetes.
Vad är skillnaden mellan model serving och model deployment?
Model deployment är att placera modellen i en produktionsmiljö, medan model serving specifikt handlar om att göra den tillgänglig och hantera förfrågningar effektivt.
Hur hanterar man skalning vid model serving?
Genom autoskalning med Kubernetes, lastbalansering och optimerad batchning av förfrågningar. GPU-resurshantering är särskilt viktigt.
Vad är model monitoring?
Löpande övervakning av modellens prestanda i produktion för att identifiera degradering, bias-drift eller tekniska problem innan de påverkar användarna.
-
A
- Accesspunkt
- Active Directory
- Affärssystem
- Agent Assist
- Agentic AI
- Artificial General Intelligence (AGI)
- AI
- AI-compliant
- AI-first
- AI governance
- AI-proofed
- AI-ready
- AIaaS
- Algoritm
- Alignment
- API
- Automation
- Autonomous agents
- AWS (Amazon Web Services)
- Azure API Management
- Azure Cosmos DB
- Azure Data Factory
- Azure DevOps
- Azure Event Grid
- Azure Event Hubs
- Azure Function Apps
- Azure Integration Services
- Azure Key Vault
- Azure Logic Apps
- Azure Service Bus
- Azure Storage Account
- B
-
C
- C3PAO
- CCaaS
- CEaaS
- Chatbot
- CI/CD
- CIS
- Claude Code
- CLI
- Click to Do
- CLOUD Act
- Cloud Native
- Cloud Security (Molnsäkerhet)
- CMMC
- Computer vision
- Containerisering
- Content Delivery Network (CDN)
- Copilot
- CRC
- CRM
- CSIRT
- CSP (Cloud Solution Provider)
- CSRD
- Customer experience
- Cyber range
- Cyber resilience
- Cyberresiliensförordningen
- Cybersäkerhet
- Cybersäkerhetslagen
- Cybersäkerhetsakten
-
D
- DaaS
- DANE
- Data-fabric plattform
- Data Governance
- Data Lake
- Data sovereignty
- Dataanalys
- Databas
- Databricks
- Datacenter
- Datahantering (Data Management)
- Datamigrering
- Datasuveränitet
- Datavisualisering
- DDoS
- Deep learning
- DevOps
- DevSecOps
- Digital leveranskedja
- Digital tvilling
- Digital twin
- Digitalisering
- Disaster Recovery
- Data Loss Prevention (DLP)
- DMA
- DNSSEC
- Docker
- DORA
- Disaster Recovery as a Service (DRaaS)
- DRP
- E
- F
- G
- H
-
I
- IAM
- Identity Governance and Administration (IGA)
- Immutable backups
- Inference
- Informationssäkerhet
- Infrastruktur-som-kod
- Integration
- Integration ERP
- Integrationsförvaltning
- Intrångsdetektionssystem (IDS)
- Intune
- IoT - Internet of Things
- ISO
- IT-drift
- IT-forensik
- IT-säkerhet
- IT-upphandling
- ITAD Services
- IT Asset Management (ITAM)
- ITIL
- J
- K
- L
- M
- N
- O
- P
- Q
- R
-
S
- SaaS
- Säkerhetsgranskning
- SASE
- SBTi
- SDN
- Secure-Core PC
- Self-hosted LLM
- SEO
- Serverless Computing
- Servicedesk
- Shadow AI
- Sharepoint
- SIEM
- Single Sign-On (SSO)
- SIT-test
- Service Level Agreement (SLA)
- SMTP AUTH
- SOAR
- SOC
- Sovereign AI
- Sovereign Cloud
- Spear phishing
- Spoofing
- Svanenmärkningen
- Synthetic data
- Systemintegration
- T
- U
- V
- W
- X
- Y
- Z
- Å
- Ä
- Ö