Model serving
Vad är Model serving?
Model serving är processen att driftsätta och göra tränade AI-modeller tillgängliga för användning i produktionsmiljöer. Det handlar om att ta en modell från utvecklingsfasen och exponera den som en tjänst som kan ta emot förfrågningar, göra prediktioner och returnera resultat i realtid – ofta via ett API.
Varför är Model serving viktigt?
Att träna en bra AI-modell är bara halva arbetet. Utan effektiv model serving kan organisationer inte dra nytta av sina modeller i verkliga tillämpningar. Model serving hanterar skalbarhet, latens, resursoptimering och tillförlitlighet – alla kritiska faktorer för AI i produktion.
Tekniker och verktyg
Populära verktyg för model serving inkluderar vLLM, TensorFlow Serving, NVIDIA Triton, BentoML och Seldon Core. För self-hosted LLM:er används ofta vLLM eller Text Generation Inference (TGI). Containerisering med Docker och orkestrering med Kubernetes är vanligt för att hantera skalning.
Utmaningar med Model serving
De största utmaningarna inkluderar att balansera latens med genomströmning, hantera varierande belastning (autoskalning), uppdatera modeller utan avbrott (blue-green deployment), övervaka modellprestanda i produktion (model monitoring) och optimera resursutnyttjande. MLOps-praxis adresserar dessa utmaningar systematiskt.
Vanliga frågor om Model serving
Vad är model serving?
Model serving är processen att driftsätta AI-modeller i produktion så de kan ta emot förfrågningar och leverera prediktioner i realtid.
Vilka verktyg används för model serving?
Vanliga verktyg inkluderar vLLM, TensorFlow Serving, NVIDIA Triton, BentoML och Seldon Core, ofta i kombination med Docker och Kubernetes.
Vad är skillnaden mellan model serving och model deployment?
Model deployment är att placera modellen i en produktionsmiljö, medan model serving specifikt handlar om att göra den tillgänglig och hantera förfrågningar effektivt.
Hur hanterar man skalning vid model serving?
Genom autoskalning med Kubernetes, lastbalansering och optimerad batchning av förfrågningar. GPU-resurshantering är särskilt viktigt.
Vad är model monitoring?
Löpande övervakning av modellens prestanda i produktion för att identifiera degradering, bias-drift eller tekniska problem innan de påverkar användarna.
-
A
- Accesspunkt
- Active Directory
- Affärssystem
- Agent Assist
- Agentic AI
- Artificial General Intelligence (AGI)
- AI
- AI Act / AI-förordningen
- AI-compliant
- AI Factory
- AI-first
- AI governance
- AI PC
- AI-proofed
- AI-ready
- AIaaS
- AIOps
- Algoritm
- Alignment
- API
- Attack Surface Management (ASM)
- Automation
- Autonomous agents
- AWS (Amazon Web Services)
- Azure API Management
- Azure Arc
- Azure Cosmos DB
- Azure Data Factory
- Azure DevOps
- Azure Event Grid
- Azure Event Hubs
- Azure Function Apps
- Azure Integration Services
- Azure Key Vault
- Azure Logic Apps
- Azure Service Bus
- Azure Storage Account
- B
-
C
- C3PAO
- CapEx vs OpEx
- CCaaS
- CEaaS
- Chatbot
- CI/CD
- Cirkulär IT
- CIS
- Claude Code
- CLI
- Click to Do
- CLOUD Act
- Cloud Native
- Cloud Security (Molnsäkerhet)
- CMMC
- CNAPP
- Colocation
- Computer vision
- Confidential Computing
- Containerisering
- Content Delivery Network (CDN)
- Copilot
- Copilot Studio
- CRC
- CRM
- CSIRT
- CSP (Cloud Solution Provider)
- CSRD
- CTEM
- Customer experience
- Cyber range
- Cyber resilience
- Cyberresiliensförordningen
- Cybersäkerhet
- Cybersäkerhetslagen
- Cybersäkerhetsakten
-
D
- DaaS
- DANE
- Data-fabric plattform
- Data Governance
- Data Lake
- Data Lakehouse
- Data Mesh
- Data sovereignty
- Dataanalys
- Databas
- Databricks
- Datacenter
- Datahantering (Data Management)
- Datamigrering
- Datasuveränitet
- Datavisualisering
- DDoS
- Deep learning
- Deepfake
- DevOps
- DevSecOps
- Digital Employee Experience (DEX)
- Digital Experience Platform (DXP)
- Digital leveranskedja
- Digital motståndskraft
- Digital Operational Resilience
- Digital suveränitet
- Digital tvilling
- Digital twin
- Digitalisering
- Disaster Recovery
- DKIM
- Data Loss Prevention (DLP)
- DMA
- DMARC
- DNSSEC
- Docker
- DORA
- Disaster Recovery as a Service (DRaaS)
- DRP
- E
- F
- G
- H
-
I
- IAM
- Identity Governance and Administration (IGA)
- Immutable backups
- Incident Response
- Inference
- Informationssäkerhet
- Infrastruktur-som-kod
- Integration
- Integration ERP
- Integrationsförvaltning
- Intrångsdetektionssystem (IDS)
- Intune
- IoT - Internet of Things
- ISO
- ISO 27001
- IT-drift
- IT-forensik
- IT-säkerhet
- IT-upphandling
- ITAD Services
- IT Asset Management (ITAM)
- ITIL
- J
- K
- L
-
M
- Malware
- Managed Print Services (MPS)
- Managed Service Provider (MSP)
- Maskininlärning
- Managed Detection and Response (MDR)
- MFA
- Microservices
- Microsoft 365
- Microsoft Defender
- Microsoft Entra ID
- Microsoft Fabric
- Microsoft Foundry
- Microsoft Pluton
- Microsoft Sentinel
- Microsoft Teams Rooms
- MLOps (Machine Learning Operations)
- Model Context Protocol (MCP)
- Model serving
- Molndrift
- Molnsäkerhet
- Monoberoende - Ändringar som hotar
- Mopria
- MTA-STS
- Multiagent Systems / Multiagentsystem
- Multicloud
- Multimodal
- N
- O
- P
- Q
- R
-
S
- SaaS
- Säkerhetsgranskning
- SASE
- SBTi
- Scope 1/2/3
- SDN
- Secure-Core PC
- Security Posture Management (CSPM/SSPM)
- Self-hosted LLM
- SEO
- Serverless Computing
- Servicedesk
- Shadow AI
- Sharepoint
- SIEM
- Single Sign-On (SSO)
- SIT-test
- Service Level Agreement (SLA)
- Small Language Models (SLM)
- SMTP AUTH
- SOAR
- SOC
- SOC 2
- Social Engineering
- Sovereign AI
- Sovereign Cloud
- Spear phishing
- SPF (Sender Policy Framework)
- Spoofing
- SRE (Site Reliability Engineering)
- Svanenmärkningen
- Synthetic data
- Systemintegration
- T
- U
- V
- W
- X
- Y
- Z
- Å
- Ä
- Ö