Gå tillbaka

Tokenisering

Vad är tokenisering?

Tokenisering är processen att bryta ner text i mindre enheter – så kallade tokens – som en AI-modell kan bearbeta. En token kan vara ett helt ord, en del av ett ord eller till och med ett enskilt tecken, beroende på vilken tokeniseringsmetod som används.

Tokenisering är ett grundläggande steg i all bearbetning med stora språkmodeller. Varje LLM har en maximal kontextlängd mätt i tokens, vilket avgör hur mycket information modellen kan hantera åt gången.

Varför spelar tokenisering roll för företag?

  • Kostnader: API-prissättning för AI-tjänster baseras på antal tokens. Effektiv promptdesign minskar kostnaden.
  • Prestanda: Längre texter kräver fler tokens, vilket påverkar svarstid och beräkningskostnad.
  • Språkberoende: Svenska texter kräver fler tokens än engelska i de flesta modeller, vilket påverkar kostnad och kontextlängd.

Andra relevanta ord i samma kategori