Vad är Tokens?

Tokens är de grundläggande enheterna av text som en LLM (Large Language Model) läser och genererar. För en dator är text inte ord och meningar, utan en ström av siffror. Texten bryts därför ner i mindre bitar – tokens. En token kan vara ett helt ord, men ofta är det en del av ett ord, eller till och med ett mellanslag.

Varför Tokens är viktiga

Tokens är "valutan" i modern Generativ AI. 1. Kostnad: Du betalar ofta för API:er baserat på antalet tokens (både inmatade och genererade). 2. Minne: Varje modell har en gräns för hur mycket text den kan komma ihåg samtidigt (Context Window), och denna gräns mäts i tokens.

Hur fungerar Tokens i praktiken?

Som tumregel brukar man säga att 1000 tokens motsvarar ungefär 750 ord på engelska. På svenska kan det vara något färre ord per token eftersom svenska ord ofta är sammansatta och längre.

  • Ordet "bil" kan vara 1 token.
  • Ordet "implementering" kanske delas upp i "imple", "ment", "ering" (3 tokens).
  • Processen att hugga upp texten kallas tokenisering.

Vanliga frågor om Tokens

Varför räknar man inte bara ord?

Att använda tokens gör det effektivare för neurala nätverk att hantera olika språk och komplexa ordstrukturer. Det ger också en mer kompakt representation av datan.

Hur vet jag hur många tokens min text är?

Många leverantörer (som OpenAI) har gratis verktyg ("Tokenizers") där du kan klistra in text och se exakt hur den delas upp och hur många tokens den förbrukar.

Viktiga punkter att ta med sig:

  • Tokens är bitar av ord som AI använder för att bearbeta text.
  • Påverkar direkt kostnaden och hur mycket text modellen kan hantera.
  • 1000 tokens är ungefär 750 ord.