Il Paroliere

tokenizzazione

sostantivofemminile

Scomposizione di un testo in token prima dell'elaborazione da parte di un modello linguistico o di un sistema NLP.

tecnicoNLPintelligenza artificialelinguistica computazionale

Operazione preliminare con cui un testo viene scomposto in unità discrete dette token — parole, frammenti di parola o caratteri — prima di essere elaborato da un modello linguistico o da un sistema di NLP. La granularità del risultato dipende dall'algoritmo impiegato (BPE, WordPiece, SentencePiece) e dalla lingua del testo: una scelta sbagliata a questo livello si propaga, silenziosa, lungo l'intera catena di elaborazione.


  • «La tokenizzazione dell'italiano è più complessa di quella dell'inglese per la ricchezza morfologica della lingua.»
  • «Un tokenizzatore mal calibrato può spezzare le parole accentate in modo da perderne il significato.»
  • «GPT-4 usa un tokenizzatore BPE con un vocabolario di circa 100.000 token.»

tokenizationtecnico

termine inglese originale, comune anche nella letteratura italiana sull'AI


Tokenizzazione è un passaggio invisibile ma fondativo: nessun modello linguistico vede il testo come lo vediamo noi. Vede sequenze di token, e quelle sequenze dipendono da scelte fatte in fase di training. È per questo che un modello addestrato prevalentemente sull'inglese tende a tokenizzare l'italiano in modo più frammentato — e a costare di più, in termini di token consumati, per la stessa quantità di testo.


Il Paroliere fornisce definizioni originali. Le fonti esterne sono collegate per consultazione, non copiate.

Voce creata: 2026-05-19T00:00:00.000ZUltimo aggiornamento: 2026-05-25T07:57:48.261Z← Tutte le voci