tokenizzazione

sostantivofemminile

Scomposizione di un testo in token prima dell'elaborazione da parte di un modello linguistico o di un sistema NLP.

tecnicoNLPintelligenza artificialelinguistica computazionale

Definizione

Operazione preliminare con cui un testo viene scomposto in unità discrete dette token — parole, frammenti di parola o caratteri — prima di essere elaborato da un modello linguistico o da un sistema di NLP. La granularità del risultato dipende dall'algoritmo impiegato (BPE, WordPiece, SentencePiece) e dalla lingua del testo: una scelta sbagliata a questo livello si propaga, silenziosa, lungo l'intera catena di elaborazione.

Esempi d'uso

«La tokenizzazione dell'italiano è più complessa di quella dell'inglese per la ricchezza morfologica della lingua.»
«Un tokenizzatore mal calibrato può spezzare le parole accentate in modo da perderne il significato.»
«GPT-4 usa un tokenizzatore BPE con un vocabolario di circa 100.000 token.»

Sinonimi

tokenizationtecnico

termine inglese originale, comune anche nella letteratura italiana sull'AI

Parole correlate

token LLMBPEWordPieceSentencePieceNLPembeddingpreprocessing

Nota del Paroliere

Tokenizzazione è un passaggio invisibile ma fondativo: nessun modello linguistico vede il testo come lo vediamo noi. Vede sequenze di token, e quelle sequenze dipendono da scelte fatte in fase di training. È per questo che un modello addestrato prevalentemente sull'inglese tende a tokenizzare l'italiano in modo più frammentato — e a costare di più, in termini di token consumati, per la stessa quantità di testo.

Fonti esterne

Il Paroliere fornisce definizioni originali. Le fonti esterne sono collegate per consultazione, non copiate.

Wiktionary

Voce creata: 2026-05-19T00:00:00.000ZUltimo aggiornamento: 2026-06-13T08:53:07.672Z← Tutte le voci