tokenizzazione
Scomposizione di un testo in token prima dell'elaborazione da parte di un modello linguistico o di un sistema NLP.
Definizione
Operazione preliminare con cui un testo viene scomposto in unità discrete dette token — parole, frammenti di parola o caratteri — prima di essere elaborato da un modello linguistico o da un sistema di NLP. La granularità del risultato dipende dall'algoritmo impiegato (BPE, WordPiece, SentencePiece) e dalla lingua del testo: una scelta sbagliata a questo livello si propaga, silenziosa, lungo l'intera catena di elaborazione.
Esempi d'uso
- «La tokenizzazione dell'italiano è più complessa di quella dell'inglese per la ricchezza morfologica della lingua.»
- «Un tokenizzatore mal calibrato può spezzare le parole accentate in modo da perderne il significato.»
- «GPT-4 usa un tokenizzatore BPE con un vocabolario di circa 100.000 token.»
Sinonimi
termine inglese originale, comune anche nella letteratura italiana sull'AI
Nota del Paroliere
Tokenizzazione è un passaggio invisibile ma fondativo: nessun modello linguistico vede il testo come lo vediamo noi. Vede sequenze di token, e quelle sequenze dipendono da scelte fatte in fase di training. È per questo che un modello addestrato prevalentemente sull'inglese tende a tokenizzare l'italiano in modo più frammentato — e a costare di più, in termini di token consumati, per la stessa quantità di testo.
Fonti esterne
Il Paroliere fornisce definizioni originali. Le fonti esterne sono collegate per consultazione, non copiate.