Nella puntata precedente abbiamo capito cos’è un modello: una funzione matematica con miliardi di parametri che impara dai dati, senza regole scritte a mano. Ma non abbiamo ancora risposto a una domanda fondamentale: che cos’è un “dato” per un modello linguistico? Quando usi un’app AI, il tuo input — che sia una domanda, una pagina di testo o una descrizione di prodotto — non arriva al modello così com’è. Deve prima essere convertito in numeri. E no, non si tratta solo di codificare caratteri come in un file di testo. Il processo è più sofisticato. Si chiama tokenizzazione, ed è il primo passaggio obbligato per qualsiasi modello linguistico.
Un token è l’unità minima che un modello può leggere. Non è una parola, né una lettera, ma qualcosa a metà strada. Può essere una parola intera (“oggi”), una parte (“costr” da “costruzione”), o persino uno spazio (“ il”). Tutto dipende dal tokenizzatore usato, un componente che decide come spezzare il testo secondo un vocabolario prestab