Nel capitolo precedente abbiamo visto che ogni parola viene trasformata in un token, cioè un numero intero che il modello può leggere. Ma quei numeri, da soli, non significano nulla. Sono solo identificatori, etichette. Per poter lavorare davvero con il significato, il modello deve trasformare ogni token in una rappresentazione numerica più ricca, che gli permetta di cogliere relazioni, contesti, somiglianze. Questa rappresentazione si chiama embedding.
Immagina che il modello costruisca internamente una mappa del linguaggio. Su questa mappa, ogni parola è un punto. La distanza tra i punti non è geografica, ma di significato. Parole simili — come cane, gatto e cucciolo — sono vicine, come edifici nello stesso quartiere. Parole molto diverse, come cane e telefono, sono su lati opposti della città. Gli embedding sono le coordinate numeriche di ciascun punto su questa mappa.
Un embedding è, in pratica, un vettore. Cioè una lista ordinata di numeri — spesso