Nei capitoli precedenti, abbiamo esplorato come il linguaggio umano viene tradotto nel linguaggio dei numeri. Abbiamo visto come le parole diventano token, e come questi token si trasformano in embedding: liste di numeri che ne catturano il significato e le relazioni.
Ma questi embedding, da soli, non bastano.
Usciamo dal "cosa" viene elaborato ed entriamo nel "come".
Per generare testo, rispondere a una domanda o completare un paragrafo, il modello deve essere in grado di combinarli. Deve capire quali contano davvero nel contesto, quali sono rilevanti, quali ignorare.
Come fa il modello a usare quegli embedding per non solo capire una frase, ma generarne una nuova, coerente, che risponda alle tue necessità?
Il merito è dell'architettura che sta dietro ai modelli che usiamo oggi: il Transformer.
Il cuore dell’intelligenza artificiale generativa.
Il Transformer è l’architettura su cui si basano tutti i principali modelli linguistici di oggi. GPT, Claude, Gemini, LLaMA, Mistra