Corso AI in 10 puntate

Puntata 5 di 10

7 min di lettura

Dentro il Transformer

L'architettura che ha cambiato tutto: come funziona l'attenzione e perché il Transformer scala meglio di tutto il resto.

Nei capitoli precedenti, abbiamo esplorato come il linguaggio umano viene tradotto nel linguaggio dei numeri. Abbiamo visto come le parole diventano token, e come questi token si trasformano in embedding: liste di numeri che ne catturano il significato e le relazioni.

Ma questi embedding, da soli, non bastano.

Usciamo dal "cosa" viene elaborato ed entriamo nel "come".

Per generare testo, rispondere a una domanda o completare un paragrafo, il modello deve essere in grado di combinarli. Deve capire quali contano davvero nel contesto, quali sono rilevanti, quali ignorare.

Come fa il modello a usare quegli embedding per non solo capire una frase, ma generarne una nuova, coerente, che risponda alle tue necessità?

Il merito è dell'architettura che sta dietro ai modelli che usiamo oggi: il Transformer.

Il cuore dell’intelligenza artificiale generativa.

Il Transformer è l’architettura su cui si basano tutti i principali modelli linguistici di oggi. GPT, Claude, Gemini, LLaMA, Mistra