Dal sito guerredirete.it vi segnaliamo questo articolo di Antonio Piemontese che fa il punto della situazione sulla elaborazione e realizzazione di modelli linguistici di grandi dimensioni di lingua italiana. E’ interessante notare che i modelli esistenti sono tutti elaborati a partire dall’inglese e i diversi paesi non anglofoni si stanno attrezzando di conseguenza per avere un’interazione di buon livello.
Un ChatGPT italiano van cercando
di Antonio Piemontese
Realizzare modelli linguistici di grandi dimensioni in lingua italiana è, da qualche mese, l’obiettivo in cima alla lista delle priorità digitali nazionali. Non si tratta di un vezzo campanilistico: la capacità di rispondere alle richieste degli utenti dipende in maniera diretta dalla qualità dei dataset su cui gli LLM (questo l’acronimo che sta per Large language model) sono addestrati. I prodotti più popolari sono basati su dataset costruiti pressoché esclusivamente in lingua inglese.
Ma (si veda questo articolo di Guerre di Rete di novembre), non ci è voluto molto a comprendere che l’idioma non è una questione secondaria. Non solo per l’accuratezza delle risposte: è anche un tema di soft power, come rivela l’attenzione della Francia, che ha puntato forte sulla startup Mistral AI in linea con la strategia nazionale per la difesa della francofonia, uno degli asset principali di Parigi. Germania e Cina non sono da meno: tedesco e mandarino, per quanto non siano paragonabili tra loro come numero di parlanti, temono di perdere competitività in quella che è una corsa sin troppo veloce verso il futuro. Così hanno costruito i propri campioni, quali la tedesca Aleph Alpha. Persino i piccoli (ma ultimamente molto attivi sulla scena internazionale) Emirati Arabi Uniti hanno proposto il loro Falcon.
L’Italia sta cercando di tenere il passo. Anche se ha fatto parlare di sé soprattutto per essere stata il primo Paese a imporre una limitazione provvisoria su ChatGPT nella primavera del 2023. Ma, oltre a governare le evoluzioni tecnologiche dal punto di vista legislativo, è necessario muoversi sul piano delle politiche industriali. Così, tra progetti costruiti “from scratch” (cioè da zero) e fine tuning (che potremmo tradurre con ottimizzazione e adattamento di un modello pre-addestrato) di progetti esistenti per adattarli all’idioma dantesco, sono diverse le iniziative già pronte o in cantiere. Alcune partite in sordina; altre, invece, precedute da un intenso battage mediatico. Abbiamo provato a ricostruire che cosa sappiamo delle varie soluzioni. Partiamo però dall’inizio.
Il problema dei dataset
Il problema centrale nella costruzione dei modelli linguistici di grandi dimensioni è proprio l’addestramento, l’attività, cioè, con cui la macchina apprende e si prepara, dunque, a fornire risposte ai prompt (le domande dell’utente) sulla base delle relazioni fra parole (per una spiegazione tecnica ma semplificata in italiano, vedi qua)
Un anno e mezzo fa il lancio di ChatGPT ha innescato una corsa all’AI generativa (vedi l’ebook di Guerre di Rete). Ma, dopo il tecno-ottimismo mediato dal marketing degli esordi, negli ultimi mesi le reazioni non sono state sempre entusiaste. Su tutti, il New York Times ha citato in tribunale OpenAI (la società a cui fa capo ChatGPT).
La sentenza, quando arriverà e vada come vada, farà di certo giurisprudenza. Intanto, fiutato il vento, le nuove policy che tutelano il lavoro delle redazioni cominciano a prevedere fattispecie nuove, nel tentativo di mettersi al riparo dall’aggressività dei nuovi competitor. Non manca, tra gli studi legali specializzati, chi suggerisce di non fare accordi, per il momento, in attesa che la nebbia si schiarisca.
Perché, come si diceva, per i modelli di intelligenza artificiale, i dataset sono tutto: ma la qualità del materiale disponibile gratuitamente in Rete è mediamente bassa. Tutt’altra cosa sono i grandi giornali o i libri di autori noti: contenuti ben scritti, dall’alto grado di affidabilità.
Continua a leggere sul sito guerredirete.it