Un ChatGPT italiano van cercando – Il punto della situazione sui modelli linguistici italiani

0

Dal sito guerredirete.it  vi segnaliamo questo articolo di Antonio Piemontese che fa il punto della situazione sulla elaborazione e realizzazione di modelli linguistici di grandi dimensioni di lingua italiana. E’ interessante notare che i modelli esistenti sono tutti elaborati a partire dall’inglese e i diversi paesi non anglofoni si stanno attrezzando di conseguenza per avere un’interazione di buon livello.

Un ChatGPT italiano van cercando

di  Antonio Piemontese

Realizzare modelli linguistici di grandi dimensioni in lingua italiana è, da qualche mese, l’obiettivo in cima alla lista delle priorità digitali nazionali. Non si tratta di un vezzo campanilistico: la capacità di rispondere alle richieste degli utenti dipende in maniera diretta dalla qualità dei dataset su cui gli LLM (questo l’acronimo che sta per Large language model) sono addestrati. I prodotti più popolari sono basati su  dataset costruiti pressoché esclusivamente in lingua inglese.

Ma (si veda questo articolo di Guerre di Rete di novembre), non ci è voluto molto a comprendere che l’idioma non è una questione secondaria. Non solo per l’accuratezza delle risposte: è anche un tema di soft power, come rivela l’attenzione della Francia, che ha puntato forte sulla startup Mistral AI in linea con la strategia nazionale per la difesa della francofonia, uno degli asset principali di Parigi. Germania e Cina non sono da meno: tedesco e mandarino, per quanto non siano paragonabili tra loro come numero di parlanti, temono di perdere competitività in quella che è una corsa sin troppo veloce verso il futuro. Così hanno costruito i propri campioni, quali la tedesca Aleph Alpha. Persino i piccoli (ma ultimamente molto attivi sulla scena internazionale) Emirati Arabi Uniti hanno proposto il loro Falcon.

L’Italia sta cercando di tenere il passo. Anche se ha fatto parlare di sé soprattutto per essere stata il primo Paese a imporre una limitazione provvisoria su ChatGPT nella primavera del 2023. Ma, oltre a governare le evoluzioni tecnologiche dal punto di vista legislativo, è necessario muoversi sul piano delle politiche industriali. Così, tra progetti costruiti “from scratch” (cioè da zero) e fine tuning (che potremmo tradurre con ottimizzazione e adattamento di un modello pre-addestrato) di progetti esistenti per adattarli all’idioma dantesco, sono diverse le iniziative già pronte o in cantiere. Alcune partite in sordina; altre, invece, precedute da un intenso battage mediatico. Abbiamo provato a ricostruire che cosa sappiamo delle varie soluzioni. Partiamo però dall’inizio.

Il problema dei dataset

Il problema centrale nella costruzione dei modelli linguistici di grandi dimensioni è proprio l’addestramento, l’attività, cioè, con cui la macchina apprende e si prepara, dunque, a fornire risposte ai prompt (le domande dell’utente) sulla base delle relazioni fra parole (per una spiegazione tecnica ma semplificata in italiano, vedi qua)

Un anno e mezzo fa il lancio di  ChatGPT ha innescato una corsa all’AI generativa (vedi l’ebook di Guerre di Rete). Ma, dopo il tecno-ottimismo mediato dal marketing degli esordi, negli ultimi mesi le reazioni non sono state sempre entusiaste.  Su tutti, il New York Times ha citato in tribunale OpenAI (la società a cui fa capo ChatGPT).
La sentenza, quando arriverà e vada come vada, farà di certo giurisprudenza.  Intanto, fiutato il vento, le nuove policy che tutelano il lavoro delle redazioni cominciano a prevedere fattispecie nuove, nel tentativo di mettersi al riparo dall’aggressività dei nuovi competitor. Non manca, tra gli studi legali specializzati, chi suggerisce di non fare accordi, per il momento, in attesa che la nebbia si schiarisca.
Perché, come si diceva,  per i modelli di intelligenza artificiale, i dataset sono tutto: ma la qualità del materiale disponibile gratuitamente in Rete è mediamente bassa. Tutt’altra cosa sono i grandi giornali o i libri di autori noti: contenuti ben scritti, dall’alto grado di affidabilità.

Continua a leggere sul sito guerredirete.it

Condividi

I commenti sono chiusi.

Questo sito utilizza cookie per fornirti la migliore esperienza di navigazione. Esprimi il tuo consenso cliccando sul pulsante 'Accetto tutti i cookie', oppure clicca sull'icona a sinistra per accedere alle impostazioni personalizzate. Se neghi il consenso, non tutte le funzioni di questo sito saranno disponibili. Potrai modificare le tue preferenze in qualsiasi momento, dalla pagina Cookie Policy

Impostazioni Cookie

Cookie TecniciIl nostro sito utilizza cookie tecnici. Si tratta di cookie necessari per il funzionamento del sito.

Cookie AnaliticiIl nostro sito utilizza cookie analitici, per permettere l'analisi del nostro sito e per ottimizzarlo ai fini dell'usabilità.

Cookie Social MediaIl nostro sito utilizza cookie Social Media, per mostrare contenuti di terze parti, come YouTube e FaceBook. Questi cookie potrebbero tracciare i vostri dati personali.

Cookie di MarketingIl nostro sito utilizza cookie di marketing, per mostrare annunci di terze parti basati sui tuoi interessi. Questi cookie potrebbero tracciare i tuoi dati personali.

Altri cookieIl nostro sito utilizza cookie di terze parti che non sono analitici, di Social Media né di Marketing.