Google, Facebook e Microsoft lavorano su modelli di IA multilingue

I ricercatori Google, Facebook e Microsoft hanno pubblicato il rispettivo lavoro sui modelli di Intelligenza Artificiale (IA) multilingue. Google e Microsoft hanno rilasciato modelli che raggiungono nuove prestazioni nelle attività di NLP (elaborazione del linguaggio naturale) misurate dal benchmark XTREME. Facebook ha prodotto un modello di traduzione “many-to-many” non incentrato sull’inglese.

I team di Microsoft Research, Google Research e Facebook AI Research (FAIR) hanno lavorato ai problemi dei modelli di elaborazione del linguaggio naturale (NLP) multilingue. Il Project Turing di Microsoft ha sviluppato la seconda versione di Turing Universal Language Representation (T-ULRv2). Un modello che può codificare frasi di testo da 94 lingue diverse nello stesso spazio vettoriale. T-ULRv2 occupa attualmente il primo posto nella classifica benchmark XTREME, la quale valuta e appunto classifica le prestazioni in varie task NLP in 40 lingue. 

Google ha sviluppato mT5, un’estensione multilingue del modello T5, addestrato su mC4, un nuovo dataset multilingue su larga scala estratto dall’archivio Common Crawl , contenente moltissimi dati, in oltre 100 lingue. Anche Google rivendica risultati all’avanguardia su XTREME, ma il modello non è presente nell’ultima classifica. Il modello di traduzione di Facebook, M2M-100 , è addestrato su CCMatrix. Un altro dataset estratto da Common Crawl, contenente 100 lingue, con frasi parallele in 2.200 combinazioni sorgente-destinazione. M2M-100 supera i modelli addestrati su dataset incentrati sull’inglese. Secondo la ricercatrice di FAIR Angela Fan:

Un unico modello che supporti tutte le lingue, i dialetti e le modalità ci aiuterà a servire meglio più persone. A mantenere aggiornate le traduzioni e a creare nuove esperienze per miliardi di utenti, in maniera equa. Questo lavoro ci avvicina all’obiettivo.

Angela Fan, ricercatrice FAIR

Gran parte del recente successo nell’utilizzo del deep learning per la NLP è dovuto al trasferimento dell’apprendimento: la messa a punto di modelli di grandi dimensioni che sono stati pre-addestrati su un grande dataset estrapolato dal web. Poiché la maggior parte dei dati è in inglese, questo limita l’uso del modello alle attività esclusivamente in questa lingua. 

Benchmark multilingue

Sebbene i modelli possano essere addestrati anche su dati non inglesi, molte lingue sono considerate “a scarse risorse”. Il che si traduce in una mancanza di dati di addestramento in quella determinata lingua. I test hanno rilevato che la pre-formazione di un singolo modello di NLP con dati provenienti da più lingue può produrre un modello che si comporta “sorprendentemente bene” su compiti interlinguistici, possibilmente imparando strutture universali comuni a diverse lingue. Questi modelli sono spesso basati sulle variazioni del modello BERT, inclusi Multilingual BERT (mBERT) e XLM-R di FAIR . Per valutare le prestazioni dei modelli interlinguistici, i ricercatori hanno sviluppato versioni interlinguistiche dei comuni benchmark NLP. Ad esempio, il benchmark XTREME misura le prestazioni sulla classificazione delle frasi, il recupero di quest’ultime, la previsione strutturata e la risposta alle domande, in 40 lingue.

I ricercatori di Google hanno applicato il concetto di addestramento di un modello esistente in più lingue al loro modello T5. Il T5 ha stabilito record prestazionali su diversi benchmark NLP. Dalla comprensione del linguaggio alla risposta alle domande, incluso un “punteggio quasi umano” nel benchmark SuperGLUE. Il nuovo modello, mT5, è addestrato su una versione multilingue del dataset Common Crawl, mC4, che contiene dati presi dal web in 101 lingue. 

Il modello mT5 è basato sull’architettura Transformer e “corrisponde a, o supera lo stato della tecnica” su tutte le attività XTREME. Anche T-ULRv2 di Microsoft si basa sull’architettura Transformer e si basa su un modello chiamato InfoXLM. Sebbene il documento di Google affermi che mT5 supera InfoXLM su XTREME, il nuovo T-ULRv2 di Microsoft occupa il primo posto nella classifica pubblica XTREME (che in precedenza era detenuta da un modello sviluppato da Alibaba), e mT5 non è neanche presente in classifica.

Lingue “low-resource”

Mentre i modelli di Google e Microsoft sono progettati per essere ottimizzati per attività NLP, come la risposta alle domande, Facebook si è concentrato sul problema della traduzione automatica neurale (NMT). Anche in questo caso, questi modelli sono spesso formati su dati disponibili al pubblico, costituiti da testi “paralleli” in due lingue diverse, e ancora una volta il problema delle lingue con poche risorse non è stato superato. La maggior parte dei modelli quindi si esercita su dati nei quali una delle lingue è l’inglese e, sebbene i modelli risultanti possano fare una traduzione “zero-shot” tra due lingue diverse dall’inglese, spesso la qualità di tali traduzioni è inferiore alla media.

Per risolvere questo problema, i ricercatori di Facebook hanno prima raccolto un dataset di testi paralleli, estraendo i dati di Common Crawl per “frasi che potrebbero essere potenziali traduzioni”, mappando i segmenti in uno spazio di incorporamento utilizzando un modello di deep-learning esistente, chiamato LASER, e trovando coppie di segmenti da lingue diverse con valori di incorporamento simili. Il team ha addestrato un modello Transformer su questi dati. Il modello risultante può tradurre tra 100 lingue senza fare “pivot” con l’inglese, con prestazioni paragonabili a modelli bilingue dedicati.

Il futuro della traduzione, specialmente la traduzione automatica, sarà notevolmente influenzato dal progredire di queste tecnologie multilingue. Stay tuned, restiamo collegati.

Traduzione e adattamento a cura di Stefano Gaffuri.

Originale qui.