Verso la fine di febbraio, due ricercatori Microsoft hanno pubblicato un interessante studio sull’utilizzo dei modelli linguistici di grandi dimensioni (LLM) per valutare la qualità degli output di traduzione. Il loro report risponde ai quesiti relativi alla possibilità di automatizzare ulteriormente il processo traduttivo, delegando a questi sistemi la valutazione dei testi tradotti, sia a livello di sistema che di singolo documento.
I ricercatori, e nello specifico il Senior Researcher Tom Kocmi e il Principal Research Manager Christian Federmann, sono partiti da un concetto di recente diffusione: “Se i modelli possono tradurre, potrebbero anche essere in grado di distinguere le buone traduzioni da quelle scadenti”.
Un tema da noi trattato all’interno dell’articolo ChatGPT sa tradurre? Uno studio ci aiuta a capirlo, e in parte anche in I fuzzy matches e i modelli linguistici di grandi dimensioni.
Volendo riassumere, è possibile strutturare il lavoro dei ricercatori in due fasi principali: valutazione e confronto.
Se quindi il primo step ha riguardato la raccolta delle valutazioni sulla qualità della traduzione fornite dai modelli linguistici di grandi dimensioni, la seconda fase si è concentrata sul confronto tra queste ultime e i giudizi dati da professionisti umani.
I risultati potrebbero aprire la via a nuovi interessanti scenari.
LLM e qualità della traduzione
Entrando nel dettaglio della ricerca, i ricercatori hanno preso in esame sette LLM differenti, tutti appartenenti alla famiglia GPT.
Per le valutazioni, si sono quindi serviti della metrica GEMBA (da GPT Estimation Metric Based Assessment) applicata a tre coppie linguistiche: dall’inglese al tedesco, dall’inglese al russo e dal cinese all’inglese.
I ricercatori hanno quindi sottoposto ai modelli quattro diversi tipi di prompt, modellando due attività di punteggio e due attività di classificazione. Il dataset di riferimento utilizzato comprendeva un totale di 106 mila segmenti di traduzione, provenienti dal lavoro di traduttori umani e dagli output di traduzione automatica.
Il dato che risulta davvero interessante per il settore dei servizi linguistici riguarda i risultati ottenuti da questo studio.
I ricercatori, infatti, sottolineano che sebbene solamente i modelli superiori a GPT 3.5 sono in grado di eguagliare i giudizi umani, questo potrebbe essere un punto di partenza per approfondire ulteriormente le capacità di questi sistemi.
In linea generale, è quindi possibile affermare che con i dovuti accorgimenti, è possibile immaginare un futuro prossimo nel quale saranno i modelli linguistici di grandi dimensioni a valutare la qualità della traduzione dei sistemi di machine translation, consentendo dunque una sempre maggiore accuratezza negli output di traduzione automatica.
Potrebbero inoltre diventare uno strumento utile per i traduttori professionisti, i quali potranno affidarsi a questi modelli per la revisione del proprio lavoro.
Per maggiori dettagli circa lo svolgimento della ricerca, le metriche e le procedure utilizzate si rimanda al documento pubblicato dai ricercatori: Large Language Models Are State-of-the-Art Evaluators of Translation Quality.
Foto di Salvatore De Lellis da Pexels