Valutare la machine translation: Meta e le metriche “human evaluation”

La machine translation rappresenta la principale innovazione nel mondo dei servizi linguistici degli ultimi anni. Entrata nella quotidianità del traduttore svolge un ruolo di rilievo nell’intero processo traduttivo, tuttavia, non tutti i motori di traduzione garantiscono gli stessi standard qualitativi. Quindi, la domanda sorge spontanea: come posso valutare l’output della machine translation?

In ASTW abbiamo implementato il nostro workflow servendoci delle migliori tecnologie disponibili sul mercato, continuando a innovare e migliorare i nostri servizi di traduzione. All’interno della nostra realtà, la valutazione dell’output della machine translation ha sempre riguardato esclusivamente il fattore umano. Potendo contare sui feedback forniti dal team di traduttori, in house e freelance, impegnati ogni giorno nel garantire i nostri alti standard qualitativi, coadiuvati nel loro lavoro, per l’appunto, dai motori di traduzione automatica.

L’intelligenza, la sensibilità e le competenze umane rappresentano il fulcro del nostro lavoro. Consapevolezza condivisa tra gli altri anche dal team di ricercatori di Meta, il colosso fondato da Mark Zuckerberg.

Come dichiarato dal team di Meta AI, nel corso degli anni, per valutare i diversi sistemi di machine translation si è fatto ricorso a criteri e metriche automatizzati, ad esempio il celebre algoritmo BLEU. Tuttavia, il fattore umano ha sempre rappresentato il miglior “algoritmo” di valutazione possibile, d’altronde, chi meglio di un essere umano è in grado di analizzare il linguaggio naturale.

Valutare la machine translation: il problema della soggettività

Nonostante quanto detto sopra, anche la valutazione umana comporta delle possibili problematiche.

Ad esempio, l’utilizzo da parte del valutatore di criteri personali, soggettivi e incomparabili. Criteri derivanti dal background del linguista, dal suo livello di preparazione e dalla familiarità con gli strumenti di machine translation.

“Questo è particolarmente problematico quando l’obiettivo è ottenere punteggi significativi tra le coppie linguistiche”, affermano i ricercatori di Meta AI.

Quando si tenta di stabilire con precisione l’accuratezza di un output di machine translation, includendo in questo processo un gran numero di esperti, la difficoltà più rilevante risiede proprio nella mancanza di oggettività.

Meta ha quindi proposto l’utilizzo di una nuova metrica, chiamata XSTS.

Equivalenza semantica e coerenza linguistica

XSTS, la nuova variante interlinguistica, stima il grado di adeguatezza semantica dell’output in relazione al testo sorgente. Questa nuova metrica enfatizza infatti il concetto espresso piuttosto che la fluidità del testo, essendo quest’ultima soggetta a variazioni dettate da caratteristiche personali. Lo studio (visionabile qui) ha rilevato che XSTS garantisce una maggiore omogeneità nei giudizi espressi, allineando i criteri di valutazione.

Basandosi poi su un set di riferimento, standard per ogni coppia linguistica, i ricercatori hanno tentato di calibrare ulteriormente le valutazioni, stabilendo a priori le caratteristiche del valutatore.

“Se il punteggio del set di riferimento specifico di un dato valutatore è troppo alto rispetto la media, concludiamo che quest’ultimo possa essere generalmente troppo indulgente e che la sua valutazione effettiva dovrebbe quindi essere regolata al ribasso”, hanno spiegato gli autori.

Se è vero che una totale imparzialità e oggettività nella valutazione umana sia quanto mai difficile da raggiungere, è altrettanto vero che i tentativi di standardizzazione come questi si avvicinano sempre più all’obiettivo: una valutazione autorevole e affidabile.


Voi cosa ne pensate? Utilizzate la machine translation nel vostro lavoro? In che modo ne valutate l’output? Fatecelo sapere nelle sezioni commenti dei nostri canali social!

Foto di Andy Barbour da Pexels