Gender bias e gli sforzi di Amazon Translate

L’articolo di oggi unisce e arricchisce due temi già trattati nei mesi scorsi: i gender bias da una parte e Amazon Translate dall’altra.

Per chi volesse approfondire, abbiamo parlato di gender bias negli articoli Gender bias: tra lingua e pregiudizio di genere e I gender bias nella traduzione automatica sono ancora una realtà.

Volendo riassumere per introdurre l’argomento, citiamo uno studio di Molly Lewis e Gary Lupyan volto a identificare i pregiudizi di genere all’interno delle lingue parlate.

La ricerca ha preso in esame 25 sistemi linguistici differenti, all’interno dei quali ricercare, grazie ad ampi corpora testuali, la presenza di questi pregiudizi.

“la ricerca attiva è avvenuta esaminando, ad esempio, quanto spesso la parola “donna” fosse associata alle parole “casa“, “famiglia” e “figli” e il termine “uomo” a “lavoro” e “carriera“. I risultati, mostrano come in tutte le 25 lingue il concetto di carriera sia prevalentemente correlato al genere maschile. Inoltre, i risultati condotti sui volontari sottolineano come le persone che parlano una lingua con un’alta presenza di gender bias abbiano una maggiore propensione ad applicare questi pregiudizi nella vita lavorativa di tutti giorni”.

Nonostante molto sia stato fatto per sradicare un pregiudizio purtroppo ancora presente nella lingua parlata, l’obiettivo non è stato ancora raggiunto. Almeno non completamente, i gender bias sono ancora oggi una problematica ricorrente nei motori di traduzione automatica.

Come scritto a fine 2022 proprio da Amazon, l’altro attore del nostro articolo, in un post pubblicato l’8 dicembre e visionabile qui:

“i sistemi di traduzione automatica a volte traducono in modo errato il genere delle persone a cui si fa riferimento nei segmenti di input, anche quando il genere di un individuo non è ambiguo in base al contesto linguistico. Tali errori possono avere un impatto enorme sulla correttezza delle traduzioni”.

Amazon contro i gender bias

Come anticipato nel mese di agosto, Amazon e il team Alexa AI ha sviluppato il proprio servizio di traduzione automatica a base neurale: Amazon Translate.

E con l’obiettivo di eliminare i gender bias dalle proprie traduzioni automatiche, il team Amazon ha progettato un nuovo benchmark di valutazione degli output, chiamato MT-GenEval.

Questo set di valutazione è ideato per essere il più ampio e realistico possibile, includendo traduzioni dall’inglese all’arabo, francese, italiano, tedesco, spagnolo, portoghese, russo e hindi. In totale, quindi, otto sistemi linguistici.

Il carattere innovativo, nonostante non sia la prima volta che ne sentiamo parlare, è dato dall’utilizzo di dati reali provenienti dalla celebre enciclopedia online Wikipedia. Dati che sono stati successivamente tradotti da professionisti del settore.

Come dicevamo, non è la prima volta che Wikipedia diviene protagonista di un dataset di valutazione. Ne abbiamo parlato nel nostro articolo Il pregiudizio di genere e Google Translate: il dataset di Wikipedia.

Ma le novità introdotte da Amazon non si limitano a questo.

I dati sono completamente bilanciati includendo informazioni di genere controfattuali create dall’uomo, in modo tale da garantire che sottoinsiemi di genere diverso non abbiano significati diversi.

Le conclusioni tratte dal team Amazon lasciano ben sperare: “MT-GenEval è un passo avanti per la valutazione dell’accuratezza del genere nella traduzione automatica. Ci auguriamo che questo benchmark e i dati di sviluppo stimolino ulteriori ricerche nel campo dell’accuratezza di genere nella traduzione in diverse lingue”.

La sfida è ancora aperta, ma è grazie sforzi come questo che il raggiungimento dell’obiettivo risulta sempre più vicino.