- 16 Luglio 2021
- Postato da: Stefano Gaffuri
- Categorie: Machine Translation, Non categorizzato, Tecnologia, Traduzione

Nella sua continua ricerca per ridurre il pregiudizio di genere nella traduzione automatica, Google ha rilasciato un dataset di biografie di Wikipedia tradotte. L’obiettivo finale, secondo i ricercatori, è migliorare i sistemi di apprendimento automatico incentrati su pronomi e genere nella traduzione.
“Poiché ben scritte, geograficamente diverse, contengono varie tipologie di frasi e si riferiscono ai soggetti in terza persona (utilizzando numerosi pronomi), le biografie di Wikipedia offrono un alto potenziale di errori di traduzione associati al genere. Questi si verificano spesso quando gli articoli si riferiscono esplicitamente a una persona nelle prime frasi di un paragrafo, ma non vi è alcuna menzione esplicita della persona nelle frasi successive”, si legge in un post dei ricercatori.
Il pregiudizio di genere nella traduzione automatica
L’idea è quella di utilizzare il dataset di biografie di Wikipedia tradotte per valutare il pregiudizio di genere nell’output della traduzione automatica. I ricercatori hanno individuato tre tipologie di errore: pro-drop, possessivi e accordo di genere.
Il pro-drop (o pronoun dropping) è frequente in quelle lingue in cui, come suggerisce il nome, i pronomi possono essere omessi poiché dedotti dal contesto.
I possessivi, ad esempio inglesi, includono pronomi che determinano il genere, come “his” e “her”, ma lo escludono in altri, come “mine” e “yours”. In italiano, però, i possessivi concordano con i nomi (mio, mia), in inglese “my” si applicherebbe a entrambi perdendo questa distinzione.
L’accordo di genere ha a che fare con il modificatore che concorda con il genere di un soggetto. In spagnolo, ad esempio, “la médica” sarebbe usato per una dottoressa e “el médico” per un dottore, in inglese il genere si perderebbe nuovamente.
Secondo il team di ricerca Google, sono state estratte “biografie da Wikipedia in base a occupazione, professione, lavoro e/o attività” per costruire un insieme che rappresenti allo stesso modo generi e aree geografiche differenti.
Google afferma che nonostante il dataset appena rilasciato consenta un nuovo modo di analizzare il pregiudizio di genere nella MT, “non copre l’intero problema”.
Piuttosto che essere prescrittivo nell’approccio ottimale alla correzione dei pregiudizi di genere, il team di Google ha affermato di mirare semplicemente a “promuovere i progressi su questa sfida in tutta la comunità di ricerca globale”.
Localizzazione a cura di Stefano Gaffuri.
Originale qui.