Bill Waawaate è indigeno, intelligente, istruito e il fondatore milionario di un’azienda di motoslitte di grande successo. È anche un supereroe dei fumetti di una First Nation (Prime Nazioni, in italiano) in Canada. “L’obiettivo è quello di aiutare i canadesi a comprendere la cultura indigena e cancellare gli stereotipi sulle comunità delle First Nations”. Sostiene Joseph John, il designer ed editore della serie di fumetti Citizen Canada . Johns voleva che il suo personaggio dal copricapo piumato parlasse inglese, francese e Cree, una lingua parlata da oltre 95.000 persone delle First Nations.
Pensava di poter contare sull’aiuto di Google Translate. Ma l’app, che supporta 109 lingue, non prevede la possibilità di tradurre il Cree o nessuna delle circa 150 lingue indigene parlate oggi in Nord America.
Così Johns ha lanciato una petizione online chiedendo a Google di aggiungere il Cree al suo motore di traduzione. Questa petizione ha ricevuto quasi tutte le 7.500 firme sperate.
“Per me, semplicemente non ha senso”, ha detto John a VOA. “Google Translate supporta il maori, la lingua indigena della Nuova Zelanda, parlata solamente da circa 50.000 persone. Come può un’azienda con 135.000 dipendenti, che lavorano in 40 nazioni in tutto il mondo, non trovare le risorse per aggiungere la lingua indigena più parlata del Canada? “
La risposta di Google.
“Le lingue indigene sono davvero importanti per noi”, ha detto via e-mail il portavoce di Google Justin Burr. A quanto pare, tuttavia, il Cree è una lingua “a basse risorse”, il che significa che non ci sono abbastanza traduzioni scritte di documenti Cree per popolare e addestrare i sistemi di traduzione automatizzata come Google.
“Ci appoggiamo molto alla nostra comunità di collaboratori, che consente ai madrelingua di aggiungere feedback o verificare le traduzioni per le lingue supportate e quelle da aggiungere”. “Oltre a ciò, stiamo lavorando a nuove tecniche di apprendimento automatico che ci consentano di aggiungere quelle lingue a basse risorse e, quindi, con meno dati di addestramento”.
Il linguista dell’Università del Colorado Andrew Cowell è specializzato in documentazione in lingua indigena. Ha spiegato a VOA alcune delle sfide che deve superare una macchina per poter tradurre le lingue indigene.
“La maggior parte delle lingue del mondo non sono scritte. Sono parlate come lingue domestiche o comunitarie e non vengono usate regolarmente in modalità scritta”, ha detto Cowell. “Lo schema è lo stesso in tutto il mondo e prevede l’uso di queste lingue a casa, servendosi della lingua nazionale per la scrittura. E così quella lingua non è presente online. E se anche lo fosse, non ci sarà alcun sistema di scrittura standardizzato perché le persone lo inventano di volta in volta”.
L’aggiunta di una lingua a Google Translate richiede l’inserimento di “centinaia di milioni di parole”, secondo Cowell. “e i corpora devono essere dati puliti“, ovvero dati che presentano tutti le stesse convenzioni ortografiche e grammaticali”.
Il Cree è in realtà composto da una serie di dialetti che cambiano gradualmente in tutto il Canada. In effetti, questi dialetti vengono considerati dai linguisti come più lingue diverse. “Anche all’interno di questi dialetti, c’è una buona dose di variazione regionale. Quindi, la lingua Cree risulta più complessa di quanto suggerirebbe il numero totale di parlanti”.
Lavori in corso
Google afferma di essere all’opera per aggiungere il Guarani, una lingua indigena parlata in Paraguay, Brasile e Bolivia, l’Inukitut, parlato nell’Artico nordamericano e in Groenlandia, e il Tsalagi, la lingua Cherokee.
Il Cherokee Nation’s Language Program ha trascorso quasi due anni lavorando con Google alla traduzione di più di 50.000 termini tecnologici in Cherokee e ha sviluppato un font sillabico che Google ha già aggiunto al suo motore di ricerca, così come Gmail, Chromebook e Android.
Ma l’aggiunta di Tsalagi a Google Translate richiederà più tempo, e denaro.
“Stiamo solo studiando la quantità di risorse e manodopera che richiederà”, ha detto Roy Boney, manager del programma linguistico della Cherokee Nation, in una dichiarazione inviata per e-mail a VOA. “Attualmente, stiamo consultando linguisti presso l’Università del New Mexico e l’Università di Città del Messico e stiamo anche valutando opportunità di sovvenzioni per espandere la nostra base di ricerca”.
Per quanto riguarda il Cree, e molte altre lingue indigene, Cowell sostiene che si dovrà aspettare, aggiungendo: “Penso che ci sarà un numero crescente di comunità che inizieranno a scrivere con una sorta di ortografia standardizzata, spero che altre lingue indigene siano aggiunte in futuro ai motori di traduzione come Google “.
Localizzazione a cura di Stefano Gaffuri.
Originale qui.