Dall’invenzione della scrittura diverse migliaia di anni fa, gli umani hanno creato una miriade di scritture che trasformano i suoni fonetici delle lingue parlate in qualcosa di visivo. La maggior parte di queste lingue scritte è già stata decifrata, dai geroglifici egiziani, alle iscrizioni Maya, all’antica scrittura cinese.
Alcune volte, quando si è trattato di violare il codice delle lingue perdute, i linguisti hanno semplicemente avuto fortuna, ad esempio con la Stele di Rosetta. Altre volte, hanno trascorso anni a decifrare schemi nella disposizione delle lettere all’interno delle parole e delle parole nei testi per individuare gli elementi chiave.
Ma alcune lingue perdute continuano a turbare il sonno degli epigrafisti, coloro che studiano le antiche scritture. Ad esempio, gli scritti degli Olmechi e degli Zapotechi sono ancora un mistero, così come l’antica scrittura proto-elamita della Mesopotamia. La lingua non ancora decifrata più importante potrebbe essere quella della civiltà della valle dell’Indo, che ha visto numerosi tentativi di decodifica, nessuno ancora riuscito.
Mentre le lingue cambiano, molti dei simboli e il modo in cui le parole e i caratteri sono distribuiti rimangono relativamente costanti nel tempo. Per questo motivo, si può tentare di decodificare una lingua perduta da tempo se si riesce a capire la sua relazione con una lingua progenitrice nota. Questa intuizione è ciò che ha permesso al team composto da Jiaming Luo e Regina Barzilay del MIT e Yuan Cao del laboratorio di intelligenza artificiale di Google di utilizzare l’apprendimento automatico per decifrare la prima lingua greca, la Lineare B di circa 1400 a.C., e una lingua cuneiforme, l’Ugaritico (primo ebraico), che ha oltre 3000 anni.
Un esempio di decifrazione del passato
Nel 1886, l’archeologo britannico Arthur Evans trovò una serie di pietre e tavolette scritte in due diversi scritture sull’isola mediterranea di Creta. Uno, chiamato Lineare B, ha un’età di 3.500 anni (1400 a.C.) e risale a quando i micenei governavano l’isola. L’altro, Lineare A, è ancora più vecchio e risale al periodo tra il 1.800 e il 1.400 a.C., quando governava una civiltà dell’età del bronzo, i minoici.
Ma come è stata decifrata la Lineare B?
Nel 1953, il crittografo Michael Ventris ci riuscì grazie ad un’intuizione chiave sulla lingua da cui fu elaborata un’ipotesi.
Innanzitutto, le lingue non hanno un significato per caso; hanno un significato in modo intrinseco. E il significato che hanno è legato a ciò che gli esseri umani pensano. La maggior parte delle caratteristiche del linguaggio derivano da ciò che conta per noi. In secondo luogo, Ventris ipotizzò che la lingua fosse correlata ad almeno un’altra lingua i cui i documenti erano sopravvissuti.
La soluzione che trovò si basava su due scoperte decisive. In primo luogo, Ventris ipotizzò che molte delle parole ripetute nel vocabolario della Lineare B fossero nomi di luoghi sull’isola di Creta, cosa che si è rivelata corretta.
La sua seconda intuizione fu quella di supporre che la scrittura fosse la testimonianza di una prima forma di greco antico. Questo gli permise di decifrare immediatamente il resto della lingua. Nel processo, Ventris mostrò che il greco antico era apparso per la prima volta in forma scritta molti secoli prima di quanto si pensasse.
Sfortunatamente, questo approccio non poteva essere d’aiuto con il Lineare A, descritto al MIT Technology Review come “uno dei grandi problemi in sospeso nella linguistica di oggi“, infatti questi metodi non hanno funzionato.
Il metodo utilizzato dall’Intelligenza Artificiale
Affrontare le lingue antiche con l’Intelligenza Artificiale (AI) pone alcuni problemi particolari. Gli algoritmi di apprendimento automatico imparano analizzando enormi insiemi di dati in modo da apprendere attraverso le associazioni. La maggior parte delle scritture antiche ha un numero molto limitato di campioni, il che rende difficile alimentare un algoritmo con una quantità di dati sufficiente per l’apprendimento.
L’idea alla base di questa ricerca è che qualsiasi lingua può cambiare solo in determinati modi, ad esempio i simboli nelle lingue correlate vengono visualizzati con distribuzioni simili, le parole correlate hanno lo stesso ordine di caratteri e così via. Con queste regole diventa molto più facile decifrare una lingua, a condizione che sia nota la lingua progenitrice.
Quindi il processo inizia mappando queste relazioni per un linguaggio specifico. Ciò richiede enormi quantità di testo. Una macchina quindi analizza questo testo per vedere quanto spesso ogni parola appare accanto a ogni altra parola. Questa caratteristica unica determina il modo in cui la parola può apparire in qualsiasi traduzione che la macchina produce.
Non è una idea nuova, ovviamente. Un’infinita varietà di giochi di parole deriva dal fatto che solo determinate combinazioni e ordinamenti di parole sono corretti. L’apprendimento automatico sfrutta questo fatto proprio come ha fatto Ventris, ma con molte, molte più risorse.
Le lingue utilizzate
Le due lingue che hanno usato per le loro ricerche, Lineare B e Ugaritico, non sono tecnicamente non decifrate, poiché entrambe sono state ampiamente tradotte, ma sono buoni strumenti di allenamento per poi affrontare le lingue perdute. L’algoritmo dei ricercatori ha migliorato la loro conoscenza, identificando meglio le parole imparentate in Ugaritico e traducendo correttamente oltre i due terzi delle parole imparentate in Lineare B.
La Lineare B, usata in Grecia nel 1.400 a.C., non condivide radici linguistiche con l’Ugaritico, che proviene dalla Mesopotamia ed è ancora più antico. Ciò significa che l’IA ha dovuto analizzare sistemi linguistici completamente diversi utilizzando un unico approccio. Questo è un compito difficile in linguistica, dove la maggior parte delle scritture richiede strategie uniche per la decifrazione. Trovare un singolo metodo generalizzabile a più scritture renderebbe il lavoro molto più veloce.
Tuttavia, le poche scritture non decifrate ancora oggi disponibili potrebbero non avere linguaggi correlati da poter essere utilizzati come confronto. Ciò renderebbe difficile applicare questo approccio in tali situazioni.
Il prossimo obiettivo per gli scienziati? Forse la traduzione del Lineare A, la lingua greca antica che nessuno è riuscito a decifrare finora.
Fonte:
https://arxiv.org/abs/1906.06718: : Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B