I ricercatori del Technion-Israel Institute of Technology di Haifa e del Centro interdisciplinare (IDC) di Herzliya hanno dimostrato un significativo miglioramento dell’efficienza del processo necessario per conservare le informazioni digitali nel DNA.
In un articolo pubblicato sulla rivista Nature Biotechnology, il gruppo ha dimostrato la memorizzazione di informazioni con una densità superiore a 10 petabyte (un petabyte (PB) è un milione di gigabyte) in un singolo grammo di DNA migliorando significativamente il processo di scrittura.
Per capire l’entità potremmo dire che consente di archiviare tutte le informazioni memorizzate su YouTube nel volume di un singolo cucchiaino di DNA.
Lo studio è stato condotto dal ricercatore Leon Anavy, uno studente della facoltà di informatica di Technion, sotto la guida del professor Zohar Yakhini della facoltà di informatica di Technion e della scuola di informatica di Efi Arazi presso il Centro interdisciplinare Herzliya. Lo studio è stato condotto in collaborazione con il laboratorio di biologia sintetica del professor Roee Amit presso la facoltà Technion di biotecnologia e ingegneria alimentare.
La quantità di informazioni digitali disponibili per l’umanità è cresciuta a una velocità incredibile da quando IBM inventò il disco rigido negli anni ’50. La memorizzazione di queste informazioni è diventata una grande sfida non solo nel contesto tecnologico, ma anche per quanto riguarda gli aspetti economici e ambientali, poiché le server farm – i magazzini di informazioni che servono tutti noi – sono attualmente responsabili di circa il 2% delle emissioni globali di carbonio, un tasso simile all’emissione cumulativa del traffico aereo globale e per circa il 3% del consumo globale di elettricità, più del consumo di elettricità dell’intero Regno Unito.
Come si usa il DNA per memorizzare
In questo contesto, nell’ultimo decennio si è sviluppato un nuovo approccio tecnologico: la memorizzazione delle informazioni nel DNA. Questa tecnologia consente una significativa minimizzazione, una conservazione delle informazioni a lungo termine (mille volte) e zero costi energetici ed economici di manutenzione.
L’idea di base per codificare le informazioni sul DNA è che la molecola di DNA è una catena costituita da collegamenti chiamati nucleotidi. I nucleotidi sono divisi in quattro tipi contrassegnati con le lettere A, C, G e T. Per memorizzare informazioni nel DNA, ogni sequenza binaria (costituita dai simboli 0 e 1) deve essere tradotta in una sequenza composta da queste lettere. Nel passaggio successivo, in un processo chiamato sintesi, vengono prodotte molecole di DNA reali che rappresentano queste stesse sequenze. Per leggere i dati, queste molecole di DNA sono sequenziate. Il sequenziamento del DNA produce un output che rappresenta la sequenza nucleotidica che costituisce ogni molecola nell’input. Tale output viene quindi tradotto in una sequenza binaria che rappresenta il messaggio originale che è stato codificato. Le moderne tecnologie supportano la sintesi di molte migliaia di diverse serie di nucleotidi in parallelo.
La conservazione delle informazioni nel DNA è una sfida tecnologica molto complessa. Nel campo della lettura di informazioni (sequenziamento) ci sono stati enormi progressi guidati dalla rivoluzione del genoma; per la scrittura di informazioni, tuttavia, ci sono ancora significative difficoltà tecnologiche e i costi sono più onerosi. Perciò la svolta raggiunta da Technion e IDC Herzliya è così importante.
Consente di:
- aumentare il numero di lettere utilizzate per codificare le informazioni (oltre le 4 lettere originali);
- ridurre significativamente il numero di giri di sintesi necessari per memorizzare informazioni nel DNA;
- migliorare il meccanismo utilizzato per correggere degli errori.
I ricercatori del Technion e dell’IDC Herzliya hanno aumentato il numero effettivo di lettere oltre i quattro elementi costitutivi del DNA naturale, usando nuove lettere che sono combinazioni uniche delle lettere originali. L’idea è simile alla formazione di nuovi colori usando miscele di colori di base. L’aumento del numero di lettere consente di codificare più informazioni in ciascuna lettera della sequenza.
Secondo il Prof. Yakhini, “L’attuale processo di sintesi e sequenziamento è intrinsecamente ridondante perché ogni molecola viene prodotta in gran numero e viene letta in più copie durante il sequenziamento. Il metodo che abbiamo sviluppato sfrutta questa ridondanza per aumentare il numero effettivo di lettere ben oltre le quattro lettere originali, permettendoci di codificare e scrivere ogni unità di informazione in meno cicli di sintesi. ”
Il team è riuscito a ridurre il numero di cicli di sintesi richiesti per unità di informazione del 20%. Hanno anche dimostrato che il numero di cicli di sintesi potrebbe essere ridotto in futuro del 75% senza significativi sforzi di sviluppo. Ciò significa che il processo di archiviazione sarà più veloce e meno costoso.
“In questo lavoro, abbiamo implementato un sistema di archiviazione basato sul DNA che codifica le informazioni con efficienza di sintesi significativamente migliore rispetto all’approccio standard“, ha spiegato il prof. Amit. “Lo studio ha incluso l’implementazione effettiva della nuova tecnica di codifica per la memorizzazione di informazioni di grandi volumi nelle molecole di DNA e la ricostruzione per testare il processo.” In effetti, su uno degli scaffali del laboratorio del Prof. Amit presso il Technion si trova una piccola provetta contenente circa 10 nanogrammi (miliardesimi di grammo) di DNA, che codifica migliaia di copie di una versione bilingue della Bibbia.
Il gruppo di ricerca ha sviluppato meccanismi avanzati di correzione degli errori per superare gli errori che sono parte integrante dei processi biologico-fisici, come quello qui utilizzato. Parte della sequenza di DNA delle molecole che memorizzano le informazioni, progettata da Leon Anavy e dal Prof. Yakhini, viene utilizzata per la correzione degli errori.
Secondo Leon Anavy, “grazie all’utilizzo di codici di correzione degli errori che sono specifici per la codifica unica che abbiamo creato, siamo stati in grado di eseguire una codifica altamente efficiente e di recuperare correttamente le informazioni. Quando si lavora in un sistema costituito da milioni di parti (molecole), se si verifica anche un evento uno su un milione, questo può interrompere la lettura. Un’attenta codifica ci ha permesso di superare questi problemi. ”
Secondo i ricercatori, “la tecnologia che abbiamo presentato nel documento ha il potenziale per semplificare ulteriori processi in biologia sintetica e biotecnologia. Riteniamo che nei prossimi anni vedremo un aumento significativo dell’utilizzo del DNA sintetico nella ricerca e nell’industria”.
Il DNA sintetico utilizzato dai ricercatori e progettato dal gruppo è stato prodotto dalla Twist Bioscience, una società con sede in California che ha anche uffici a Tel Aviv. Il sequenziamento è stato eseguito presso il Genome Center di Technion. Lo studio è stato in parte sostenuto dal Horizon 2020 Framework Program for Research and Innovation della Commissione europea. Leon Anavy è membro del programma di studio ADAMS della Israeli Science Academy. Anche la dott.ssa Orna Atar e la studentessa di ricerca Inbal Vaknin sono state coinvolte nello studio.
Traduzione da https://www.technion.ac.il/en/2019/09/storing-information-in-dna/