合成DNA作為一種高密度數(shù)據(jù)存儲(chǔ)介質(zhì),多年來一直吸引著數(shù)字未來學(xué)家。整個(gè)互聯(lián)網(wǎng)可以被編碼成鞋盒大小的DNA鏈,而DNA分子非常穩(wěn)定,可以持續(xù)數(shù)萬年甚至幾十萬年。例如,2013年,科學(xué)家們對(duì)一具70萬年前的馬化石的整個(gè)基因組進(jìn)行了測(cè)序。
一旦儲(chǔ)存起來,DNA幾乎不需要任何維護(hù)。畢竟,化石在地下生活了數(shù)百萬年后仍然保存著DNA序列。DNA存儲(chǔ)也不需要任何能量--在有人決定訪問它之前,只需要一個(gè)涼爽、黑暗的地方就可以了。
然而,將一種數(shù)據(jù)格式轉(zhuǎn)換為另一種格式并不簡單。德克薩斯大學(xué)奧斯汀分校(University Of Texas At Austin)的研究團(tuán)隊(duì)提出了一種在DNA鏈中存儲(chǔ)信息的方法,同時(shí)也糾正了錯(cuò)誤。他們開創(chuàng)了一套DNA數(shù)據(jù)編碼和解碼算法,可能會(huì)開創(chuàng)高密度、長期數(shù)據(jù)存儲(chǔ)的新領(lǐng)域。
其工作讓人想起了開創(chuàng)量子密碼技術(shù)領(lǐng)域的里程碑式的BB84 protocol,有朝一日,它將成為基因組數(shù)據(jù)存儲(chǔ)應(yīng)用領(lǐng)域的基礎(chǔ),而基因組數(shù)據(jù)存儲(chǔ)應(yīng)用是以每克千兆字節(jié)為單位重新想象而來的。
Stephen Jones是Press所在小組的博士后,也是《美國科學(xué)院院刊》(Proceedings of the National Academy of Sciences)論文的合著者,他說,最好從了解數(shù)據(jù)存儲(chǔ)錯(cuò)誤通常在哪里蔓延開始。
像所有的數(shù)據(jù)存儲(chǔ)方法一樣,DNA也有一些缺點(diǎn)。最重要的前期障礙是成本。除此之外,DNA也容易出錯(cuò)。回想一下組成DNA階梯的四個(gè)核苷酸堿基。平均而言,DNA在每100到1000個(gè)核苷酸中會(huì)引入一個(gè)錯(cuò)誤。它們可以采取三種形式:替換、插入和刪除。
在替換突變中,一串核苷酸中的一個(gè)字母可能會(huì)被換成另一個(gè),DNA鏈的長度保持不變。然而,在插入或缺失時(shí),DNA會(huì)獲得一個(gè)額外的核苷酸堿基,或者移除一個(gè)堿基。但與計(jì)算機(jī)代碼中的錯(cuò)誤不同的是,在移除的堿基曾經(jīng)居住的地方?jīng)]有留下任何空間,當(dāng)你去解碼存儲(chǔ)在DNA中的數(shù)據(jù)時(shí),這可能很快就會(huì)出現(xiàn)問題。
事實(shí)上,DNA數(shù)據(jù)存儲(chǔ)的相對(duì)性質(zhì)是Press,Jones和合著者的HEDGESprotocol的關(guān)鍵。他們的研究方案中沒有一個(gè)單獨(dú)的核苷酸包含有用的數(shù)據(jù)。相反,正是核苷酸序列的積累提供了一個(gè)強(qiáng)大的存儲(chǔ)系統(tǒng),他們預(yù)測(cè)這個(gè)系統(tǒng)可以實(shí)現(xiàn)DNA的高密度潛力,同時(shí)還能經(jīng)久不衰。
研究小組使用了L. Frank Baum的The Wizard of Oz,并將其翻譯成世界語,作為他們要存儲(chǔ)的樣本數(shù)據(jù)集。Jones說,現(xiàn)在合成的DNA通常是由大約100對(duì)堿基組成的。這就是他們的“硬盤”的基礎(chǔ)。
因此,他們的研究方案需要能夠被分割成數(shù)千或數(shù)百萬的幾百個(gè)核苷酸序列,每一個(gè)序列都包含重組源文本所需的信息,即使存在未知數(shù)量的替換、插入和刪除錯(cuò)誤。
然后,將The Wizard of Oz編碼成DNA,涉及到通過“外部”編碼層和“內(nèi)部”編碼層傳遞數(shù)據(jù)。(將這些步驟看作是復(fù)雜密碼標(biāo)準(zhǔn)中的兩個(gè)獨(dú)立算法。)
外層將源數(shù)據(jù)對(duì)角化,這樣任何給定的DNA鏈都將包含信息許多部分的碎片。內(nèi)層,即模糊限制,然后根據(jù)一種算法將每一位轉(zhuǎn)換成A、C、T或G,該算法既依賴于該位的零或一個(gè)值,又取決于它在數(shù)據(jù)流中的位置的附加信息,以及它前面的數(shù)據(jù)位。
然后,一旦Oz被翻譯成核苷酸的語言,它就可以被寫在合成的DNA鏈上了。
“我把DNA打得粉碎,”Jones表示,“它顯示了DNA是多么強(qiáng)大。”從DNA存儲(chǔ)器中解碼數(shù)據(jù)需要首先對(duì)the Wizard of Oz的基因組進(jìn)行測(cè)序,然后將這些遺傳數(shù)據(jù)轉(zhuǎn)換回位。一旦他們弄清楚哪些位是“address”位,他們就可以將剩余的信息位串回到一個(gè)單獨(dú)的、連接的數(shù)據(jù)文件中。
博士后研究員、合著者John Hawkins表示,“展望未來,基于DNA的存儲(chǔ)的潛力幾乎是無限的。他提出了一種未來的愿景,在那里,用數(shù)據(jù)編碼的DNA可以被合并到其他材料中。”
即使團(tuán)隊(duì)已經(jīng)取得了突破,但基于DNA的數(shù)字存儲(chǔ)還需要一段時(shí)間。研究人員表示,“數(shù)據(jù)能否保存到未來只是問題的一半。你還需要在另一端能夠閱讀。只要人類是由DNA構(gòu)成的,我們就會(huì)一直希望周圍的機(jī)器能夠讀取DNA。但我不認(rèn)為它會(huì)在十年或更長時(shí)間內(nèi)可成為大眾市場(chǎng)產(chǎn)品。”
-
算法
+關(guān)注
關(guān)注
23文章
4697瀏覽量
94715 -
數(shù)據(jù)存儲(chǔ)
+關(guān)注
關(guān)注
5文章
997瀏覽量
51610 -
DNA
+關(guān)注
關(guān)注
0文章
244瀏覽量
31414
原文標(biāo)題:科學(xué)家為何將“The Wizard of Oz”儲(chǔ)存在DNA中
文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
PanDao:光學(xué)設(shè)計(jì)中的光學(xué)加工鏈建模
一種分段氣隙的CLLC變換器平面變壓器設(shè)計(jì)
一種無刷直流電機(jī)霍耳信號(hào)與定子繞組關(guān)系自學(xué)習(xí)方法
一種多模態(tài)駕駛場(chǎng)景生成框架UMGen介紹

MTP在云存儲(chǔ)中的應(yīng)用前景
一種混合顏料光譜分區(qū)間識(shí)別方法

一種面向飛行試驗(yàn)的數(shù)據(jù)融合框架

一種信息引導(dǎo)的量化后LLM微調(diào)新算法IR-QLoRA

一種創(chuàng)新的動(dòng)態(tài)軌跡預(yù)測(cè)方法

一種半動(dòng)態(tài)環(huán)境中的定位方法

DNA計(jì)算機(jī)研究取得突破性進(jìn)展:PB級(jí)數(shù)據(jù)存儲(chǔ)與高效處理
一種無透鏡成像的新方法

高壓放大器在HIFU換能器和聲場(chǎng)測(cè)量研究中的應(yīng)用

評(píng)論