近日,天津大學教授吳華明團隊開發(fā)了專為生物醫(yī)學圖像設(shè)計的 DNA 數(shù)據(jù)編解碼方案——HELIX。在生物醫(yī)學圖像讀取中,HELIX 方案的解碼速度可達到每秒 100,000 條,顯著改善了目前 DNA 數(shù)據(jù)存儲在讀取帶寬方面的缺陷。
圖 | 吳華明(來源:吳華明)
在濕實驗中,研究團隊將兩張共 60MB 的時空組學圖像編碼為 13 萬條、每條 183 個堿基的 DNA 序列。通過 DNA 合成與測序技術(shù),他們成功恢復(fù)了圖像數(shù)據(jù)。
實驗結(jié)果表明,HELIX 系統(tǒng)具備強大的魯棒性,甚至在約 5.8 倍的測序深度下,也能夠恢復(fù)圖像的絕大部分信息。
能更高效、更穩(wěn)定地將圖像數(shù)據(jù)存儲于 DNA 介質(zhì)中
與現(xiàn)有的 DNA 數(shù)據(jù)存儲方案相比,HELIX 在設(shè)計時充分考慮了長期存儲過程中可能發(fā)生的解碼失敗問題。針對這一挑戰(zhàn),研究團隊為 HELIX 引入了先進的容錯機制,確保即使在存在錯誤信息的情況下,仍能恢復(fù)圖像的部分內(nèi)容,從而有效規(guī)避了 DNA 數(shù)據(jù)存儲在長期保存中的信息完全損壞的風險。
該系統(tǒng)能夠更高效、更穩(wěn)定地將圖像數(shù)據(jù)存儲于 DNA 介質(zhì)中,具有顯著的技術(shù)優(yōu)勢。未來,醫(yī)療數(shù)據(jù)中心及生物信息領(lǐng)域可以利用 HELIX 方案,以低成本、高穩(wěn)定的方式存儲海量的生物醫(yī)學圖像,為醫(yī)學研究提供長期可靠的數(shù)據(jù)支持。
一方面,隨著醫(yī)療技術(shù)的不斷進步,醫(yī)學影像存儲的需求將持續(xù)增長,特別是在長期保存方面的需求尤為迫切。另一方面,醫(yī)學影像的存儲需求與 DNA 存儲的特點高度契合。醫(yī)學影像通常需要長期保存,并在必要時隨時恢復(fù)以便觀察患者病情的變化。
然而,由于 DNA 分子的合成和測序涉及復(fù)雜的生化過程,個人用戶很難獨立完成這一過程。因此,醫(yī)學影像更可能作為大規(guī)模數(shù)據(jù)中心的冷數(shù)據(jù)存儲,利用 HELIX 技術(shù)實現(xiàn)高效、長期的存儲和管理。
(來源:Nature Computational Science)
從 DNA 信息存儲技術(shù)的極高存儲密度說起
DNA 信息存儲技術(shù)是將信息編碼為四進制(A、T、C、G)形式,并通過合成 DNA 分子來實現(xiàn)數(shù)據(jù)的存儲。相較于傳統(tǒng)存儲方式,DNA 存儲具有顯著優(yōu)勢,最為突出的是其極高的存儲密度。
按照理論計算,1 克 DNA 可以存儲數(shù)百艾字節(jié)的數(shù)據(jù),這使得 DNA 存儲在未來的數(shù)據(jù)存儲領(lǐng)域具有無可比擬的潛力。此外,DNA 存儲的另一個顯著優(yōu)點是其極長的存儲壽命,能夠在數(shù)百甚至數(shù)千年內(nèi)穩(wěn)定保存數(shù)據(jù)。
然而,盡管 DNA 信息存儲在理論上具有如此強大的潛力,但在實際應(yīng)用中仍然面臨許多挑戰(zhàn),尤其是同步性錯誤問題。DNA 在合成和測序階段可能會出現(xiàn)堿基的插入、刪除和替換等同步性錯誤,這些錯誤嚴重影響數(shù)據(jù)的正確讀取和存取。
與在傳統(tǒng)信息通訊中常遇到的替換性錯誤不同的是,DNA 存儲中的同步性錯誤會對信息的恢復(fù)造成更為復(fù)雜的影響,從而影響其應(yīng)用的可靠性。
基于上述背景,本研究旨在探索并解決 DNA 存儲中的同步性錯誤問題,提出一種可靠的 DNA 存儲方案。
具體來說,研究團隊的研究目標是開發(fā)一套能夠有效識別、糾正 DNA 存儲中的常見同步性錯誤的技術(shù),確保數(shù)據(jù)在讀取過程中的準確性和穩(wěn)定性。
同時,研究團隊還希望能夠設(shè)計出專門針對潛在應(yīng)用場景的 DNA 存儲方案,尤其是針對特定數(shù)據(jù)類型或應(yīng)用需求的定制化存儲解決方案。
其認為,盡管 DNA 存儲在未來擁有巨大的潛力,但由于其現(xiàn)有的技術(shù)缺陷,未來的實際應(yīng)用可能仍需依賴于針對特定數(shù)據(jù)或應(yīng)用需求的專用 DNA 存儲方案。這些專用方案可以在保證存儲高效性的同時,更好地適應(yīng)不同類型的數(shù)據(jù)特性和錯誤容忍度,從而為 DNA 存儲的實際應(yīng)用奠定堅實的基礎(chǔ)。
HELIX:針對生物醫(yī)學圖像的專用 DNA 存儲系統(tǒng)
據(jù)介紹,研究團隊希望能夠開展一些具有開創(chuàng)性的工作,而不僅僅是單純的算法改進。因此,他們決定專注于開發(fā)基于特定領(lǐng)域的 DNA 存儲系統(tǒng),而非通用的 DNA 存儲解決方案。
其認為,DNA 存儲的未來發(fā)展不應(yīng)僅限于通用數(shù)據(jù)存儲,而應(yīng)更多地聚焦于特定領(lǐng)域的應(yīng)用。在此基礎(chǔ)上,研究團隊提出了專用 DNA 存儲標準的概念,這將比傳統(tǒng)的通用糾錯碼具有更好的效果。
經(jīng)過一系列討論和調(diào)研后,他們最終選擇了生物醫(yī)學數(shù)據(jù)作為本次課題的研究方向。其認為,生物醫(yī)學數(shù)據(jù)尤其是醫(yī)學影像數(shù)據(jù),在長期存儲和精確恢復(fù)方面有著獨特的需求,而 DNA 存儲技術(shù)非常適合這一應(yīng)用場景。
在明確研究方向后,接下來便是算法的設(shè)計與開發(fā)。研究團隊首先明確了算法的基本特性。吳華明對 DeepTech 表示:“我們并不僅僅追求提升性能,而是希望開發(fā)出一種在某些特定方面具有獨特優(yōu)勢的算法,這些優(yōu)勢是現(xiàn)有技術(shù)無法實現(xiàn)的。”
通過研究與討論后,他們決定創(chuàng)造一種新的圖像壓縮算法,這種算法不僅能夠高效地壓縮醫(yī)學圖像,而且特別針對 DNA 存儲中常見的錯誤特性進行了優(yōu)化,具備良好的容錯能力。這一獨特的容錯特性成為了研究團隊后續(xù)工作的指導(dǎo)思想。
在算法確定后,他們開始進行系統(tǒng)設(shè)計與優(yōu)化。期間,研究團隊圍繞著如何確保圖像數(shù)據(jù)在 DNA 存儲中能夠高效且穩(wěn)定地恢復(fù),進行了大量實驗與調(diào)試。同時,他們還考慮到解碼速度在醫(yī)學圖像讀取中的重要性,努力提升系統(tǒng)的解碼效率,以解決現(xiàn)有 DNA 存儲技術(shù)在讀取帶寬方面的不足。
最后,研究團隊進行了多次濕實驗以驗證所提出方案的實際效果。通過將圖像數(shù)據(jù)編碼為 DNA 序列,并通過 DNA 合成與測序技術(shù)恢復(fù)圖像數(shù)據(jù),研究團隊成功驗證了 HELIX 系統(tǒng)在存儲、恢復(fù)及解碼速度方面的優(yōu)越性。實驗結(jié)果表明,該系統(tǒng)具備強大的魯棒性和較高的容錯性,能夠有效應(yīng)對 DNA 存儲中的錯誤問題。
通過這幾個階段的深入研究和不斷優(yōu)化,研究團隊成功研發(fā)出了針對生物醫(yī)學圖像的專用 DNA 存儲系統(tǒng) HELIX。這一成果不僅為 DNA 存儲的應(yīng)用提供了新的思路,還解決了在實際應(yīng)用中遇到的一些關(guān)鍵技術(shù)難題。
接著,論文被原則性接收。對于他們所從事的計算機領(lǐng)域的研究,通常來說一旦論文被接收,修改的內(nèi)容不會太多,往往很快就能出版。然而,這次的期刊編輯對論文討論部分提出了很高的要求。
與研究團隊以往經(jīng)驗不同的是,期刊不僅要求他們針對成果進行總結(jié),還特別強調(diào)必須深入挖掘這項研究的意義和潛在影響。為此,他們反復(fù)修改了大約五版討論部分,最終才完成了出版版本。
這個過程非常辛苦,但也讓吳華明深刻體會到跨學科研究的挑戰(zhàn),尤其是在不同學科領(lǐng)域中,期刊的要求和審稿標準可能會有顯著差異。通過這次經(jīng)歷,吳華明更加意識到,了解并適應(yīng)各領(lǐng)域的不同要求,不僅能幫助研究團隊在具體的學術(shù)寫作中取得成功,也能為跨學科合作提供寶貴的經(jīng)驗。
日前,相關(guān)論文以《使用 HELIX 進行生物醫(yī)學圖像的 DNA 數(shù)據(jù)存儲》(DNA data storage for biomedical images using HELIX)為題發(fā)在Nature Computational Science(IF 12),Guanjin Qu 是第一作者,吳華明擔任通訊作者 [1]。
圖 | 相關(guān)論文(來源:Nature Computational Science)
未來,研究團隊相信 HELIX 將在醫(yī)學影像和其他生物醫(yī)學數(shù)據(jù)存儲領(lǐng)域發(fā)揮重要作用。HELIX 系統(tǒng)具備出色的擴展性,因此研究團隊的下一步計劃是將其應(yīng)用于更多領(lǐng)域的數(shù)據(jù)存儲。
具體來說,他們打算將 HELIX 擴展到深空圖像存儲以及顯微圖像存儲等其他應(yīng)用場景。深空探測和顯微成像等領(lǐng)域生成的數(shù)據(jù)量巨大且需要長時間保存,而 DNA 存儲的高密度特性使其在這些領(lǐng)域的應(yīng)用具有巨大的潛力。
此外,他們認為,DNA 存儲技術(shù)的落地化并不僅僅依賴于編碼系統(tǒng)本身,合成和測序等關(guān)鍵環(huán)節(jié)的優(yōu)化也同樣至關(guān)重要。因此,未來他們將著重于基于數(shù)學優(yōu)化方法,進一步提升這些環(huán)節(jié)的效率與準確性,以降低成本并提高系統(tǒng)的整體性能。
總的來說,接下來的研究不僅會拓展 HELIX 的應(yīng)用范圍,還將針對 DNA 存儲技術(shù)的各個環(huán)節(jié)進行優(yōu)化,推動其更廣泛地應(yīng)用于實際場景中。
參考資料:
1.Qu, G., Yan, Z., Chen, X. et al. DNA data storage for biomedical images using HELIX.Nature Computational Science5, 397–404 (2025). https://doi.org/10.1038/s43588-025-00793-x
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.