人类正面临着一个数据存储的问题——全世界在过去两年中产生的数据比之前的数据总和还要多,并且这种信息迸发的趋势很快就将超过硬盘能够承载的能力。如今,研究人员报告说,他们想出了一种新的方式将数据编码进脱氧核糖核酸(DNA),从而创造出迄今最高密度大规模数据存储方案。
在这套系统中,1 克 DNA 具有存储 215 拍字节(2.15 亿千兆字节)的能力。原则上,它可以将人类有史以来的所有数据存储在一个大小和重量相当于两辆小货车的容器中。然而这项技术能否起飞主要取决于成本。
用 DNA 存储数据有很多优势。它是超级压缩的,并且在寒冷干燥的地方可以保存数十万年。同时只要人类社会还在读取和书写 DNA,他们就能够解码这些信息。
美国哥伦比亚大学计算机学家 Yaniv Erlich 表示:「DNA 不会像卡式录音带和 CD 那样随着时间而降解,并且它也不会过时。」此外不同于其他高密度的方法,如在一个表面上操纵单个原子,新技术可以一次书写和读取大量 DNA,从而使其按比例扩增。
科学家从 2012 年便开始将数据存储于 DNA 中。当时,哈佛大学遗传学家 George Church、Sri Kosuri 和同事,利用由 4 个字母 A、G、T 和 C 组成的 DNA 链编码 0 和 1 的数字化文件,从而将一本具有 52000 个单词的书籍编码到数千个 DNA 片段中。
然而研究人员当时特殊的编码方案效率相对低下——每克 DNA 仅能够存储 1.28 拍字节的数据。其他方法或许做得更好。但是,没有人能够存储超过研究人员认为 DNA 理论上可以实际处理的一半数量的信息——大约每个 DNA 核苷酸编码 1.8 比特数据。
Erlich 认为他能够接近这一极限。因此他与纽约基因组中心科学家 Dina Zielinski 分析了用于编码和解码数据的算法。他们从 6 个文件入手,包括一个完整的计算机操作系统、一种计算机病毒、1895 年拍摄的一部叫做《拉西约塔来了一辆火车》的法国电影,和由信息理论家 Claude Shannon 在 1948 年进行的一项研究。
研究人员首先将文件转换为 0 和 1 的二进制字符串,并将其压缩成一个主文件,然后将数据分割成二进制代码的短字符串。他们设计了一种被称为 DNA 喷泉的算法,能够将字符串随机打包为所谓的水滴,之后他们又增加了额外的标签以便以后能够按照正确的顺序重新组装这些字符串。总的来说,研究人员生成了由 72000 个 DNA 链组成的数字列表,每个 DNA 链的长度为 200 个碱基。
研究人员把这些文本文件交给了 Twist Bioscience,这是一家位于加利福尼亚州旧金山的初创企业,后者对这些 DNA 链进行了合成。两个星期后,Erlich 和 Zielinski 收到了一封邮件,里面有一个小瓶子,而瓶中便是编码了他们的文件的一点点 DNA。为了解码这些 DNA,两人使用了现代 DNA 测序技术。这些序列被输入计算机,在这里遗传编码被重新转换为二进制代码,并使用标签重组为 6 个原始文件。
研究人员在 3 月 2 日出版的 Science 杂志上报告说,这种方法工作得很好,新文件不包含任何错误。他们还可以通过聚合酶链反应(一种标准 DNA 复制技术)为这些文件制作几乎不受数量限制的无差错文件副本。Erlich 说,此外,他们能够在每个核苷酸编码 1.6 比特的数据,这比之前其他的任何方法多了 60%,并且是理论极限值的 85%。
「我爱这项工作。」目前供职于加利福尼亚大学洛杉矶分校的生化学家 Kosuri 说,「我认为这从本质上是一项决定性研究,表明你可以用这个规模在 DNA 中存储数据。」