8月18日,2022年武汉数字经济与医疗健康投资论坛暨「创投W+」项目投融资路演在武汉基金产业基地成功举办。

会上,华大松禾生科基金管理合伙人曾晓玉发表了《DNA存储,打开IT与BT的融合空间》主题演讲。

以下为演讲实录:

大家下午好!非常感谢武汉汉阳区和清科主办方的邀请,今天给大家分享一下DNA存储这样一个比较新的产业话题,它是怎样做到BT与IT的融合。

为什么出现DNA存储

我们可以看到在2040年,全球将会有3*1024bits的存储需求。最大的闪存制造商将会提供109kg,就是百万吨的硅晶圆产出。但是届时整个硅晶圆的供应量是107kg至108kg,还有两到三个数量级的缺口。

对于DNA存储来讲,我们不用芯片,不用硅基的介质,用全新的生物介质来看,1gDNA的存储量相当于420亿个USB的存储,从存储的介质来讲,差了几个数量级。所以我们可以预见到未来几个世纪,有几十公斤的DNA就可以满足对于冷数据存储的要求了。

DNA存储有很大的产业优势,这是由它的三个特性决定,一个是它的高密度,第二个是超稳定,第三个是低能耗的方案。

从存储密度来看,DNA就压缩0和1的数字文件信息量来讲,从10-19bit cm到10-13bit cm对比硬盘是有六个数量级,是它的百万分之一。稳定性,大家也知道DNA是在一个介质里面,对水和氧气是很敏感的,但是它是非常稳定的,我们可以知道历史保存最久的是160万年以前猛犸象的牙齿里面,可以读出完整的DNA片段。第三个,能耗低,只要你把它放到一个很稳定的存储空间里面,它所需的能耗是非常低的,这个也可以达到领先电子设备几个数量级的优势。

任何一个新的发现、新的技术手段首先是要经过假设,因为工具和技术的发展,使技术得以实现,到满足条件,然后正式启航。1959年,由一个天才的物理学家诺贝尔学奖的费曼提出来,DNA可以作为信息存储的假设。一直到70年代末80年代初,读取和书写DNA的方法也被提取出来。所以DNA的应用,会把它看成读、写、存三个维度。

DNA存储正式启航是到1988年,从最早的设想已经过去了接近30年。哈佛大学的戴维斯第一次设计并合成了一个包含18个核苷酸的DNA片段,并且把它转移到大肠杆菌之中。到2012年以后,DNA存储相关的应用就越来越多地报道了。首先是2012年以合成DNA片段的形式存储了5万字的书和一些影像信息。到2017年,一个巨头微软和华盛顿大学在DNA里面存储了200MB各种类型数据的文献。一直以来,DNA存储微软都是很深的介入,而且走得非常深。2012年,高通量DNA合成技术取得了突破,所以全球都在新的领域里面蓬勃发展。

我们看到中国的身影是在2021年到2022年,国内多个团队在DNA存储方面取得了非常多的技术突破,首先是高校方面我们看到天津大学构建了首个存储信息的人工染色体,清华大学开发了基于镜像的DNA存储技术,包括今年天宫所创建了二步循环法的DNA合成技术。然后是华大生命研究院也在双编码的技术上面,在《自然》杂志的子刊上发布了一些很高分的文章。

DNA存储是怎么实现的

它其实是有六个步骤,从编码到合成、储存、检索、测序、解码。主要原理就是把数据文件的01,01有四个编列组合,对应成DNA里面的AGCT四个碱基,做一个编码。将原始数据01的序列转化成DNA分子的碱基序列,通过人工合成把已知的AGCT合成DNA的片段,合成片段之后再把它存储。它以适当的形式,不管是粉状、溶液状、胞内都可以作为存储,存储在基因库里面。如果是需要数据调用的时候,我们首先要做一个检索,找到目标DNA的序列,再通过一些PCR的引物把相应的序列从库里面检索出编码DNA,为下一步测序做准备。第五步就是测序,现在基本上可以用高通量的测序。第六步,把经过测序的序列DNA,把它的碱基AGCT,再把它映射回数字的01、01里面,这个就是一个完整的DNA存储的数据。也因为这样的过程,它才能够实现很高密度的存储,而且保存时间非常长,是一个非常好的冷数据的储存介质。

任何产业都离不开工具和技术的创新,可以看到合成技术就是写的技术发展。在1960年到2000年40年的时间,是化学合成法,这是一代的技术。2004年到现在,现在已经技术成型了,有一些通量高成本低的合成技术,包括了也有一些微阵列、半导体等等,有一些上市公司都在做一些合成仪。到现在又出现新一代的生物酶合成的方法、写的方法,这是第三代生物酶的方法。

为什么这个很新的存储介质,还没有大规模应用和商用?这六步里面,其中有两个步骤是特别关键的,就是合成和测序,是来自最底层的生物学工具,也是最重要的成本来源。经过20来年的时间,测序成本变得非常低了。从世纪初的1亿美金下降到1000美金,测序现在已经应用到医疗和健康里面。但是合成来讲,成本下降还是非常平缓,还有很大的技术难点要突破。美国情报研究发展局预测到希望2024年整个合成成本1GB,降到1个美元,到2030年,1TB降到1个美元,有三个数量级的成本下降。

因为成本下降才带来了产业化的突破,在医疗生物其他应用的加速之下,我们看到国内的合成和测序的新兴公司都已经开始涌现了,越来越多的从合成生物到DNA存储,到泛基因合成的公司进入到专业的投资人眼中。

整个DNA存储仍然面临非常多的挑战,因为它在六个步骤里面,前面、后面是编码和解码,这里面我们面临的挑战就是要降低成本、提高速度,而且要让信息密集化。中间的合成、测序和储存,每个步骤都有不同的难度。

合成是一个瓶颈,因为在合成过程中的错误率,难以合成更大片段的DNA,或者是一个核苷酸里面有一些重复的序列或者是富含C或G,就让某些人工合成的序列难以合成。还有它会比较昂贵,另外还有一些化学污染、耗时等等。在测序这一步里面,大家研究了这么多年,华大智造整个测序成本已经实现了突破。

到了存储方面也面临一些挑战,比如说自动化、高成本,以及存在污染的潜在风险。刚才讲到整个DNA存储实现的范式。

有哪些应用场景

在大数据存储方面是冷数据存储,80%的冷数据存储性能需求低,要求成本低,存储时间长,这里面跟DNA存储是非常匹配的。大家头脑风暴的时候,说未来人类的星际旅行,可以把数据化的信息存储到DNA里面,带到外太空,这是很科幻的事情。

另外一个新型的数据加密,DNA也可以用于个人加密存储的私密信息或者一些重要物品的防伪。一般我们会建议在离线设备上加密,它会比传统的计算机有更无可替代的优越性,比如说隐藏在眼镜里面等等。

在精准医学方面,有分子追踪系统,比如说用于医学上找到基于酶促反应追踪单个分子反应物分子的DNA轨迹等等,华盛顿大学和微软也开始发行了新型的条形码“豪猪”分子标签系统,它非常适合定位和追踪。在精准医学方面,我们也可以用于DNA计算,包括计算肿瘤,这里面能够把肿瘤和正常的分离出来,这还是一些早期的研究。

总的来看这个市场规模分析,最大的就是大规模冷数据的存储,可以替代现在投资非常昂贵高能耗的IDC存储。目前中国IDC在全球市场占10%,整个市场规模是1100多亿。如果能够被DNA存储替代,按照5%的市场渗透率和部分商业化来看,我们预计2026年的时候DNA存储在数据存储IDC的市场细分规模也能够达到1000多亿。

第二个类型是数据加密,可以把数据放到眼镜里面。这个网络安全的投入全球有接近万亿的市场,复合增长率是10%,以预计1%的市场渗透率和商业化来讲,DNA存储加密的市场规模也有100多亿。

另外就是分子标签,比如说微软的豪猪系统,它有100多亿。我们预计到五年之后,整个全球的市场有1800多亿的规模。

可以发现在我们的预测模型里面中国有最高的年化增长率。这是一个国外媒体讲的,中国在这个方面是属于异军突起,因为最早虽然在美国开始,但是中国在技术和产业上有一些突破,发展是非常快的。

从每个新的技术到大规模商业应用的产生,大概需要十年左右的时间。所以我们在这个时间节点来回顾过去展望未来,我觉得DNA它因为具有生物和数字的双重属性,是可以把BT和IT作为非常好的融合的介质和手段,是有非常好的想象空间。

非常感谢主办方邀请,让我们有机会给大家介绍、展示一下目前的研究。我们所在的机构,松禾投了很多创新技术,在自动驾驶、半导体领域都做了非常多的投资。华大的拟上市公司华大智造,跟咱们武汉有非常深的渊源和感情。

以上是我今天的介绍和分享,谢谢大家!