非营利非商业性健康信息的可信来源
美国抗衰老、预防和再生医学学会的原始声音
标志 标志
遗传研究 人工智能 计算机与医学 医疗技术

个人电脑在几分钟内读取长DNA的全基因组组装

1年4个月前

13102 0
发布于2021年9月15日下午3点

麻省理工学院(MIT)和法国巴斯德研究所(Institut Pasteur)的科学家开发了一种在个人电脑上重建包括人类基因组在内的全基因组的技术。这种技术比目前最先进的方法快100倍,使用的资源只有目前的五分之一。这项研究发表在9月14日的杂志上电池系统,可以更紧凑地表示基因组数据,其灵感来自于单词(而不是字母)为语言模型提供浓缩的构建模块的方式。

文摘:总结

“DNA测序数据继续朝着更长的读取方向发展,测序错误率越来越低。在这里,我们定义了一种算法方法mdBG,它利用最小空间de Bruijn图来实现长读基因组组装。与现有方法相比,mdBG在速度和内存使用方面都取得了数量级的改进,而不影响精度。使用8个核心和10 GB RAM在10分钟内组装一个人类基因组,使用1 GB RAM在4分钟内组装60 Gbp的宏基因组读取。此外,我们构建了基于最小空间de Bruijn图的661405个细菌基因组表示,包括1600万个节点和4500万条边,并在12分钟内成功搜索了抗微生物耐药性(AMR)基因。鉴于基因组学、宏基因组学和泛基因组学中长读测序的兴起,我们预计我们的进展对序列分析至关重要。构造mdbg的代码可在以下网址免费下载https://github.com/ekimb/rust-mdbg/”。

“我们可以在一台普通的笔记本电脑上快速组装整个基因组和宏基因组,包括微生物基因组,”麻省理工学院计算机科学和人工智能实验室的西蒙斯数学教授、该研究的作者邦妮·伯杰(@lab_berger)说。“这种能力对于评估与疾病和细菌感染(如败血症)相关的肠道微生物组的变化至关重要,这样我们就可以更快地治疗它们并挽救生命。”

人类基因组计划(Human Genome Project)于2003年完成了第一个完整的人类基因组的组装,耗资约27亿美元,耗费了十多年的国际合作。自那以来,基因组组装项目已经取得了长足的进展。但是,虽然人类基因组组装项目不再需要数年时间,但它们仍然需要几天时间和巨大的计算机能力。第三代测序技术提供了tb级的高质量基因组序列,具有数万个碱基对,然而使用如此海量数据进行基因组组装已被证明具有挑战性。

为了比目前的技术更有效地接近基因组组装,包括在所有可能的读取对之间进行成对比较,Berger和同事转向了语言模型。基于德布鲁因图(一种用于基因组组装的简单、高效的数据结构)的概念,研究人员开发了一种最小空间德布鲁因图(mdBG),它使用称为最小化的核苷酸短序列而不是单核苷酸。

Berger说:“我们的最小空间de Bruijn图只存储了总核苷酸的一小部分,同时保留了整个基因组结构,使它们比经典的de Bruijn图高效几个数量级。”

研究人员将他们的方法应用于组装真正的HiFi数据(具有几乎完美的单分子读取精度)黑腹果蝇果蝇,以及太平洋生物科学公司(PacBio)提供的人类基因组数据。当他们评估得到的基因组时,Berger和同事们发现他们基于mdbg的软件所需的时间比其他基因组组装程序少33倍,随机访问内存(RAM)计算硬件少8倍。他们的软件对HiFi人类数据进行基因组组装,比Peregrine汇编器快81倍,内存使用量少18倍,比hifiasm汇编器快338倍,内存使用量少19倍。

接下来,Berger和同事们用他们的方法为661406个细菌基因组集合构建了一个索引,这是迄今为止同类集合中最大的一个。他们发现,这项新技术可以在13分钟内搜索整个抗微生物药物耐药性基因集合,而使用标准序列比对需要7个小时。

伯杰说:“我们知道我们的表示是有效的,但不知道在进一步优化代码后,它在真实数据上的伸缩性会这么好。”

巴斯德研究所的研究人员和小组负责人、该研究的作者之一RayanChikhi (@RayanChikhi)说:“总的想法是可行的,而且不需要大多数其他基因组组装方法所完成的一些通常昂贵的预处理步骤,比如错误纠正。”

伯杰补充说:“我们还可以处理错误率高达4%的测序数据。”“随着具有不同错误率的长读测序仪价格的迅速下降,这种能力为测序数据分析的民主化打开了大门。”

Berger指出,虽然该方法目前在处理PacBio HiFi读取时表现最好,错误率远低于1%,但它可能很快就会与牛津纳米孔的超长读取兼容,目前错误率为5-12%,但很快就会提供4%的读取。

伯杰说:“我们设想与实地科学家接触,帮助他们开发快速的基因组测试站点,超越可能遗漏基因组之间重要差异的PCR和标记阵列。”

这项工作得到了美国国立卫生研究院、ANR Inception、PRAIRIE和PANGAIA的支持。

就像你在网上读到的任何东西一样,这篇文章不应该被理解为医学建议;在改变你的健康计划之前,请咨询你的医生或初级保健提供者。

内容可以根据风格和长度进行编辑。

提供的资料:

https://www.cell.com/

https://www.sciencedaily.com/releases/2021/09/210914111232.htm

http://dx.doi.org/10.1016/j.cels.2021.08.009

https://www.cell.com/cell - systems/fulltext/s2405 - 4712 (21) 00332 - x

世界卫生视频

Baidu