“DNA领域的谷歌”来了

中国科学报
发布时间: 319次浏览

 4yh知多少教育网-记录每日最新科研教育资讯

互联网有谷歌,如今生物学领域有了MetaGraph。这款搜索引擎能快速筛选存储于公共数据库的海量生物数据。相关研究成果10月8日发表于《自然》。4yh知多少教育网-记录每日最新科研教育资讯

MetaGraph会为海量DNARNA和蛋白质序列档案建立索引。图片来源:Andrew Brookes/Connect Images/Science Photo Library4yh知多少教育网-记录每日最新科研教育资讯

  ?4yh知多少教育网-记录每日最新科研教育资讯

“这是一项了不起的成就。”法国巴斯德研究所的Rayan Chikhi表示,“他们为分析原始生物数据设定了新标准。”4yh知多少教育网-记录每日最新科研教育资讯

这些数据包括DNA、RNA和蛋白质序列,其来源数据库可包含万亿级的DNA碱基,数据量以拍字节计(1拍字节=1000万亿字节),条目数量甚至超过谷歌庞大索引中的所有网页。4yh知多少教育网-记录每日最新科研教育资讯

尽管MetaGraph被贴上“DNA领域的谷歌”标签,但Chikhi更倾向于将其比作“YouTube专用搜索引擎”,因为它背后的计算任务难度更高。4yh知多少教育网-记录每日最新科研教育资讯

就像在YouTube上搜索时,能够检索到所有以“红色气球”为特征的视频,即便标题、标签或描述中未出现这一关键词。MetaGraph同样无需提前对基因模式进行明确标注,就能找到隐藏在庞大测序数据集深处的基因模式。Chikhi说:“它实现了其他任何方法都无法完成的事情。”4yh知多少教育网-记录每日最新科研教育资讯

开发MetaGraph的初衷是为了解决测序数据集的可及性问题。过去几十年间,生物数据库的规模呈爆炸式增长,但这种增长也给使用这些数据的科学家带来了挑战——原始测序读数呈现碎片化、噪声多的特点,且数量庞大,无法直接进行检索。4yh知多少教育网-记录每日最新科研教育资讯

加拿大多伦多大学的Artem Babaian指出:“矛盾的是,数据量反而成了我们实际使用这些数据的最大障碍。”4yh知多少教育网-记录每日最新科研教育资讯

论文共同通讯作者、瑞士苏黎世联邦理工学院的André Kahles表示,MetaGraph能够帮助研究人员对序列读取档案库(SRA)这类数据库展开生物学相关问题的探索。SRA作为公共数据库,包含的DNA碱基已超过1亿亿个。4yh知多少教育网-记录每日最新科研教育资讯

研究团队借助数学“图谱”解决了数据检索难题。这种图谱能将重叠的DNA片段连接起来,就像图书索引里那些包含相同词汇的句子会被归在一起一样。4yh知多少教育网-记录每日最新科研教育资讯

研究人员整合了7个公共资助数据库的数据,构建出涵盖病毒、细菌、真菌、植物、动物,也包括人类的所有生物类群的序列集,其中包含1880万个独特的DNA和RNA序列集,以及2100亿个氨基酸序列集。同时,他们还为这些序列开发了一款搜索引擎,用户只需通过文本提示,就能检索这些整合后的原始数据档案。4yh知多少教育网-记录每日最新科研教育资讯

“这是一种与这类数据交互的全新方式。”Kahles说,“数据虽然经过压缩处理,但可实现即时访问。”4yh知多少教育网-记录每日最新科研教育资讯

为证明MetaGraph的实用价值,研究团队利用该工具,对全球241384个人类肠道微生物组样本进行了检索,旨在寻找抗生素耐药性的基因标志物。这项研究是在前期工作基础上开展的。此前研究人员曾利用旧版MetaGraph,追踪过全球主要城市地铁系统中细菌菌株的耐药基因。据团队介绍,在高性能计算机上完成这项分析仅需约1小时。4yh知多少教育网-记录每日最新科研教育资讯

MetaGraph并非目前唯一一款大规模序列检索工具。例如,Chikhi和Babaian共同开发了一个名为Logan的平台,该平台能将数十亿条短测序读数拼接成更长、更规整的DNA片段。这种设计架构使其能在比MetaGraph更大规模的测序读数集合中,识别出完整基因及其变异类型。不过这一优势也伴随着一定的取舍。Chikhi表示:“我们的工具功能较少,但性能更强。”4yh知多少教育网-记录每日最新科研教育资讯

凭借更广的检索范围,Logan帮助研究人员发现了超2亿个天然存在的“噬塑酶”变体,这些变体来源于多种细菌、真菌和昆虫,其中部分变体的活性甚至优于实验室设计的酶。9月,Chikhi和Babaian将这一发现公布于预印本bioRxiv。4yh知多少教育网-记录每日最新科研教育资讯

此外,研究人员还曾利用一款更早、功能更专一的病毒DNA数据库检索工具,发现了大量此前未被记录的病毒,以及用于治疗癌症的工程化T细胞疗法中的病毒污染物。4yh知多少教育网-记录每日最新科研教育资讯

Babaian认为,这类发现的实现离不开开源检索工具及其依托的公共测序数据库。目前,一些生物数据库正面临资金削减的威胁,他强调,这些检索技术的创新恰恰凸显了“开放数据共享至关重要”。4yh知多少教育网-记录每日最新科研教育资讯

“这些资源正推动全球科学进步。”Babaian说,“它们正在开启一个全新的‘拍字节级基因组学’领域,而其中最具影响力的应用尚未出现。”4yh知多少教育网-记录每日最新科研教育资讯

相关论文信息:https://doi.org/10.1038/s41586-025-09603-w4yh知多少教育网-记录每日最新科研教育资讯

https://doi.org/10.1101/2024.07.30.6058814yh知多少教育网-记录每日最新科研教育资讯

本文链接:http://knowith.com/news-3-4067.html“DNA领域的谷歌”来了

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

热门文章

延伸阅读

相关阅读

2023年辽宁高考状元是谁 2023年辽宁高考状元榜是由谁获得的?
2023年辽宁高考状元是谁 2023年辽宁高考状元榜是由谁获得的?很多朋友对这方面很关心,整理了相关文章,供大家参考,一起来看一下吧! 辽宁理科状元是刘浩宇,出自朝阳第一高中,总分为722分,文科状元是高溪屿
山西省太原市有哪些艺考培训机构
山西省太原市有哪些艺考培训机构很多朋友对这方面很关心,整理了相关文章,供大家参考,一起来看一下吧! 太原艺考培训机构排行榜前十如下: 1、太原舒曼艺术学校:自舒曼开办教学以来已经有16个年头,所
考研英语刷题有没有什么好的资料?
考研英语刷题有没有什么好的资料?相关内容,小编在这里做了整理,希望能对大家有所帮助,关于考研英语刷题有没有什么好的资料?信息,一起来了解一下吧! 考研英语刷题的好资料包括《考研英语真题集》、《
2024英语高考知识点 高考英语主谓一致知识点
最近经常有小伙伴私信询问2024英语高考知识点 高考英语主谓一致知识点相关的问题,今天,小编整理了以下内容,希望可以对大家有所帮助。 英语 完形填空 为什么难?对90%的同学来说,完形填空得不了高
高考要背的文言文及古诗 高考语文必背古诗词
小编今天整理了一些高考要背的文言文及古诗 高考语文必背古诗词相关内容,希望能够帮到大家。 高中必考古诗文 《望海潮》 柳 永 东南形胜,三吴都会,钱塘自古繁华。烟柳画桥,风帘翠幕,参差十万人家
佳木斯有什么大学
小编今天整理了一些佳木斯有什么大学相关内容,希望能够帮到大家。 有佳木斯市四丰职业技术学校,黑龙江林业卫生学校等。本文将介绍佳木斯市四所职业技术学校的基本情况。

热点精选

最新推荐

您可能感兴趣