所有文章 > 正文

4篇Nature“霸屏”!史上最大规模人类遗传变异体数据库发布

作者: BioWorld

时间: 2020-06-02 21:38

人类基因组计划(HGP)使我们意识到基因组本质上只是一种抽象编码,只要我们能将这本“天书”读懂、读透,那我们就可以解锁生命的奥秘。

早在100多年前的19世纪,孟德尔(Gregor Mendel,1822-1884)盯着修道院花园里的豌豆,就开始思考为什么有的豌豆会开出白花,长出皱皮的种子。这个科学史上最孤独的天才,通过观察豌豆的突变性状,总结出了超越时代的基因分离定律基因自由组合定律

在21世纪的今天,生命科学领域已步入信息化的进程中,生物信息学在生物研究中也越来越重要。人类基因组计划(HGP)使我们意识到基因组本质上只是一种抽象编码,只要我们能将这本“天书”读懂、读透,那我们就可以解锁生命的奥秘。

事实表明,人类基因组中存在着大量的遗传突变,其中只有少部分可以导致明显的遗传性状,相对而言,更多的遗传变异仅从外表上是看不出来的,但并不意味着这些变异并不会对机体健康造成影响。

由此可见,对这些遗传变异进行功能性研究是十分必要的。

近日,国际顶尖学术期刊Nature上同时发表4篇重磅论文对一个新的、迄今最大规模的人类遗传变异体数据库——基因组聚集数据库(gnomAD)进行报道。此外,Natrue子刊 Nature MedicineNature Communications等也有gnomAD相关的论文发表。

接下来为大家快速解读这4篇Nature论文。

【功能丧失】

在基因功能研究中,研究人员常常对特定基因进行功能丧失(loss-of-function, LoF)突变,使其编码的蛋白质失活,从而认知这些基因变异体的突变效应。

值得注意的是,在自然种群中,对生物体至关重要的基因的突变个体往往会死亡,因而难以在群体中积累,与之相对,非必需基因具有较强的“兼容性”,因此可以在自然种群中长期并存。

基于上述,在第一篇文章中,研究人员描述了人类测序研究到基因组聚合数据库(gnomAD)的125748个外显子和15708个完整基因组的数据集。在对测序和注释错误造成的人工产物进行筛选后,研究小组确定了443769个高可信度的预测功能缺失变异

通过基于人类基因变异率的改进模型,研究人员对这些遗传变异进行分类,从对生理机能几乎没影响到导致严重的健康问题,以便更好地发现造成常见遗传病和罕见遗传病的基因

【识别候选药物靶点】

基因敲除实验仅能在细胞和动物模型中进行,而自然发生在人类群体中的、引起蛋白失活的遗传变异为科学研究提供了一个极好的体内模型。

在第二篇文章中,研究人员报告了3个关键的发现——关于使用功能丧失突变评估候选药物靶点:

①即使是不能耐受功能丧失变异的必需基因,也可以作为抑制药物的靶点;

②在大多数基因中,功能丧失变异非常罕见,因此基于基因型确定纯合子或复合杂合子的人类“敲除”将需要现有样本1000倍的样本量进行验证。

③虽然自动化的变异注释和过滤功能非常强大,但是手工管理仍然是删除人为引入误差的关键,也是根据基因型进行重新分类的先决条件。

总而言之,此项研究结果为人类基因敲除研究提供了路线图,并指导对药物开发中功能缺失变异的解释。

【结构变异资源库】

结构变异(SVs)重新排列了DNA的大片段,这可能对进化和人类疾病产生深远的影响。随着国家生物数据库、疾病相关研究和临床基因测试越来越依赖于基因组测序,gnomAD等已成为解释单核苷酸变异(SNVs)不可或缺的一部分。

然而,目前还没有高覆盖度基因组测序的SVs参考图可与SNVs相比。在第三篇文章中,研究人员基于gnomAD的14891个来自不同全球种群(54%非欧洲)的基因组构建了一个SVs的参考图。

研究人员发现,不影响基因功能的单核苷酸变异(SNVs)与缺失和重复突变之间存在很强的相关性。此外,他们还发现了顺式调控元件中针对非编码SVs的适度选择。

最后,研究小组确定了3.9%的样本中有罕见的SVs(数据量非常大)并且估计0.13%的个体可能携带符合现有临床重要偶然发现标准的SNVs

【临床解读】

来自患者和人群研究样本的DNA测序使得人类遗传变异的广泛分类,但对罕见遗传变异的解释仍然存在问题——即使在明显健康的个体中,剂量敏感疾病基因也存在缺失变异。

研究人员对上述我们提到在自然种群中存在的、发生遗传突变的基因大多是非必需基因,但有时候必需基因发生突变的个体也能存活的现象进行解释:其原因在于同一个基因通过不同的RNA剪接方式可以生成不同的转录本,而必需基因的遗传变异往往在某个表达受限的外显子中。

研究人员开发了一个转录级注释度量——“跨转录本表达的比例”,它量化了遗传突变的不同转录本的表达。研究小组通过11706个组织样本量化了计算了这个度量,并表明它可以区分弱保守外显子和高度进化保守外显子,后者代表了功能的重要性。

研究人员证实基于表达的注释选择性地过滤了在gnomAD中的错误注释,同时删除了同一基因中不到4%置信度的致病性遗传变异。此项研究成果将有助于罕见病的遗传诊断、分析多系统疾病中的罕见变异体负担

【结语】

总而言之,gnomAD是目前规模最大、覆盖面最全的人类遗传变异体数据库,这一宝贵的生物信息资源将有助于科研工作者进一步解读人类基因组信息,从而为人类彻底战胜常见或罕见遗传病再添基石!

参考资料:

https://www.nature.com/immersive/d42859-020-00002-x/index.html

https://www.nature.com/articles/s41586-020-2308-7

https://www.nature.com/articles/s41586-020-2267-z

https://www.nature.com/articles/s41586-020-2287-8

https://www.nature.com/articles/s41586-020-2329-2

本文经授权转载自“BioWorld”微信公众号,作者:iBioWorld。感谢原作者的分享。

往期回顾:

机器学习论文推荐|Evolving Normalization-Activation Layers

ICLR 2020 Spotlight!从梯度信噪比来理解深度学习泛化性能 | AI TIME PhD

机器人替身、《我的世界》花式毕业典礼之后,VR虚拟让毕业生大呼:丑到无法相认

[关于转载]:本文原载于“BioWorld”微信公众号,转载本文请联系原作者获取授权。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多