Science|人类和灵长类动物中可耐受的遗传变异图谱

Release Time: 2023-06-08

  介绍:

  到目前为止,数百万人已经接受了全基因组和全外显子组测序,这是一个巨大的投入,首次揭示了在物种内作为个体区分遗传差异的广泛目录。然而,大多数这些基因变异的影响仍然未知,限制了它们的临床实用性和可操作性。能够准确区分致病突变和良性突变,并在全基因组范围内解释基因变异的新方法,将构成实现个性化基因组医学潜力的有意义的初始步骤。

 

图1.science官网截图(图片来源于基因检测与解读)

 

  方法:

  由于人类和非人类灵长类动物之间的进化距离短,该研究的蛋白质几乎完美地分享了相似的氨基酸序列。因此,一旦在同一物种中发现蛋白质突变的影响,这种影响很可能在另一物种中也存在。通过系统地记录非人类灵长类动物的常见变异,研究旨在将这些变异注释为不太可能引起人类疾病的变异,因为在密切相关的物种中这些变异已被自然选择所容忍。一旦数据被收集,该资源的结果可用于使用机器学习来推断全基因组中未观察到的变异的影响。

 

图2.来源于基因检测与解读

 

  结果:

  根据上述策略,针对233个灵长类动物物种中的809个个体进行了全基因组测序,并记录了430万个常见的错义突变。研究发现,人类错义突变中,至少在一个非人类灵长类动物物种中出现的错义突变都被ClinVar临床变异数据库注释为良性,占到了99%。相比之下,灵长类动物以外的哺乳动物和脊椎动物的常见变异在ClinVar数据库中的良性比例显著较低(仅占71%至87%),因此,这种策略的应用范围局限于非人类灵长类动物。总体而言,重新分类了超过400万个以前未知的人类错义突变,认为它们很可能是良性的,这使得注释错义突变的数量比现有临床数据库增加了50倍以上。

  为了推断人类基因组中剩余错义突变的致病性,研究开发了一个半监督三维卷积神经网络,名为PrimateAI-3D,可运行于体素化的蛋白质结构上。使用半监督学习将PrimateAI-3D训练为能够在三维空间中分离常见的灵长类动物变异和相应的对照变异。将经过训练的PrimateAI-3D模型与15个其他已发表的机器学习方法一起评估,以评估它们在六个不同的临床基准测试中区分良性和致病变异的能力。结果表明,PrimateAI-3D在每个任务中表现均优于所有其他算法。

图3.来源于基因检测与解读

 

图4.来源于基因检测与解读

 

  结论:

  研究解决了变异解析领域的一个重要挑战,即缺乏足够的标记数据以有效地训练大型机器学习模型。通过生成了迄今为止最全面的灵长类动物测序数据集,并将该资源与利用三维蛋白质结构的深度学习架构相结合,实现了在多个临床基准测试中变异效应预测的显著改进。

文章来源于基因检测与解读