引言
在综合征性先天性心脏病(sCHD)等复杂遗传疾病的研究中,鉴定致病基因是关键一步。拷贝数变异(CNV)是sCHD的重要病因,但一个CNV区域内往往包含多个基因,如何从中精准地"排序"并找出最相关的候选致病基因,是生物信息学分析的核心挑战。一项针对中国sCHD人群的大规模研究,展示了RDDC基因数据库在这一关键环节中的基础性支持作用。该研究利用了包括ToppGene在内的多种基因优先排序工具,而ToppGene的训练基因集部分来源于RDDC基因数据库,凸显了RDDC作为高质量数据源,在赋能下游分析工具、提升罕见病基因发现效率方面的重要价值。
研究挑战:从致病性CNV到候选基因
该研究通过染色体微阵列分析(CMA)对109例中国sCHD患者进行了检测,在24例患者中鉴定出29个致病性或可能致病性的CNV。这些CNV区域覆盖了多达1249个蛋白编码基因。面对如此庞大的基因列表,研究团队需要有效的策略来缩小范围,找出与CHD表型最相关的候选基因。
RDDC基因数据库赋能基因优先排序
为了解决这一挑战,研究团队开发了一套整合多种网络工具和数据库(包括VarElect、OVA、AMELIE和ToppGene)的基因优先排序流程。其中,ToppGene工具的一个关键优势在于其训练数据集的构建。该研究明确指出,ToppGene的训练基因集部分来源于RDDC基因数据库。RDDC基因数据库整合了大量基于已发表研究和公共数据库挖掘的CHD相关基因信息。
通过整合RDDC提供的经过整理和注释的CHD相关基因数据,ToppGene等优先排序工具能够学习到与心脏发育和疾病相关的基因特征模式。这使得它们在分析本次研究发现的CNV区域内基因时,能够更准确地评估每个基因与sCHD的关联度,从而给出更可靠的排序结果。
研究成果:锁定16个关键候选基因
借助包含RDDC数据支持的ToppGene等工具,研究团队成功地对CNV区域内的基因进行了有效排序。通过对四个工具排序结果的重叠分析,最终锁定了16个在所有工具中均被高度优先排序的候选基因(如ACVR2B、B9D1、FLCN等)。这些基因在小鼠心脏发育中高表达,进一步佐证了它们参与心脏发育的可能性。
本案例清晰地表明,RDDC基因数据库不仅是一个信息查询平台,更是驱动生物信息学分析工具开发和应用的基础资源。通过提供高质量、结构化的罕见病基因数据,RDDC有效支持了ToppGene等下游工具的开发和训练,间接但关键地提升了在复杂CNV数据中识别sCHD候选致病基因的准确性和效率,为深入理解疾病机制和开发新的诊断靶点奠定了基础。
内容来源与免责声明
本文是对以下科学研究的编译和解读,旨在展示 RDDC 生信工具在其中的应用。所有研究数据和结论归原作者和出版物所有。
原始文献:
Li P, Chen W, Li M, et al. Copy number variant analysis for syndromic congenital heart disease in the Chinese population. Human Genomics. 2022 Nov 2;16(1):47.






