RNA剪接工具使用说明
简介
本工具基于深度学习的DanQ模型和Transformer模型,整合生物信息学中的E值算法,通过分析基因突变前后序列的剪接位点变化,预测突变对RNA剪接产物的潜在影响。
特别说明:
本工具仅评估突变对剪接位点识别的影响(如Donor/Acceptor位点强度变化),不涉及剪接调控元件(如增强子、沉默子)的功能分析。
实际mRNA剪接过程受多因素调控(如调控蛋白结合、表观遗传修饰),因此模型输出的剪接可能性不可直接等同于实际生物学结果,需结合实验验证。
参数说明
1、DanQ Score
模型原型:
DanQ模型采用卷积神经网络(CNN)提取DNA局部序列特征(如motif),结合双向长短期记忆网络(BiLSTM)捕捉长序列依赖关系,用于预测突变位点属于剪接Donor或Acceptor位点的概率。
分值范围:
0-1,分值越接近1,表示该位点为功能性剪接位点的可能性越高,即发生剪切可能性越大。
2、SPTransformer Score
模型原型:
SPTransformer基于自注意力机制,通过全局上下文建模分析序列中剪接位点的功能相关性,擅长处理长序列的复杂依赖关系(如内含子-外显子边界特征)。
分值范围:
0-1,分值越接近1,表示该位点在剪接过程中具有高特异性,即发生剪切可能性越大。
3、E-value
E值(Expectation value)通过比较模型预测的各剪接位点motif与基因组注释的已知剪接位点motif的相似性,评估突变位点附近序列的保守性及其与功能位点的关联程度。E值越低,表明该序列作为剪接位点的保守性越强,功能预测可靠性越高。
特别说明:
DanQ模型侧重局部模式与序列依赖,SPTransformer擅长全局语义建模,二者联合可提升剪接位点预测的召回率与准确性。
预测结果页面动态展示突变前后DanQ Score、SPTransformer Score及E-value的数值变化,AI Splicer工具通过多模型融合算法对上述指标进行协同计算,最终输出剪接影响的预测结论。
预测结果
结果页面动态呈现AI Splicer工具预测的剪接情况,剪接模式的结论标注于剪接图谱的左上角,剪接位点对应的评分变化值将通过悬浮信息卡片展示。
1、图标解释
2、结果展示
碱基序列发生变化后,可能引起不同的剪接路径选择。根据剪接结果分析,若剪接产物的长度是非3的整数倍,可能导致移码突变;若剪接产物中提前出现终止密码子,则可能引发翻译提前终止。
以下为AI Splicer工具预测的几种剪接结果:
(1) 保持原始的剪接模式
突变未改变剪接供体/受体位点的核心序列,剪接方式与野生型一致。
(2) 外显子截断
突变引起外显子区新剪接位点激活,新供体/受体导致外显子部分序列被截断。
(3) 外显子跳跃
供体/受体位点破坏且无隐蔽剪接位点补偿,导致整个外显子被跳过。
(4) 伪外显子插入
内含子区突变激活新剪接信号,使原本非编码的内含子序列被错误识别为外显子插入mRNA,即产生伪外显子。
(5) 内含子滞留
新剪接位点生成滞留
突变在原始剪接位点附近生成新的剪接信号,导致部分内含子序列被保留。
原始剪接位点一端被破坏,另一端直接与外显子连接,导致整个内含子序列被保留。
隐蔽剪接位点激活滞留
原始位点破坏后启用内含子的隐蔽剪接位点,导致部分内含子序列被保留。
知识回顾
1、基因组坐标体系
为描述内含子区域的变异特征,需明确基因序列坐标定义规则,如图示:
Star
"IVS"代表“内含子变异”(Intron Variation Site), 后接的数字代表内含子编号
2、突变描述
(1) “g.”以基因序列为参考序列
g.95T>G:基因组第95的T突变成G
g.123_124delCT:基因组第123-124位的C和T缺失
(2) “c.”以基因编码序列为参考序列
c.65T>G:CDS第65的T突变成G
c.68+1G>A:CDS第68位右侧1位的内含子序列的G突变成A
c.68-2A>T:CDS第68位左侧2位的内含子序列的A突变成T
c.52_53delTG:CDS的52-53位连续缺失T和G
c.52_53insAGG:CDS的52与53位间插入AGG
c.52_53delTGinsAGG:CDS的52-53位的TG缺失并插入AGG
c.-12C>T:5'UTR区域(转录起始位点上游12位)的C突变成T
c.*17G>T:3'UTR区域(转录终止位点下游17位)的G突变成T
(3) “p.”以蛋白序列为参考序列
p.Ala3Phe(或p.A3F):第3位丙氨酸(Ala)突变成苯丙氨酸(Phe)
p.Cys76Ter(或p.C76*):第76位半胱氨酸突变成终止密码子(无义突变)
p.Val12fs:第12位缬氨酸起始的移码突变
p.Met1dup:第1位甲硫氨酸重复(读码框内重复突变)
(4) 特殊变异类型补充
重复突变:c.112_114dupTAC(TAC三核苷酸重复)
倒位突变:c.89_91invTGG(TGG序列反向插入)
片段缺失:g.12300_12345del(基因组12,300-12,345位缺失)
微信
信息比对
科研助手
使用教程
回到顶部