如何理解CADD数据库

本篇文章为大家展示了如何理解CADD数据库,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

创新互联长期为数千家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为向阳企业提供专业的成都网站建设、网站制作向阳网站改版等技术服务。拥有十余年丰富建站经验和众多成功案例,为您定制开发。

衡量一个变异位点的影响时,通常都是给定一个变异类型,比如synonymous SNV 等,来表明其影响。CADD独创了一种打分算法,来衡量变异位点的有害程度。

对于一组变异位点,CADD 结合等位基因的多态性,变异的致病性等多个因素,构建了一套模型,对每个变异位点进行评估,并给出一个具体的得分,简称C-Scores。 统计模型直接给出的打分叫做RawScore, 这个值越高,代表该变异位点是一个有害突变的概率越高。

对于不同组的变异位点,比如对于1000G和ESP两批变异位点而言,由于各因素的差异,其模型是不同的,RawScore在不同模型间是无法直接比较的。所以提出了scaled C-scores的概念。对RawScores进行从大到小排序,采用-10*log10(rank/total)的公式计算出scaled C-scores。由于这个公式和phread的定义方式类似,所以scaled C-scores也叫做PHREAD

在分析潜在的致病变异位点时,通常会对PHREAD进行过滤。官方推荐阈值为10,15,20都可以,但是更加推荐结合C-Scores和其他实验证据来对变异位点的致病性进行评估,而不是单纯的进行一个数值过滤。

CADD官网提供了以下3种服务

1. 下载服务

链接如下:

http://cadd.gs.washington.edu/download

对应不同的数据集,比如1000G, ESP, Exac 等都给出了对应的 CADD score

如何理解CADD数据库

下载的文件内容如下:

#Chrom    Pos    Ref    Alt    RawScore    PHRED
1    861349    C    T    6.591020    31
1    865545    G    A    5.989520    27.8
1    865584    G    A    3.632951    23.2
1    865625    G    A    5.624605    26.6
1    865628    G    A    2.938829    22.0
1    865662    G    A    1.597527    13.84
2. 在线注释服务

通过在线服务,可以对变异位点进行CADD打分。链接如下:

http://cadd.gs.washington.edu/score

如何理解CADD数据库

上传VCF格式的文件,一次最多允许10000个变异位点,然后点击Upload variants就可以开始分析。结果如下

## CADD v1.3 (c) University of Washington and Hudson-Alpha Institute for Biotechnology 2013-2015. All rights reserved.
#CHROM    POS    REF    ALT    RawScore    PHRED
16    50745926    C    T    4.355927    24.1
20    1110696    A    G    0.142763    4.068
20    1110696    A    T    0.005222    2.636
20    1234567    TTCT    T    -0.369022    0.459
20    1234569    C    AC    -0.290183    0.699
3. 在线检索

链接如下:

http://cadd.gs.washington.edu/snv

在如下所示的页面中输入SNV位点的位置,然后点击Lookup variant按钮进行提交

如何理解CADD数据库

返回结果如下

如何理解CADD数据库

上述内容就是如何理解CADD数据库,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注创新互联行业资讯频道。


名称栏目:如何理解CADD数据库
分享链接:http://pwwzsj.com/article/ggipcc.html