如何理解MutationAnnotationFormat格式
这篇文章给大家介绍如何理解Mutation Annotation Format格式,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
景洪网站制作公司哪家好,找创新互联公司!从网页设计、网站建设、微信开发、APP开发、成都响应式网站建设公司等网站项目制作,到程序开发,运营维护。创新互联公司从2013年创立到现在10年的时间,我们拥有了丰富的建站经验和运维经验,来保证我们的工作的顺利进行。专注于网站建设就选创新互联公司。
Mutation Annotation Format, 简称MAF, 是由TCGA制定的一种文件格式,用来存储突变注释信息。在TCGA中,对于突变数据有以下四种类型
Annotated Somatic Mutation, 体细胞突变的注释文件,格式为VCF, 采用VEP软件进行注释,文件后缀为vep.vcf.gz
Raw Simple Somatic Mutation, 体细胞突变的原始文件,格式为VCF, 文件后缀为vcf.gz
Aggregated Somatic Mutation, protected的突变注释文件,需要账号和权限才可以下载,格式为MAF, 文件后缀为maf.gz
Masked Somatic Mutation, open access的突变注释文件,免费下载的,格式为MAF, 文件后缀为maf.gz
在TCGA中,VCF通常用于记录单个样本的体细胞突变相关结果,MAF用于整合所有样本的体细胞突变注释结果,所以称MAF格式为project-level, 根据数据的开放性,又分为protected和open access, 其中open access就是我们可以直接下载得到的MAF文件, 以乳腺癌为例,在TCGA中提供了4个MAF文件
对应4个不同的体细胞突变calling软件,每个文件中包含了1044个样本的体细胞SNV注释结果。
MAF和VCF类似,也是一个纯文本的格式,由\t
分隔的许多列构成,从GDC下载的MAF文件的截图如下
#
开头的为注释行,其他部分为正文,每一列有一个固定的表头, 完整的MAF共有100多列,在实际处理中,我们可能没有这么多列的信息,常用的几列解释如下
column1, Hugo_Symbol, 由HUGO提供的gene symbol, 表示SNV所在的基因名称
column 2,Entrez_Gene_id, SNV所在基因的entrez id, 如果没有对应的基因,则用0表示
column 4,NCBI_Build, snv calling时使用的参考基因组版本
column5,Chromsome, SNV所在的染色体
column6,Start_Position, SNV在染色体上的起始位置
column7,End_Position,SNV在染色体上的终止位置
column9,Variant_Classification, SNV位点的分类,Missense_Mutation,Nonsense_Mutation等类别,分类的依据为SNV对翻译的影响
column10,Variant_Type, SNV位点的类型,比如SNP, INS,DEl等类型
column11,Reference_Allel, 参考基因组上的allel
column12,Tumor_Seq_Allel1, 肿瘤样本中该位点对应的主等位基因
column13,Tumor_Seq_Allel2,肿瘤样本中该位点对应的次等位基因
column16,Tumor_Sample_Barcode, 肿瘤样本的barcode
column17,Tumor_Normal_Barcode,配对的正常样本的barcode
每一列的详细含义见如下链接
https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/
MAF是专门针对human定义的一种文件格式,通过一个文件就可以包含所有样本的SNV和对应的注释信息,对于下游分析而言,非常的方便。在实际使用中, 对于VCF文件,可以通过vcf2maf将其转换为MAF格式,在后续文章中会具体介绍该软件的用法。
关于如何理解Mutation Annotation Format格式就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
文章题目:如何理解MutationAnnotationFormat格式
本文URL:http://scyanting.com/article/jgddec.html