Variant Call Format
Tipus | format de fitxer |
---|---|
Extensió | vcf |
Desenvolupador | Projecte dels 1000 genomes |
Més informació | |
Wiki del format de fitxer | VCF |
PRONOM | fmt/905 |
El Variant Call Format (VCF) és un format de fitxer de text que s'utilitza en bioinformàtica per a emmagatzemar informació sobre les variacions en la seqüència dels gens. El format s'ha dissenyat sota l'aixopluc de grans projectes de seqüenciació de l'ADN i genotipatge, com ara el Projecte 1000 Genomes.
Es va veure la necessitat d'un nou format, perquè altres formats ja existents per emmagatzemar dades genètiques, com ara el General Feature Format, en utilitzar-se per a diferents genomes inclourien masses dades redundants. Amb el VCF només es desarien les diferents variacions respecte a un genoma de referència.
A part, el Projecte 1000 Genomes ha desenvolupat les seves pròpies especificacions per a variacions estructurals, com ara duplicats, difícils d'acomodar en l'esquema existent.[1][2][3] També existeixen un grup d'eines per editar i manipular els fitxers VCF.[4]
Exemple
[modifica]##fileformat=VCFv4.0 ##fileDate=20110705 ##reference=1000GenomesPilot-NCBI37 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth"> ##INFO=<ID=AF,Number=.,Type=Float,Description="Allele Frequency"> ##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele"> ##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129"> ##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership"> ##FILTER=<ID=q10,Description="Quality below 10"> ##FILTER=<ID=s50,Description="Less than 50% of samples have data"> ##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality"> ##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype"> ##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth"> ##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality"> #CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2 Sample3 2 4370 rs6057 G A 29. NS=2;DP=13;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,. 2 7330. T A 3 q10 NS=5;DP=12;AF=0.017 GT:GQ:DP:HQ 0|0:46:3:58,50 0|1:3:5:65,3 0/0:41:3 2 110696 rs6055 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4 2 130237. T . 47. NS=2;DP=16;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:56,51 0/0:61:2 2 134567 microsat1 GTCT G,GTACT 50 PASS NS=2;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
Enllaços externs
[modifica]- El format Genome Variation Format (GVF), una extensió basada en el format GFF3.
- Una explicació gràfica del format: http://vcftools.sourceforge.net/vcf-poster.pdf
- Eina gràfica gratuïta per inspeccionar, buscar, dividir i combinar fitxers VCF en OS X, disponible en: http://www.diploid.com/differ Arxivat 2015-02-18 a Wayback Machine.
Referències
[modifica]- ↑ «VCF Specification». [Consulta: 17 maig 2013].
- ↑ «Specifications of SAM/BAM and related high-throughput sequencing file formats». [Consulta: 24 juny 2014].
- ↑ «Encoding Structural Variants in VCF (Variant Call Format) version 4.0 | 1000 Genomes». [Consulta: 1r febrer 2011].
- ↑ «VCFtools from SourceForge.net». [Consulta: 21 abril 2011].