General Feature Format
Tipus | format de fitxer |
---|---|
Extensió | gff |
El General Feature Format, abreviat GFF, format de característiques generals en anglès, és un format de fitxer utilitzat per a descriure gens (p. ex., llur ubicació en els cromosomes) i altres característiques de l'ADN, l'ARN o les seqüències de proteïnes. L'extensió de fitxer que s'utilitza habitualment és .gff
.
Versions
[modifica]L'anterior versió 2 tenia algunes mancances, com ara que només es podien representar jerarquies de 2 nivells i no superiors del tipus gen → transcrit → exó.
El nou format GFF3 adreça aquesta problemàtica permetent la consideració de molts nivells jeràrquics, i atorga diferents significats a certes etiquetes del camp d'atributs.
Hi ha una altra variant, el Gene Transfer Format (GTF), que de fet es tracta d'un refinament de la versió GFF 2.
Estructura general del format GFF
[modifica]Tots els formats GFF (GFF2, GFF3 i GTF) descriuen fitxers de texts amb 9 camps per línia separats per tabuladors. Tots els formats comparteixen el mateix significat per a les primeres 7 posicions, diferent en la definició del 8è camp i en el contingut del 9è. Una estructura general a continuació:
Índex de posició | Nom de la posició | Descripció |
---|---|---|
1 | seqüència | El nom de la seqüència on es troba la característica. |
2 | font | Paraula clau que identifica la font de la característica, com ara potser un program (p. ex., RepeatMasker) o una organització (com ara TAIR). |
3 | característica | El nom del tipus de característica, com ara «gen» o «exó». En un fitxer GFF ben estructurat, cal esperar que totes les característiques 'filles' segueixen llurs pares seqüencialment en un bloc (p. ex., tots els exons d'un transcrit es troben a continuació del seu pare transcrit i abans de definir-se cap altre transcrit). En el GFF3, totes les característiques i llur relacions cal que siguin compatibles amb els estàndards del Sequence Ontology Project. |
4 | inici | Inici genòmic d'una característica, amb un corriment de 1 base. Això contrasta amb formats que no tenen corriment, com ara el format BED. |
5 | final | Final genòmic d'una característica, amb un corriment de 1 base. Això contrasta amb formats que no tenen corriment, com ara el format BED. |
6 | puntuació | Valor numèric que acostuma a indica la confiança de la característica anotada. S'utilitza un «.» (un punt) per definir un valor nul. |
7 | cadena | Un únic caràcter per designar el sentit d'una cadena biològica; pot ser el valor «+» (positiu, o 5'->3'), «-», (negatiu, o 3'->5') o «.» (indeterminat). |
8 | marc (GTF, GFF2) o fase (GFF3) | El marc o la fase de les característiques CDS; potser 0, 1, 2 (per a característiques CDS) or «.» (per a la resta). Més detalls a continuació. |
9 | atributs | Tota la resta d'informació que es pot assignar a la característica. El format, estructura i contingut d'aquest camps és el que varia més entre les diferents versions. Aquesta columna acostuma a estar organitzada en parells de clau-valor, cadascun d'aquests parells separats per punt i coma. |
El 8è camp: marc o fase de les característiques CDS
[modifica]En les versions GFF2 i GTF, el camp 8è indica el marc de la característica, això és, si la primera base del segment CDS és el primera (marc 0), segona (marc 1) or tercera (marc 2) en el codó del marc obert de lectura. La fórmula per derivar aquest valor (suma de les característiques anteriors) mod 3.
En GFF3, el 8è camp indica la fase de la característica CDS, p.ex, d'acord amb Sequence Ontology:
« | ...on la característica comença en referència amb el marc de lectura. La fase és un dels següents enters: 0, 1, or 2, indicant el nombre de bases que s'haurien d'eliminar del començament de la característica per començar amb la primera base del següent codó. | » |
— http://gmod.org/wiki/GFF3 |
Per tant, és la inversa del codó: (3 - (suma de les característiques anteriors) mod 3) mod 3 = (3 - fase) mod 3.
Referències
[modifica]- ↑ «Compbio 008: What the FASTQ? File formats in computational biology» (en anglès). [Consulta: 25 agost 2019].
Vegeu també
[modifica]Enllaços externs
[modifica]- Format GFF2 (anglès)
- Format GFF3 (anglès)
- Format GFF/GTF explicat a Ensembl (anglès)
- Eina de validació en línia de GFF3