Vés al contingut

General Feature Format

De la Viquipèdia, l'enciclopèdia lliure
Infotaula de format de fitxerGeneral Feature Format
Tipusformat de fitxer Modifica el valor a Wikidata
Extensiógff Modifica el valor a Wikidata

El General Feature Format, abreviat GFF, format de característiques generals en anglès, és un format de fitxer utilitzat per a descriure gens (p. ex., llur ubicació en els cromosomes) i altres característiques de l'ADN, l'ARN o les seqüències de proteïnes. L'extensió de fitxer que s'utilitza habitualment és .gff.

Versions

[modifica]

L'anterior versió 2 tenia algunes mancances, com ara que només es podien representar jerarquies de 2 nivells i no superiors del tipus gen → transcritexó.

El nou format GFF3 adreça aquesta problemàtica permetent la consideració de molts nivells jeràrquics, i atorga diferents significats a certes etiquetes del camp d'atributs.

Hi ha una altra variant, el Gene Transfer Format (GTF), que de fet es tracta d'un refinament de la versió GFF 2.

Estructura general del format GFF

[modifica]

Tots els formats GFF (GFF2, GFF3 i GTF) descriuen fitxers de texts amb 9 camps per línia separats per tabuladors. Tots els formats comparteixen el mateix significat per a les primeres 7 posicions, diferent en la definició del 8è camp i en el contingut del 9è. Una estructura general a continuació:

Estructura general GFF[1]
Índex de posició Nom de la posició Descripció
1 seqüència El nom de la seqüència on es troba la característica.
2 font Paraula clau que identifica la font de la característica, com ara potser un program (p. ex., RepeatMasker) o una organització (com ara TAIR).
3 característica El nom del tipus de característica, com ara «gen» o «exó». En un fitxer GFF ben estructurat, cal esperar que totes les característiques 'filles' segueixen llurs pares seqüencialment en un bloc (p. ex., tots els exons d'un transcrit es troben a continuació del seu pare transcrit i abans de definir-se cap altre transcrit). En el GFF3, totes les característiques i llur relacions cal que siguin compatibles amb els estàndards del Sequence Ontology Project.
4 inici Inici genòmic d'una característica, amb un corriment de 1 base. Això contrasta amb formats que no tenen corriment, com ara el format BED.
5 final Final genòmic d'una característica, amb un corriment de 1 base. Això contrasta amb formats que no tenen corriment, com ara el format BED.
6 puntuació Valor numèric que acostuma a indica la confiança de la característica anotada. S'utilitza un «.» (un punt) per definir un valor nul.
7 cadena Un únic caràcter per designar el sentit d'una cadena biològica; pot ser el valor «+» (positiu, o 5'->3'), «-», (negatiu, o 3'->5') o «.» (indeterminat).
8 marc (GTF, GFF2) o fase (GFF3) El marc o la fase de les característiques CDS; potser 0, 1, 2 (per a característiques CDS) or «.» (per a la resta). Més detalls a continuació.
9 atributs Tota la resta d'informació que es pot assignar a la característica. El format, estructura i contingut d'aquest camps és el que varia més entre les diferents versions. Aquesta columna acostuma a estar organitzada en parells de clau-valor, cadascun d'aquests parells separats per punt i coma.

El 8è camp: marc o fase de les característiques CDS

[modifica]

En les versions GFF2 i GTF, el camp 8è indica el marc de la característica, això és, si la primera base del segment CDS és el primera (marc 0), segona (marc 1) or tercera (marc 2) en el codó del marc obert de lectura. La fórmula per derivar aquest valor (suma de les característiques anteriors) mod 3.

En GFF3, el 8è camp indica la fase de la característica CDS, p.ex, d'acord amb Sequence Ontology:

« ...on la característica comença en referència amb el marc de lectura. La fase és un dels següents enters: 0, 1, or 2, indicant el nombre de bases que s'haurien d'eliminar del començament de la característica per començar amb la primera base del següent codó. »
http://gmod.org/wiki/GFF3

Per tant, és la inversa del codó: (3 - (suma de les característiques anteriors) mod 3) mod 3 = (3 - fase) mod 3.

Referències

[modifica]
  1. «Compbio 008: What the FASTQ? File formats in computational biology» (en anglès). [Consulta: 25 agost 2019].

Vegeu també

[modifica]

Enllaços externs

[modifica]
  • Format GFF2 (anglès)
  • Format GFF3 (anglès)
  • Format GFF/GTF explicat a Ensembl (anglès)
  • Eina de validació en línia de GFF3