Vés al contingut

Peak calling

De la Viquipèdia, l'enciclopèdia lliure
(S'ha redirigit des de: Pic de senyal)

El peak calling (en català: identificació de pics o, literalment, crida de pics) és un mètode computacional que permet identificar els llocs d'unió de proteïnes putatives.[1] En concret, aquest mètode permet identificar àrees del genoma enriquides amb lectures alineades després d'haver fet una seqüenciació per immunoprecipitació de cromatina (ChIP-seq, de Chromatin Immunoprecipitation sequencing) o de DNA metilat (MeDIP-seq, de Methylated DNA Immunoprecipitation sequencing).

Antecedents

[modifica]

A partir de l'any 2000 es van començar a desenvolupar els mètodes de seqüenciació de nova o de segona generació (NGS, de l'anglès New Generation Sequencing). Aquest nou mètode, en combinació amb el ChIP i el MeDIP, han revolucionat l'habilitat d'analitzar les interaccions dins del genoma de proteïnes i DNA.[2]

La identificació dels llocs d'unió de les proteïnes genòmiques a través de la ChIP o de les metilacions a través de la MeDIP han necessitat noves eines computacionals, diferents de les emprades anteriorment per als experiments ChIP-Chip, la qual combinava la ChIP i els xips de DNA (en anglès, DNA chip). Actualment hi ha més d'una quarantena de programes analítics, molts dels quals es basen en algoritmes per a cridar pics.[2]

El fet que molts dels algoritmes matemàtics siguin lliures ha permès que hi hagi un progrés elevat d'aquests. Així, el 2014 els més populars eren el F-seq[3] i el Hotspot,[4] útils sobretot per a DNAse-seq; el ZINBA (de l'anglès Zero-Inflated Negative Bionomial Algorithm),[5] útil també per a FAIRE-seq,ChIP-seq i RNA-seq;[6] el MACS[7] o l'Spp.[8] En l'actualitat s'ha arribat a fer gràfiques (Graphic Peak Calling)[9] i seqüenciacions en 3-D com amb el HiChIP.[10]

Procediment per a trobar pics

[modifica]

Disseny de l'experiment

[modifica]

Per a dur a terme un peak calling cal primer saber quin tipus d'experiment volem dur a terme. En el ChIP, es poden emprar una o dues mostres, depenent de si només tenim la mostra problema o si tenim també un control, respectivament. Tot i això, el més recomanat és emprar controls per assegurar que es troben pics significatius i rellevants.

Les passes a seguir un cop sabem el tipus d'experiment que volem dur a terme són:

  1. Creació d'un perfil de senyal
  2. Selecció de llocs candidats
  3. Càlcul de la significança
  4. Determinar el llindar

Procediment per a trobar pics

[modifica]

Creació d'un perfil de senyal

El perfil ChIP s'obté suavitzant el comptatge de les etiquetes amb o sense correcció del canvi d'etiquetes o tag-shifting (com podria ser la diferència en la distància genòmica entre les etiquetes observades i la posició real del lloc d'unió). Això ajuda en la intrapolació dels comptatges no observats a causa de la baixa mapabilitat o cobertura, millorant la resolució i l'exclusió dels artefactes. Per a dur a terme aquesta passa, hi ha multitud de programes que es poden emprar amb característiques diferents.

Calling peaks

Un cop es té el perfil, cada unitat ha de tenir un senyal absolut de ChIP o un enriquiment relatiu en comparació al fons (o background) per a poder ser considerat un pic candidat. Aquesta selecció té dues principals utilitats. La primera és que els pics candidats seleccionats en aquesta passa s'empren per a estimar la mida del fragment i la distància del canvi d'etiquetes. La segona és que les regions que no se superposen amb els pics s'empren per a estimar els paràmetres del control negatiu.

Càlcul de la significança dels pics

Es poden aplicar diferents models de fons per a cada pic candidat. L'opció més habitual és la distribució de Poisson,[11] assumint un efecte uniforme del control negatiu sobre el genoma. La distribució binomial és un model alternatiu per a efectes no-uniformes, però cal primer normalitzar la taxa de la mostra entre el ChIP i el control negatiu en una regió on no s'uneixi res.[12]

Determinació de llindar

Donades les puntuacions dels pics, cal seleccionar un valor llindar. Quan els valors p estan disponibles, es poden emprar per a calcular la taxa de descobriment falsa (o FDR, de l'anglès False Discovery Rate).[13] En cas de no tenir valors p, es pot calcular empíricament l'FDR mostrejant les etiquetes del control i de les dades ChIP. En aquest cas, l'FDR es defineix com una taxa entre el nombre de pics en el control i els del ChIP.

La passa de després del processament considera els efectes dels canvis d'etiqueta i prediu la mida del fragment a partir d'una biblioteca. En el cas de l'Spp, es fa una autocorrecció entre el comptatge d'etiquetes de les cadenes segons el sentit: positives o sentit i negatives o antisentit.[14]

Mètodes de seqüenciació de DNA

[modifica]

ChIP-seq

[modifica]

La ChIP-seq consisteix en l'enriquiment a aquells fragments de cromatina que tenen una interacció proteïna-DNA, les quals es basen en reticulacions (o cross-linking) mediades per formaldehid. Quan aquesta proteïna és un factor de transcripció (TF, de l'anglès Transcription Factor), l'àrea enriquida és un lloc d'unió del factor de transcripció (o TFBS, de l'anglès TF Binding Site).[2] La combinació paral·lela de la ChIP i la seqüenciació total de genoma (el ChIP-seq en si) permeten analitzar el patró d'interacció de qualsevol proteïna amb el DNA o el patró de qualsevol modificació epigenètica de la cromatina, sobretot TFs.[9][15] Tant el ChIP-chip com el ChIP-seq han facilitat enormement la definició del cistroma dels TF i altres proteïnes associades a la cromatina.[16]

Els tipus de pics que es poden obtenir amb la ChIP-seq es poden classificar en tres grups segons la quantitat de parells de bases:

  • Puntuals: ~100 pb
  • Localitzats però amples: ~1 kb
  • Amples: ~100 kb

El poder predictiu de les eines existents depenen del tipus de dades a processar.[17]

El procés per a detectar proteïnes unides amb la ChIP és:[8]

  1. Generació d'etiquetes a la seqüència i alinear-les.
  2. Neteja: eliminació de característiques anòmales i de la informació de fons, i assemblatge de les etiquetes informatives.
  3. Determinació dels llocs d'unió.
  4. Mesura ChIP-seq: el DNA és fragmentat o digerit.
  5. Selecció dels fragments reticulats amb la proteïna d'interès.
  6. Seqüenciació dels fragments de l'extrem 5'.

MeDIP-seq

[modifica]

El MeDIP-seq consisteix en l'enriquiment a seqüències de DNA metilades. Aquestes seqüències poden canviar l'activitat del segment de DNA sense canviar la seqüència. Normalment, les metilacions reprimeixen la transcripció dels gens sobre els quals actua.[18]

Així doncs, la diferència entre la ChIP-seq i la MeDIP-seq rau en el fet que la primera analitza si hi ha interacció o no (pot ser activant o reprimint la transcripció) i la segona analitza si hi ha metilació (repressió) o no (activació).

Programari: peak callers

[modifica]

Els programes emprats per a desenvolupar els peak callings s'anomenen peak callers. Una de les característiques comunes per a tots els peak callers és que l'entrada (o input) són lectures mapades i la comparen amb genomes linears de referència.[9]

MACS (Anàlisi de Dades de ChIP-seq Basat en Models)

[modifica]

El MACS (de l'anglès Model-based Analysis of ChIP-Seq data) és un algoritme que permet optimitzar els resultats en comparació al ChIP-chip de diferents formes:

  • Millora en la resolució espacial dels llocs predits.
  • Utilitza el paràmetre λlocal (paràmetre de la distribució de Poisson) per a capturar biaixos locals en el genoma i millora la robustesa i l'especificitat de la predicció.
  • No calen controls quan és aplicada a ChIP-seq, tot i que amb controls es millora el resultat.
  • Proporciona informació detallada per a cada pic (com les coordenades del genoma o el valor p).

Posteriorment es va desenvolupar el MACS2, el qual conté subcomandes i la possibilitat de combinar-les entre elles per a controlar cada passa i analitzar les dades de forma més personalitzada.[19]

Per a poder utilitzar el MACS, cal seguir les passes següents (figura de la dreta):[20]

  1. Eliminació de les redundàncies, tant de la mostra com del control. Això permetrà trobar pics més fiables.
  2. Selecció de 1000 regions aleatòries amb una taxa d'enriquiment relatiu respecte del genoma de fons d'entre 10 i 30. Per això, primer es fa una finestra amb el doble de la mida òptima per a identificar regions amb un enriquiment moderat i després es fa la selecció.
  3. Construcció del model i estimació de la mida del fragment (d) de DNA a partir de lectures mapades de les cadenes positiva i negativa.
  4. Lectura des de l'extrem 3' fins a la d. Aquesta lectura donarà un patró bimodal i la d serà la distància entre els dos pics. Quan d<60 pb, es recomana tornar a córrer el MACS amb una distància específica basada en la mida seleccionada a la seqüència preparada de la biblioteca.
  5. Escalació de les dues biblioteques (mostra problema i control).
  6. Identificació dels pics candidats sobre el genoma de fons.
  7. Càlcul de la λlocal dinàmica per a pics candidats. En comptes d'emprar una λ constant, els valors de la λlocal varia al llarg del genoma. Aquesta λlocal es defineix:, on λBG és la constant estimada del genoma de fons, λregion és estimada de la regió candidata tenint en compte el control, i la λx és estimada de la finestra x-pb centrada en la regió candidata en la mostra control.
  8. Càlcul del valor p i filtració dels pics candidats.
  9. Càlcul de l'FDR empírica per a cada pic intercanviant les mostres del ChIP i del control, i identificant els pics sobre el control utilitzant els mateixos paràmetres que per a la mostra de la ChIP-seq. Com que el control no té enriquiment, els pics que es trobin es consideraran falsos positius.

Spp (Canalització de Processament ChIP-Seq)

[modifica]

L'Spp (de l'anglès ChIP-Seq Processing Pipeline) es va desenvolupar específicament per a detectar acuradament posicions de llocs d'unió a proteïnes introduint mètodes per a millorar l'alineació d'etiquetes i corregint els senyals de fons. L'Spp introdueix tres mètodes de peak calling:

  1. Window tag density (WTD): estén les etiquetes (tag) de les cadenes positiva i negativa segons la llargada esperada del fragment de DNA seleccionat. Els llocs d'unió es trobaran a les parts amb major superposició del fragment.
  2. Matching Strand Peaks (MSP): determina quins són els pics locals segons les densitats específiques de les etiquetes, i identifica les posicions envoltades per pics de les cadenes positiva i negativa.
  3. Mirror tag correlation (MTC): escaneja el genoma per a identificar les posicions que tenen paterns pronunciats en mirall a les cadenes positiva i negativa. És a dir, que tenen un pic en ambdues cadenes.

Aquests tres mètodes han d'emprar un control de densitats d'etiquetes pe a corregir la distribució desigual de fons.[21] Tot i que en tots tres mètodes hi ha una sensitivitat òptima, hi ha una diferència considerable en la precisió identificant les posicions d'unió. Aquesta diferència pot atribuir-se a la consideració dels patrons d'etiquetes adjacents el centre del patró d'unió.[8]

Gràfic de peak calling

[modifica]

El Gràfic de Peak Calling (Graph Peak Caller o GPC) és un nou mètode, presentat per Grytten, et al. el 2019,[9] que converteix les lectures mapades per una ChIP-seq en un genoma de referència basat en gràfics. És una generalització gràfica del MACS2.

La informació de sortida (output) del GPC consisteix en una gràfica d'intervals. Aquests gràfics es poden convertir en posicions aproximades en un genoma linear de referència, cosa que permet l'anàlisi de pics basant-se en biblioteques de pics ja trobats. En comparar els resultats del GPC amb els del MACS2, es comprova que el primer troba seqüències enriquides que no troba el segon. El GPC també arriba a analitzar més del doble de parells de bases en comparació al MACS2. Això permet cobrir més variacions del genoma linear de referència.

El funcionament del GPC es basa en:

a) Lectura sense processar (raw read). L'input (blau) i les control (roig) es mapen en el genoma de referència basat en gràfics i es filtra basant-se en la qualitat de mapatge.

b) Muntatge dels fragments estenent els alineaments de l'input sentit o forward i antisentit o reverse al llarg de tota la seqüència segons el sentit corresponent.

c) Creació d'una pista de fons (background track) projectant els resultats de l'alineament de les lectures control sobre la seqüència. Després es calcula la mitjana de les lectures locals i el resultat, que és linear, es projecta de nou en la gràfica. El muntatge de fragments es crea com a quantitat (counts) i la pista de fons es tracta com una taxa (rate) en una distribució de Poisson. El valor p es calcula per a cada posició en les quantitats observades, segons la taxa corresponent.

d) S'ajusten els valors q.

e) Es produeix una sèrie d'àrees amb pics candidates amb buits entre ells.

f) Els buits petits s'omplen, donant una sèrie de subgràfics de pic (subgràfics connectats).

g) El GPC troba només un únic camí màxim (maximum path), que s'aconsegueix seleccionant el camí que té el nombre més gran d'inputs mapat en ell.

HiChIP-peak

[modifica]

El HiChIP és una tècnica recentment desenvolupada per a analitzar la conformació de la cromatina i que se centra en la conformació de les proteïnes de la cromatina. Això permet millorar 10 cops la lectura de la informació conformacional i reduir 100 cops els requeriments d'entrada en comparació al ChIA-PET.[22] Consisteix en una preparació in situ d'una llibreria Hi-C[23] seguida d'una ChIP, normalment per a modificacions en la histona H3K27ac o en la cohesina.[10] Aquesta és la innovació principal de la tècnica, la combinació dels biaixos d'aquestes dues tècniques (Hi-C i ChIP), permetent que només es calguin sets de dades HiChIP.

El mètode HiChIP consisteix en una reticulació de les cèl·lules i posades en contacte in situ. El nucli se sonica i es duu a terme la ChIP, moment en què s'enriqueixen els contactes associats amb proteïnes d'interès. Els contactes biotinilats són identificats i es generen llibreries de seqüències utilitzant la transposasa Tn5.[22]

Els beneficis respecte d'altres mètodes és l'abaratiment de despeses, la sensibilitat més gran, la necessitat de menors quantitats d'entrades i requeriments per a la seqüenciació reduïdes.[22] Tot i això, hi ha massa poques eines específiques per a analitzar dades HiChIP, ja que la majoria encara utilitzen en dades Hi-C.

Teòricament, és possible extreure dos tipus diferents d'informació de les dades HiChIP: la posició de regions enriquides (o pics) per a la ChIP i les interaccions de llarg abast que involucren aquestes regions.[10]

Referències

[modifica]
  1. Wilbanks, Elizabeth G.; Facciotti, Marc T. «Evaluation of Algorithm Performance in ChIP-Seq Peak Detection» (en anglès). PLOS ONE, 5, 7, 07-08-2010, pàg. e11471. DOI: 10.1371/journal.pone.0011471. ISSN: 1932-6203. PMC: PMC2900203. PMID: 20628599.
  2. 2,0 2,1 2,2 Stanton, Kelly P.; Jin, Jiaqi; Lederman, Roy R.; Weissman, Sherman M.; Kluger, Yuval «Ritornello: high fidelity control-free chromatin immunoprecipitation peak calling». Nucleic Acids Research, 45, 21, 01-12-2017, pàg. e173. DOI: 10.1093/nar/gkx799. ISSN: 1362-4962. PMC: 5716106. PMID: 28981893.
  3. Boyle, Alan P.; Guinney, Justin; Crawford, Gregory E.; Furey, Terrence S. «F-Seq: a feature density estimator for high-throughput sequence tags». Bioinformatics, 24, 21, 01-11-2008, pàg. 2537–2538. DOI: 10.1093/bioinformatics/btn480. ISSN: 1367-4803. PMC: 2732284. PMID: 18784119.
  4. John, Sam; Sabo, Peter J.; Thurman, Robert E.; Sung, Myong-Hee; Biddie, Simon C. «Chromatin accessibility pre-determines glucocorticoid receptor binding patterns» (en anglès). Nature Genetics, 43, 3, 3-2011, pàg. 264–268. DOI: 10.1038/ng.759. ISSN: 1546-1718. PMC: PMC6386452. PMID: 21258342.
  5. Rashid, Naim U.; Giresi, Paul G.; Ibrahim, Joseph G.; Sun, Wei; Lieb, Jason D. «ZINBA integrates local covariates with DNA-seq data to identify broad and narrow regions of enrichment, even within amplified genomic regions». Genome Biology, 12, 7, 25-07-2011, pàg. R67. DOI: 10.1186/gb-2011-12-7-r67. ISSN: 1474-760X.
  6. Koohy, Hashem; Down, Thomas A.; Spivakov, Mikhail; Hubbard, Tim «A Comparison of Peak Callers Used for DNase-Seq Data» (en anglès). PLoS ONE, 9, 5, 08-05-2014, pàg. e96303. DOI: 10.1371/journal.pone.0096303. ISSN: 1932-6203. PMC: PMC4014496. PMID: 24810143.
  7. Zhang, Yong; Liu, Tao; Meyer, Clifford A; Eeckhoute, Jérôme; Johnson, David S «Model-based Analysis of ChIP-Seq (MACS)». Genome Biology, 9, 9, 2008, pàg. R137. DOI: 10.1186/gb-2008-9-9-r137. ISSN: 1465-6906. PMC: 2592715. PMID: 18798982.
  8. 8,0 8,1 8,2 Kharchenko, Peter V.; Tolstorukov, Michael Y.; Park, Peter J. «Design and analysis of ChIP-seq experiments for DNA-binding proteins» (en anglès). Nature Biotechnology, 26, 12, 12-2008, pàg. 1351–1359. DOI: 10.1038/nbt.1508. ISSN: 1546-1696.
  9. 9,0 9,1 9,2 9,3 Grytten, Ivar; Rand, Knut D.; Nederbragt, Alexander J.; Storvik, Geir O.; Glad, Ingrid K. «Graph Peak Caller: Calling ChIP-seq peaks on graph-based reference genomes» (en anglès). PLOS Computational Biology, 15, 2, 19-02-2019, pàg. e1006731. DOI: 10.1371/journal.pcbi.1006731. ISSN: 1553-7358. PMC: PMC6396939. PMID: 30779737.
  10. 10,0 10,1 10,2 Shi, Chenfu; Rattray, Magnus; Orozco, Gisela. «HiChIP-Peaks: A HiChIP peak calling algorithm», 27-06-2019. [Consulta: 3 desembre 2020].
  11. Robertson, Gordon; Hirst, Martin; Bainbridge, Matthew; Bilenky, Misha; Zhao, Yongjun «Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing» (en anglès). Nature Methods, 4, 8, 8-2007, pàg. 651–657. DOI: 10.1038/nmeth1068. ISSN: 1548-7091.
  12. Xu, Han; Handoko, Lusy; Wei, Xueliang; Ye, Chaopeng; Sheng, Jianpeng «A signal–noise model for significance analysis of ChIP-seq with negative control» (en anglès). Bioinformatics, 26, 9, 01-05-2010, pàg. 1199–1204. DOI: 10.1093/bioinformatics/btq128. ISSN: 1460-2059.
  13. Zang, Chongzhi; Schones, Dustin E.; Zeng, Chen; Cui, Kairong; Zhao, Keji «A clustering approach for identification of enriched domains from histone modification ChIP-Seq data» (en anglès). Bioinformatics, 25, 15, 01-08-2009, pàg. 1952–1958. DOI: 10.1093/bioinformatics/btp340. ISSN: 1460-2059. PMC: PMC2732366. PMID: 19505939.
  14. Kim, Hyunmin; Kim, Jihye; Selby, Heather; Gao, Dexiang; Tong, Tiejun «A short survey of computational analysis methods in analysing ChIP-seq data» (en anglès). Human Genomics, 5, 2, 2011, pàg. 117. DOI: 10.1186/1479-7364-5-2-117. ISSN: 1479-7364. PMC: PMC3525234. PMID: 21296745.
  15. Johnson, David S.; Mortazavi, Ali; Myers, Richard M.; Wold, Barbara «Genome-Wide Mapping of in Vivo Protein-DNA Interactions» (en anglès). Science, 316, 5830, 08-06-2007, pàg. 1497–1502. DOI: 10.1126/science.1141319. ISSN: 0036-8075. PMID: 17540862.
  16. «TFmapper: A Tool for Searching Putative Factors Regulating Gene Expression Using ChIP-seq Data». DOI: 10.7150/ijbs.28850. [Consulta: 2 desembre 2020].
  17. Pepke, Shirley; Wold, Barbara; Mortazavi, Ali «Computation for ChIP-seq and RNA-seq studies». Nature methods, 6, 11 0, 11-2009, pàg. S22–S32. DOI: 10.1038/nmeth.1371. ISSN: 1548-7091. PMC: 4121056. PMID: 19844228.
  18. Neary, Jennifer L.; Carless, Melanie A. Chapter Nine - Methylated DNA immunoprecipitation sequencing (MeDIP-seq): Principles and applications (en anglès). 18. Academic Press, 2020, p. 157–179. DOI 10.1016/b978-0-12-819414-0.00009-4. 
  19. «Advanced: Call peaks using MACS2 subcommands» (en anglès). Liu, T., 22-03-2017. [Consulta: 2 desembre 2020].
  20. Feng, Jianxing; Liu, Tao; Qin, Bo; Zhang, Yong; Liu, Xiaole Shirley «Identifying ChIP-seq enrichment using MACS» (en anglès). Nature Protocols, 7, 9, 9-2012, pàg. 1728–1740. DOI: 10.1038/nprot.2012.101. ISSN: 1754-2189. PMC: PMC3868217. PMID: 22936215.
  21. Kharchenko, Peter V.; Tolstorukov, Michael Y.; Park, Peter J. «Design and analysis of ChIP-seq experiments for DNA-binding proteins». Nature biotechnology, 26, 12, 12-2008, pàg. 1351–1359. DOI: 10.1038/nbt.1508. ISSN: 1087-0156. PMC: 2597701. PMID: 19029915.
  22. 22,0 22,1 22,2 Mumbach, Maxwell R.; Rubin, Adam J.; Flynn, Ryan A.; Dai, Chao; Khavari, Paul A. «HiChIP: Efficient and sensitive analysis of protein-directed genome architecture» (en anglès). bioRxiv, 08-09-2016, pàg. 073619. DOI: 10.1101/073619.
  23. Lieberman-Aiden, Erez; Berkum, Nynke L. van; Williams, Louise; Imakaev, Maxim; Ragoczy, Tobias «Comprehensive Mapping of Long-Range Interactions Reveals Folding Principles of the Human Genome» (en anglès). Science, 326, 5950, 09-10-2009, pàg. 289–293. DOI: 10.1126/science.1181369. ISSN: 0036-8075. PMC: PMC2858594. PMID: 19815776.

Vegeu també

[modifica]