Algorisme de Smith-Waterman
L'algorisme de Smith-Waterman és un dels algorismes més emprats per a l'alineament local de seqüències proteiques o nucleotídiques, i en permet determinar les regions de major similitud. La primera versió d'aquest algorisme va ser proposada per Temple Smith i Michael Waterman el 1981[1] i, de forma similar a l'algorisme de Needleman-Wunsch, es tracta d'un algorisme de programació dinàmica que garanteix que l'alineament trobat és òptim.
Una implementació de l'algorisme de Smith-Waterman, SSEARCH, es troba disponible en el programa d'anàlisi de seqüències FASTA.[2]
Funcionament de l'algorisme
[modifica]Inicialment es construeix una matriu de la manera següent:
On:
- a, b = Mots de l'alfabet
- m = longitud(a)
- n = longitud(b)
- - és el màxim Similitud-Puntuació entre un submot de a amb una longitud i, i un submot de b amb una longitud j
- , '–' correspon a buit en la seqüència
Exemple
[modifica]- Seqüència 1 = ACACACTA
- Seqüència 2 = AGCACACA
- w(coincidència) = +2
- w(a,-) = w(-,b) = w(no-coincidència) = -1
Per obtenir l'alineament local òptim, es parteix de la posició (i,j) que conté el valor més gran elevat. A continuació, es passa d'aquest valor al valor més gran entre les posicions veïnes (i-1,j), (i,j-1), i (i-1,j-1). (En cas d'empat, el moviment diagonal és el prioritari). Aquest procés continua iterativament fins que s'arriba a la posició (0,0). A l'exemple anterior, el valor més gran de la matriu correspon a la posició (8,8) i a partir d'aquí es mou per les posicions (8,8), (7,7), (7,6), (6,5), (5,4), (4,3), (3,2), (2,1), (1,1), i (0,0),
Un cop finalitzat el recorregut per la matriu, l'alineament es reconstrueix a partir de l'últim valor seguint el camí definit anteriorment fins a assolir la posició inicial (i,j). Un salt en diagonal implica un alineament ja sigui una coincidència (match) o una no-coincidència (mismatch), mentre que un salt vertical implica una deleció, i un salt horitzontal implica una inserció.
Seguint l'exemple anterior, s'obté el següent alineament:
- Seqüència 1 = A-CACACTA
- Seqüència 2 = AGCACAC-A
Vegeu també
[modifica]Referències
[modifica]- ↑ Smith TF, Waterman MS «Identification of Common Molecular Subsequences». Journal of Molecular Biology, 147, 1981, pàg. 195–197. DOI: 10.1016/0022-2836(81)90087-5.
- ↑ «UVa FASTA Downloads». virginia.edu. [Consulta: 2 gener 2017].
Enllaços externs
[modifica]- JAligner — Implementació de l'algorisme de Smith-Waterman en Java.
- B.A.B.A. — Explicació del funcionament de l'algorisme de Smith-Waterman.
- FASTA/SSEARCH at the Pàgina web amb els serveis FASTA i SSEARCH de l'EBI.
- UGENE Smith-Waterman plugin Arxivat 2009-04-19 a Wayback Machine. — Implementació de SSEARCH amb una interfície gràfica.