Exploració de patrons seqüencials

La mineria de patrons seqüencials és un tema de mineria de dades que s'ocupa de trobar patrons estadísticament rellevants entre exemples de dades on els valors s'entreguen en una seqüència.^[1]^[2] Normalment es pressuposa que els valors són discrets i, per tant, la mineria de sèries temporals està estretament relacionada, però normalment es considera una activitat diferent. La mineria de patrons seqüencials és un cas especial de mineria de dades estructurades.

Hi ha diversos problemes computacionals tradicionals clau abordats en aquest camp. Aquests inclouen la creació de bases de dades i índexs eficients per a la informació de la seqüència, l'extracció dels patrons que es produeixen amb freqüència, la comparació de seqüències per a la similitud i la recuperació dels membres de la seqüència que falten. En general, els problemes de mineria de seqüències es poden classificar com a mineria de cadenes que normalment es basa en algorismes de processament de cadenes i mineria de conjunts d'elements que normalment es basa en l'aprenentatge de regles d'associació. Els models de processos locals ^[3] estenen la mineria de patrons seqüencials a patrons més complexos que poden incloure eleccions (exclusives), bucles i construccions de concurrència a més de la construcció d'ordenació seqüencial.

Mineria de cordes

La mineria de cadenes normalment tracta d'un alfabet limitat per als elements que apareixen en una seqüència, però la seqüència en si pot ser molt llarga. Exemples d'alfabet poden ser els del conjunt de caràcters ASCII utilitzats en el text en llenguatge natural, les bases de nucleòtids "A", "G", "C" i "T" en seqüències d'ADN o aminoàcids per a seqüències de proteïnes. En aplicacions de biologia, l'anàlisi de la disposició de l'alfabet en cadenes es pot utilitzar per examinar seqüències de gens i proteïnes per determinar-ne les propietats. Conèixer la seqüència de lletres d'un ADN o d'una proteïna no és un objectiu final en si mateix. Més aviat, la tasca principal és entendre la seqüència, en termes de la seva estructura i funció biològica. Això normalment s'aconsegueix primer identificant regions individuals o unitats estructurals dins de cada seqüència i després assignant una funció a cada unitat estructural. En molts casos, això requereix comparar una seqüència determinada amb les estudiades prèviament. La comparació entre les cadenes es complica quan es produeixen insercions, supressions i mutacions en una cadena.

Abouelhoda i Ghanem (2010) presenta una enquesta i taxonomia dels algorismes clau per a la comparació de seqüències per a la bioinformàtica, que inclou: ^[4]

Problemes relacionats amb la repetició: que tracten amb operacions en seqüències individuals i es poden basar en una concordança exacta de cadenes o mètodes aproximats de concordança de cadenes per trobar repeticions de longitud fixa dispersa i de longitud màxima, trobar repeticions en tàndem i trobar subseqüències úniques i que falten (sense lletrejar) subseqüències.
Problemes d'alineació: que tracten de la comparació entre cadenes alineant primer una o més seqüències; exemples de mètodes populars inclouen BLAST per comparar una sola seqüència amb múltiples seqüències en una base de dades i ClustalW per a múltiples alineacions. Els algorismes d'alineació es poden basar en mètodes exactes o aproximats, i també es poden classificar com alineacions globals, alineacions semiglobals i alineaments locals. Vegeu l'alineació de la seqüència.

Aplicacions

Amb una gran variació de productes i comportaments de compra dels usuaris, la prestatgeria on es mostren els productes és un dels recursos més importants de l'entorn minorista. Els minoristes no només poden augmentar els seus beneficis, sinó també reduir els costos mitjançant una gestió adequada de l'assignació de l'espai de prestatge i la visualització dels productes. Per resoldre aquest problema, George i Binu (2013) han proposat un enfocament per a la mineria dels patrons de compra dels usuaris mitjançant l'algorisme PrefixSpan i col·locar els productes a les prestatgeries en funció de l'ordre dels patrons de compra extrets.^[5]

Referències

↑ Mabroukeh, N. R.; Ezeife, C. I. ACM Computing Surveys, 43, 2010, pàg. 1–41. DOI: 10.1145/1824795.1824798.
↑ Bechini, A.; Bondielli, A.; Dell'Oglio, P.; Marcellonii, F. Applied Computing and Intelligence, 3, 1, 2023, pàg. 44–78. DOI: 10.3934/aci.2023004 [Consulta: lliure].
↑ Tax, N.; Sidorova, N.; Haakma, R.; van der Aalst, Wil M. P. Journal of Innovation in Digital Ecosystems, 3, 2, 2016, pàg. 183–196. arXiv: 1606.06066. DOI: 10.1016/j.jides.2016.11.001.
↑ Abouelhoda, M. «String Mining in Bioinformatics». A: Gaber. Scientific Data Mining and Knowledge Discovery (en anglès). Springer, 2010. DOI 10.1007/978-3-642-02788-8_9. ISBN 978-3-642-02787-1.
↑ George, A.; Binu, D. Journal of King Saud University-Computer and Information Sciences, 25, 1, 2013, pàg. 77–87. DOI: 10.1016/j.jksuci.2012.07.001 [Consulta: free].

[1] Mabroukeh, N. R.; Ezeife, C. I. ACM Computing Surveys, 43, 2010, pàg. 1–41. DOI: 10.1145/1824795.1824798.

[2] Bechini, A.; Bondielli, A.; Dell'Oglio, P.; Marcellonii, F. Applied Computing and Intelligence, 3, 1, 2023, pàg. 44–78. DOI: 10.3934/aci.2023004 [Consulta: lliure].

[3] Tax, N.; Sidorova, N.; Haakma, R.; van der Aalst, Wil M. P. Journal of Innovation in Digital Ecosystems, 3, 2, 2016, pàg. 183–196. arXiv: 1606.06066. DOI: 10.1016/j.jides.2016.11.001.

[4] Abouelhoda, M. «String Mining in Bioinformatics». A: Gaber. Scientific Data Mining and Knowledge Discovery (en anglès). Springer, 2010. DOI 10.1007/978-3-642-02788-8_9. ISBN 978-3-642-02787-1.

[5] George, A.; Binu, D. Journal of King Saud University-Computer and Information Sciences, 25, 1, 2013, pàg. 77–87. DOI: 10.1016/j.jksuci.2012.07.001 [Consulta: free].

[1]

[2]

[3]

[4]

[5]