Vés al contingut

Bigrama

De la Viquipèdia, l'enciclopèdia lliure

Un bigrama o digrama és un grup de dues lletres, dues síl·labes, o dues paraules. Els bigrames són utilitzats comunament com a base per a l'anàlisi estadística de text simple. S'utilitzen en un dels models de llenguatge més exitosos per al reconeixement de veu.[1] Es tracta d'un cas especial del N-grama.

Els Bigrames ajuden a proporcionar la probabilitat condicional d'una paraula donada la paraula precedent, quan la relació de la probabilitat condicional s'aplica:

És a dir, la probabilitat d'una paraula , donada la paraula precedent , és igual a la probabilitat del seu bigrama, o la co-ocurrència de les dues paraules , dividit per la probabilitat de la paraula precedent.

Aplicacions

[modifica]

Els bigrames de paraules s'usen en models de llenguatge per a reconeixement de llenguatge natural.

Els bigrames de lletres es poden usar per a la identificació de l'idioma d'un text. També poden ser usats per a fer un criptoanàlisi d'un text xifrat.

Referències

[modifica]
  1. Michael Collins. A new statistical parser based on bigram lexical dependencies. In Proceedings of the 34th Annual Meeting of the Association of Computational Linguistics, Santa Cruz, CA. 1996. pp.184-191.

Vegeu també

[modifica]