Model d'espai vectorial
El model d'espai vectorial o model vectorial de termes és un model algebraic per representar documents de text (i qualsevol objecte, en general) com a vectors d'identificadors (com ara termes d'índex). S'utilitza en el filtratge d'informació, la recuperació d'informació, la indexació i els rànquings de rellevància. El seu primer ús va ser al sistema SMART de recuperació d'informació.[1]
Definicions
[modifica]Els documents i les consultes es representen com a vectors.[2]
Cada dimensió correspon a un terme separat. Si apareix un terme al document, el seu valor al vector és diferent de zero. S'han desenvolupat diverses maneres diferents de calcular aquests valors, també conegudes com a pesos (termes). Un dels esquemes més coneguts és la ponderació tf-idf (vegeu l'exemple següent).
La definició del terme depèn de l'aplicació. Normalment, els termes són paraules soltes, paraules clau o frases llargues. Si s'escullen paraules com a termes, la dimensionalitat del vector és el nombre de paraules del vocabulari (el nombre de paraules diferents que apareixen al corpus).
Les operacions vectorials es poden utilitzar per comparar documents amb consultes.[3]
Aplicacions
[modifica]Les classificacions de rellevància dels documents en una cerca de paraules clau es poden calcular, utilitzant els supòsits de la teoria de les similituds de documents, comparant la desviació dels angles entre cada vector de document i el vector de consulta original on la consulta es representa com un vector amb la mateixa dimensió que els vectors que representar la resta de documents.
A la pràctica, és més fàcil calcular el cosinus de l'angle entre els vectors, en lloc de l'angle en si:
On és la intersecció (és a dir, el producte escalat) del document (d ₂ a la figura de la dreta) i els vectors de consulta (q a la figura), és la norma del vector d ₂, i és la norma del vector q. La norma d'un vector es calcula així:
Utilitzant el cosinus, la similitud entre el document d j i la consulta q es pot calcular com:
Com que tots els vectors considerats per aquest model són no negatius per elements, un valor de cosinus zero significa que la consulta i el vector del document són ortogonals i no coincideixen (és a dir, el terme de consulta no existeix en el document que es considera). Vegeu semblança del cosinus per a més informació.[4]
Referències
[modifica]- ↑ «A Gentle Introduction to Vector Space Models» (en anglès). [Consulta: 14 octubre 2023].
- ↑ Pykes, Kurtis. «Vector Space Models» (en anglès), 26-10-2020. [Consulta: 14 octubre 2023].
- ↑ «Web Information Retrieval | Vector Space Model» (en anglès americà), 14-08-2018. [Consulta: 14 octubre 2023].
- ↑ «Vector Space Models - an overview | ScienceDirect Topics» (en anglès). [Consulta: 14 octubre 2023].