Aranya web
Una aranya web o robot web (web crawler en anglès) és un programari que inspecciona pàgines Web de forma metòdica i automatitzada. Les aranyes web s'utilitzen per a crear una còpia de totes les pàgines web visitades per al seu processament posterior per un motor de recerca que indexa les pàgines per a proporcionar un sistema de recerques ràpid.
Aquests programes comencen visitant una llista d'URLs identifiquen els hiperenllaços que contenen i els afegeixen a la llista d'URLs a visitar de manera recurrent d'acord amb un determinat conjunt de regles. El seu funcionament usual és a partir d'un grup d'adreces inicials que es proporciona a aquest programa, l'aranya les descarrega, n'analitza les pàgines i cerca enllaços a pàgines noves. Després descarrega aquestes pàgines noves, n'analitza els enllaços, i així successivament ad nauseam.
Les tasques més comunes de les aranyes són:
- Crear l'índex d'una màquina de recerca.
- Analitzar els enllaços d'un lloc per a buscar enllaços trencats.
- Recol·lectar informació d'un cert tipus, com preus de productes per a recopilar un catàleg.
Els administradors de webs poden controlar relativament l'accés de les aranyes a les seves webs creant l'arxiu "robots.txt", que usa una sintaxi definida per a guiar aquests robots per l'estructura d'aquella web. Podeu veure per exemple l'arxiu; http://ca.wikipedia.org/robots.txt
Tipus
[modifica]Hi ha diversos tipus d'aranyes web. Alguns d'aquests són: les aranyes web de motors de cerca, les personalitzades, les comercials, les del núvol, i les d'escriptori.
En primer lloc, les aranyes web de motors de cerca són el tipus més comú. Aquestes examinen, recopilen i indexen el contingut web. D'aquesta manera optimitzen la base de dades del motor de cerca. Alguns exemples d'aquest tipus són els següents: Googlebot, Bingbot, Slurpbot (de Yahoo), FaceBot, entre d'altres.
En segon lloc, les aranyes web personalitzades són les que s'utilitzen per a realitzar tasques concretes a empreses. Un exemple és controlar la freqüència de termes de cerca concrets.
També hi ha les aranyes web comercials que són les que es comercialitzen. Aquestes ofereixen més serveis i funcions i estalvien temps i diners a les empreses.
Les aranyes web del núvol emmagatzemen les dades al núvol en comptes de a un servidor local. Aquestes permeten utilitzar eines d'anàlisi i les bases de dades des de qualsevol dispositiu iniciant sessió. Això es degut a la seva independència respecte dispositius locals.
Per últim, les aranyes web d'escriptori són les que es poden utilitzar a ordinadors propis. Aquestes són més econòmiques, però per aquesta raó són més limitades que la resta i només poden evaluar petites quantitats de dades i llocs web.[1]
Referències
[modifica]- ↑ «¿Qué es un web crawler? Cómo las arañas web optimizan Internet» (en castellà), 21-10-2020. [Consulta: 11 desembre 2024].
Enllaços externs
[modifica]- The Web Robots Page Arxivat 2008-05-17 a Wayback Machine. (anglès)
- Googlebot, l'aranya de Google Arxivat 2006-12-20 a Wayback Machine. (castellà)