Vés al contingut

Aranya web

De la Viquipèdia, l'enciclopèdia lliure
Funcionament d'una aranya web

Una aranya web o robot web (web crawler en anglès) és un programari que inspecciona pàgines Web de forma metòdica i automatitzada. Les aranyes web s'utilitzen per a crear una còpia de totes les pàgines web visitades per al seu processament posterior per un motor de recerca que indexa les pàgines per a proporcionar un sistema de recerques ràpid.

Aquests programes comencen visitant una llista d'URLs identifiquen els hiperenllaços que contenen i els afegeixen a la llista d'URLs a visitar de manera recurrent d'acord amb un determinat conjunt de regles. El seu funcionament usual és a partir d'un grup d'adreces inicials que es proporciona a aquest programa, l'aranya les descarrega, n'analitza les pàgines i cerca enllaços a pàgines noves. Després descarrega aquestes pàgines noves, n'analitza els enllaços, i així successivament ad nauseam.

Les tasques més comunes de les aranyes són:

  • Crear l'índex d'una màquina de recerca.
  • Analitzar els enllaços d'un lloc per a buscar enllaços trencats.
  • Recol·lectar informació d'un cert tipus, com preus de productes per a recopilar un catàleg.

Els administradors de webs poden controlar relativament l'accés de les aranyes a les seves webs creant l'arxiu "robots.txt", que usa una sintaxi definida per a guiar aquests robots per l'estructura d'aquella web. Podeu veure per exemple l'arxiu; http://ca.wikipedia.org/robots.txt

Tipus

[modifica]

Hi ha diversos tipus d'aranyes web. Alguns d'aquests són: les aranyes web de motors de cerca, les personalitzades, les comercials, les del núvol, i les d'escriptori.

En primer lloc, les aranyes web de motors de cerca són el tipus més comú. Aquestes examinen, recopilen i indexen el contingut web. D'aquesta manera optimitzen la base de dades del motor de cerca. Alguns exemples d'aquest tipus són els següents: Googlebot, Bingbot, Slurpbot (de Yahoo), FaceBot, entre d'altres.

En segon lloc, les aranyes web personalitzades són les que s'utilitzen per a realitzar tasques concretes a empreses. Un exemple és controlar la freqüència de termes de cerca concrets.

També hi ha les aranyes web comercials que són les que es comercialitzen. Aquestes ofereixen més serveis i funcions i estalvien temps i diners a les empreses.

Les aranyes web del núvol emmagatzemen les dades al núvol en comptes de a un servidor local. Aquestes permeten utilitzar eines d'anàlisi i les bases de dades des de qualsevol dispositiu iniciant sessió. Això es degut a la seva independència respecte dispositius locals.

Per últim, les aranyes web d'escriptori són les que es poden utilitzar a ordinadors propis. Aquestes són més econòmiques, però per aquesta raó són més limitades que la resta i només poden evaluar petites quantitats de dades i llocs web.[1]

Referències

[modifica]
  1. «¿Qué es un web crawler? Cómo las arañas web optimizan Internet» (en castellà), 21-10-2020. [Consulta: 11 desembre 2024].

Enllaços externs

[modifica]
  • The Web Robots Page Arxivat 2008-05-17 a Wayback Machine. (anglès)
  • Googlebot, l'aranya de Google Arxivat 2006-12-20 a Wayback Machine. (castellà)