Viquipèdia:Taller de bots 2010/Projectes/Desambiguacions/enllacospagina.py
Aparença
Et retorna, en una llista, tots els enllaços a un article
presents en la pagina
. Ho retorna en un diccionari, amb el text trobat, la posició d'inici dins de l'string i la posició final dins l'string. Això servirà, en un futur, per classificar-ho en paràgrafs per veure el context.
Codi
[modifica]# -*- coding: utf-8 -*-
import wikipedia
import re
def cercaenllacos(pagina,article):
site = wikipedia.getSite('ca')
page = wikipedia.Page(site,pagina)
text = page.get(get_redirect=True)
cerques = []
for cerca in re.finditer('\[\['+article+'\|?.*?\]\]',text,re.I):
cerques.append({'text':cerca.group(),'start':cerca.start(),'end':cerca.end()})
return (cerques,text, page)