Vés al contingut

Viquipèdia:Taller de bots 2010/Projectes/Desambiguacions/enllacospagina.py

De la Viquipèdia, l'enciclopèdia lliure

Et retorna, en una llista, tots els enllaços a un article presents en la pagina. Ho retorna en un diccionari, amb el text trobat, la posició d'inici dins de l'string i la posició final dins l'string. Això servirà, en un futur, per classificar-ho en paràgrafs per veure el context.

Codi

[modifica]
# -*- coding: utf-8 -*-

import wikipedia
import re

def cercaenllacos(pagina,article):
    site = wikipedia.getSite('ca')
    page = wikipedia.Page(site,pagina)
    text = page.get(get_redirect=True)
    cerques = []
    for cerca in re.finditer('\[\['+article+'\|?.*?\]\]',text,re.I):
	cerques.append({'text':cerca.group(),'start':cerca.start(),'end':cerca.end()})
    return (cerques,text, page)