Tinc una mala notícia, i és que l'Hemeroteca digital de La Vanguardia ja no és lliure i només és accessible als subscriptors. Això significa que totes les referències s'hauran de recuperar del webarchive i ja no s'hi podran fer noves recerques. :-(
Tema de Viquipèdia:La taverna/Ajuda
Aparença
No vull ni imaginar la feina que implica això.
És una dolentíssima notícia, efectivament.
Estava cantat que passaria.
Si els comptes no els hi van bé, que és el que passarà amb tota la premsa escrita, arrossegar el patrimoni de +130 anys en obert s'hauria de plantejar com un bé públic.
Crec que lluny de pensar en "més" subvencions directes o encobertes cap aquesta entitat, s'hauria de plantejar com "premsa històrica" tot allò de +40 anys tot i seguir en actiu i que passés a un repositori tipus ARCA.
De fet, com a Dipòsit Legal, segur que a la Biblioteca de Catalunya deuen tenir tots els exemplars de La Vanguardia en paper. Per tant, es podria compensar la cessió amb una contrapartida única per l'estalvi de digitalització.
Suposo que tindran obert un accés de subscripció corporativa per universitats, hemeroteques o centres d'investigació. Si aquest fos el cas, podríem proposar que entrés dins la Wikipedia Library
Per cert, quan va començar l'hemeroteca de LV també era només per subscriptors.
Eren els començaments del diari en digital i consideraven una competència la seva versió digital respecta la impresa.
Als 2-3 anys van decidir obrir-la.
Ja veurem
Ara per ara, no crec que tinguin un accés corporatiu. Però a efectes pràctics, el que em preocupa més és la feina d'actualitzar les referències de la Viquipèdia per a que apuntin al webarchive.
Acabo de provar d'accedir i em surt el missatge:
No es pot accedir a aquest lloc web
hemerotecapublicloadbalancer-266680422.eu-west-1.elb.amazonaws.com ha tardat
Que sembla com si el servidor de publicitat (tenen banners ?) estigués penjat.
Us quadra ?
Acabo de demanar un bot específic per afegir "(per a subscriptors)" als enllaços existents a LV. Aquests dies el cercador no els funciona prou bé, oferint com a resultat pàgines amb errors 500 ("internal server error") i 503 ("service not available"), o la pàgina a la qual s'indica que el resultat és només per a subscriptors. Tècnicament no ho han resolt prou bé encara, perquè en segons quines parametritzacions del navegador es pot arribar a veure la pàgina, però suposo que ho blindaran millor.
Si et refereixes al cercador antic, està clar que l'han desconnectat de la base de dades, i per això dóna l'error 500 o 503. El cercador nou és aquest: https://hemeroteca.lavanguardia.com
Em contesto a mi mateix: els dos donen error.
Ara per ara, si la pàgina enllaçada és la HTML, es mostra l'avís de la subscripció, però l'enllaç "Descarregar en PDF" està actiu i es pot veure el contingut de la pàgina en aquest format. Si l'enllaç és directament el PDF, llavors es pot llegir sense problemes la pàgina. Exemple aquí (pàgina HTML) i aquí (i corresponent en PDF).
Crec que seria millor redirigir els enllaços al webarchive que invitar els lectors de la Viquipèdia a afiliar-se a un servei de pagament.
A favor d'això darrer que diu en @Paddy Mc Aloon, especialment pel que fa als exemplars que ja estan en domini públic.
Quina era la pàgina a partir de la qual podem saber el nombre exacte d'enllaços trencats?
Els enllaços a PDF encara funcionen, però la ruta de l'arxiu s'ha d'ajustar a la data de publicació, cosa que abans no passava.
Per exemple, l'enllaç a un anunci publicat el 15-12-1966 tenia la ruta següent: http://hemeroteca.lavanguardia.com/preview/2019/05/10/pagina-46/32665997/pdf.html, i ara té la data corregida: https://hemeroteca.lavanguardia.com/preview/1966/12/15/pagina-46/32665997/pdf.html
El mecanisme de correcció és bastant senzill, i el cartellet de marres es pot eliminar a través de les opcions de desenvolupament del navegador.
Efectivament, es pot eliminar, molt fàcilment. Passar els enllaços d'html (subscripció obligatòria, en principi) a PDF (subscripció no obligatòria) és senzill per un bot. La pàgina que indiques, https://hemeroteca.lavanguardia.com/preview/1966/12/15/pagina-46/32665997/pdf.html, en format PDF és la https://hemeroteca-paginas.lavanguardia.com/LVE07/HEM/1966/12/15/LVG19661215-046.pdf. L'única part que pot ser variable és LVE07, caldria comprovar si sempre és LVE07 o poden haver-hi altres variants.
@Jmrebes No veig factible la translació directa a l'enllaç en PDF pels diversos canvis a la ruta, perquè no només LVE07 canvia (p.ex. a LVE08 o LVE01), sinó que HEM també canvia a vegades a PUB. Però sí que ho seria normalitzar els enllaços antics en HTTP i amb una ruta no coincident amb la data de publicació amb el format actual.
Per exemple, l'enllaç obsolet http://hemeroteca.lavanguardia.com/preview/1959/09/13/pagina-36/34613448/pdf.html
passaria a https://hemeroteca.lavanguardia.com/preview/1998/11/27/pagina-36/34613448/pdf.html
Un cop tenim accés a la pàgina del nou servidor amb el cartellet, podem obtenir l'enllaç al PDF:
https://hemeroteca-paginas.lavanguardia.com/LVE01/PUB/1998/11/27/LVG19981127-036.pdf
Bon dia. Avui les pàgines de l'hemeroteca de La Vanguardia són visibles sense avís de subscripció, com era abans. Després d'un intercanvi de correus amb un responsable dels equips informàtics del diari, sembla que, de moment, han fet marxa enrere en el bloqueig per a no subscriptors. Les recerques són ara lliures, però igualment amb la impossibilitat de fer servir el recurs de frase completa, com ara "jordi pujol", que continua donant 0 resultats. Em consta que estan treballant amb aquest tema de les recerques per frase, tan de bo que se'n surtin.
Bon dia a tots. Per seguir consultant l'Hemeroteca m'he fet subscriptor però el servei és deplorable. Faig una consulta sobre Plaça d'Europa i troba 9996 pàgines! Tot el que troba son totes les pàgines que tenen "Plaça" i totes les que tenen "Europa". Cancelaré la meva subscripció. Evito adjectivar la meva opinió.
Sí, aquest és el tema que LV està tractant de resoldre, el de les recerques de frases completes. Pel que sé, aviat tindrem aquest tipus de recerques a LV... i a més no serà de pagament. Em sap greu pels que us heu fet subscriptors només per fer recerques a l'hemeroteca de LV, ara mateix ja és lliure, des de fa un bon grapats de dies. Salut!
Al final, han deixat l'hemeroteca lliure (fa dies que ja no hi surt el cartellet), però a canvi t'has de registrar per poder llegir les notícies en línia.
Curiós tot plegat, sembla com si els informàtics haguessin tirat pel dret sense consultar la direcció
Doncs jo no ho sé veure, i això que he estat mirant l'hemeroteca de La Vanguardia cada cert temps: per exemple ara mateix no veig que pugui fer-hi cerques per frase exacta i, a més, un cop llençada la cerca hi apareix una finestra emergent que et pregunta si "ya eres suscriptor".
Em sembla doncs que les expectatives que teníem que tot continués igual de bé han acabat en fiasco.
Per als qui ens subscriuríem tot just només per a accedir a l'hemeroteca d'aquest diari, sabeu si hi ha cap manera de fer-hi cerques per frase exacta? Abans funcionava escrivint entre cometes la frase cercada.
Salut!
La cerca continua funcionant com abans i el cartellet es pot treure fàcilment.
Doncs jo no he sabut treure el cartellet blau que convida a subscriure't a La Vanguardia. Podeu fer si us plau una descripció breu del procediment per treure'l, malgrat que us sembli obvi? Treballo en un arxiu d'un poeta català i sovint em trobo per catalogar alguns retalls de La Vanguardia dels anys cinquanta seixanta, que abans podia documentar perfectament amb el cercador del diari.
Concreto que en el meu cas entro al web de La Vanguardia com a registrat a través d'un compte de Google.
Gràcies.
Primer de tot, has de posar-te a sobre del cartellet, i després, accedir al codi font de la plana a travès d'una opció del navegador (menú desplegable amb el botó dret del ratolí) que es diu "Inspeccionar element" o quelcom de semblant. Un cop allà, t'obrirà una finestra i hauràs de trobar una línia que posa
<div class="modal show fade ev ev-open-modal-paywall-REQUIRE_LOGIN_WITH_ENTITLEMENT in">
i eliminar-la.
De moment segueix sent accessible de forma destralera: n'hi ha prou amb fer la cerca i anar prement F5 per anar amunt i avall dels resultats. En prémer algun resultat porta a l'opció de baixar el PDF i l'enllaç corresponent. Si es posa com a referència directament el PDF, s'obre directament en fer clic a l'enllaç.
Bon dia, Paddy Mc Aloon, em pots dir, si us plau, damunt de quin cartellet m'haig de posar a sobre amb el ratolí? Moltes gràcies. Estic intentant entrar però no me n'ensurto
El cartell blau on diu que t'hi has de subscriure.
M'agradaria recordar-vos a tots que fer enginyeria inversa amb les pàgines webs no està del tot ben vist des del punt de vista legal quan es tracta de programari (els "cracs"), però no n'estic segur de si passa el mateix amb pàgines web. Si us voleu bescanviar idees de com saltar-se l'obligatorietat de la subscripció d'aquest web o de qualsevol altre, feu-lo per privat. A més, els programadors del web implicat (La Vanguardia) poden perfectament atacar els vostres procediments un cop que veuen què fan els usuaris per saltar-se els sistemes de protecció. I no és una possibilitat, de fet ja ho han fet, han canviat el procediment de visualització de les pàgines sota subscripció que inicialment van posar en marxa ara fa dos anys.
Sí està clar, de fet si segueixen funcionant els 'cracs' és perquè no han considerat necessari fer-ho, o bé és poc usat o bé ja els està bé que hi hagi una porta del darrere per casos com el nostre. Crec però que no costaria massa que hi poguessin donar accés corporatiu via la Biblioteca de la Viquipèdia (tècnicament vull dir, un altre tema són els procediments i qui se n'encarrega de tot plegat). Crec que valdria la pena demanar-ho.