Vés al contingut

Llista d'arxius de contingut web

De la Viquipèdia, l'enciclopèdia lliure
Mapa de les iniciatives d'arxius de contingut web del món al juny de 2014.

Aquesta pàgina conté una llista d'iniciatives de web archiving d'arreu del món. Per a una lectura més fàcil la informació està dividida en tres taules: iniciatives de web archiving, data arxivada i mètodes d'accés.

Aquesta pàgina de la Viquipèdia va ser originalment generada mitjançant els resultats obtinguts pel diari A sourvey on web archiving publicada per http://arquivo.pt/ (l'arxiu web portugués).

Iniciatives d'arxiu web

[modifica]
Nom País Any de creació Teconologies Nombre de treballadors Comentaris
Arxiu web australià [1] Austràlia 1996 Sistema d'arxiu digital Pandora (PANDAS), NLA Trove, HTTrack 10 >5 L'arxiu PANDORA, amb un sistema selectiu, és un programa col·laboratiu entre 10 agències que proveeixen un staff mensual d'aproximadament 10 FTE. Amb suport de la Biblioteca nacional d'Austràlia; o.25 persones al mes. En col·laboració amb l'Internet Archive s'han dut a terme des del 2005 recollides de domini web utilitzant Heritrixi Wayback.
Projecte PROMISE[2] Bèlgica 2017 El projecte PROMISE és un projecte de dos anys que explorarà els problemes legals, polítics, tècnics i científics relacionats amb l'arxiu de la web belga. Els objectius del programa són a) establir un pilot per l'arxiu de la web belga b) identificar les millors maneres per dur a terme l'arxiu web c) identificar casos del estudi científic de l'arxiu web d) dur a terme recomanacions per la implementació d'un servei d'arxiu web sostenible. El projecte va ser iniciat per la Royal Library of Belgium[3] i dels Arxius estatals de Bèlgica[4] en col·laboració amb la Universitat de Ghent (Grup de recerca de mitjans, innovació i comunicació i el Centre Digital d'Humanitats),[5][6] la Universitat de Namur (Centre de recerca de la informació, dret i societat)[7]i el University college Bruxelles-Brabant[8] (Unitat de recerca i de formació en ciències de la informació i la comunciació).
Pagefreezer.com[9] Canadà, Estats Units i Europa 2006 Buscador de la deep web Pagefreezer, Hadoop, Cassandra, Elastic Search 25 Es tracta d'un sistema sota demanda per les empreses per archivar i repetir llocs web, blogs, Ajax, Flash, audio, vídeo i xarxes socials per a la protecció de litigis, E-discovery i compliment de la normativa amb FDA, FINRA, FSA, SEC, SOX, normes federals de proves i lleis de gestió de registres.
Webpreserver.com[10] Internacional 2015 WebPreserver Arxivat 2018-04-01 a Wayback Machine. El complement del webbrowser de Chrome i el servei basat en web per recollir pàgines web autenticades i legalment admissibles i pàgines de mitjans socials per a eDiscovery. Les instantànies web es poden exportar a EDRM-XML, WARC, PDF i HTML natiu. Els serveis de WebPreserver.com permeten als equips legals organitzar, etiquetar i col·laborar les proves digitals capturades amb l'eina WebPreserver.
OoCities-GeoCities archive/GeoCities mirror[11] Alemanya
Web@rchive Austria[12] Austria 2008 NetarchiveSuite, Heritrix, OpenWayback 1
Deutsche Nationalbibliothek[13] Alemanya 2012 Tools of oia GmbH 3 El rastreig per a l'arxiu web selectiu és realitzat per l'empresa alemanya oia GmbH. L'accés està restringit a les sales de lectura de la Biblioteca Nacional Alemanya.
DILIMAG[14] (Digital Literature Magazines) Austria 2007 WebCurator Arxivat 2015-02-19 a Wayback Machine. 2 Un tècnic, un per a la recollida i metadades.
Biblioteca i Arxius Nacionals del Quebec[15] (BAnQ) Canadà 2012 Hetrix, Wayback 2 bibliotecaris, 2 desenvolupadors.
Programa d'arxius web a la Llibreria i Arxius de Canada.[16] Canadà 2005 Hetrix i Wayback 8 L'arxivatge web a Canadà és una activitat legislativa que es duu a terme amb finalitats de conservació digital a la secció 8 (2) de la Biblioteca i Arxiu de la Llei de Canadà.[17] Quatre bibliotecaris, dos arxivers, un tècnic i un desenvolupador treballen en el programa a temps parcial. L'arxivatge web a la Biblioteca i arxius de Canadà[18] també s'utilitza per efectuar el dipòsit legal.[19]
Web Information Collection and Preservation - WICP (Arxiu web xinès)[20] Xina 2003 Hetrix, Wayback i NutchWax Arxivat 2015-06-26 a Wayback Machine.
Arxiu Web de Croàcia (Hrvatski arhiv weba - HAW)[21] Croàcia 2004 Cerca: DAMP software, Heritrix

Accès: Wayback, Lucene

2 2 L'Arxiu web croat (HAW) és una col·lecció de continguts recollits a Internet. El 2004, l'Arxiu va començar com un concepte de captura selectiva de recursos web. Les collites completes de domini .hr s'han realitzat anualment des de 2011. Així com la collita temàtica/d'esdeveniment per a esdeveniments d'interès nacional. El contingut de l'Arxiu està disponible públicament a través del lloc web HAW. (2 bibliotecaris a temps complet, 1 bibliotecari a temps parcial, NUL), 2 professionals de TI a temps parcial (SRCE - Universitat de Zagreb, Centre d'Informàtica Universitària)
Webarchiv (Llibreria Nacional de la República Txeca)[22] República Txeca 2000 Heritrix, Wayback and WA Admin. 4 2 1 gerent, 2,5 comissaris + 0,5 tècnics
Netarkivet Dinamarca 2005 NetarchiveSuite, Heritrix, Free text search using Solr, and Wayback. ~ 23 = 7.5 FTE ~ 23 persones involucrades (desenvolupadors, comissaris web, personal d'operacions, gestors de projectes, tot el temps parcial).
Arxiu web d'Estònia[23] Estònia 2010 Heritrix, Squidwarc, Wayback. 4 Des de 2006, la Llei de Dipòsits Jurídics permet que la Biblioteca Nacional d'Estònia reculli els llocs web d'Estònia com a còpia de dipòsit legal. S'ha permès que el contingut recollit estigui disponible públicament. La nova Llei de còpia de dipòsit legal va entrar en vigor el 2017 i des de llavors només es permet l'accés públic d'acord amb el permís dels propietaris de drets d'autor dels llocs.
Arxiu web finlandès[24] Finlàndia 2008 Heritrix, Solr, Wayback. 2 >2 Mantingut per la Biblioteca Nacional de Finlàndia. Anualment, tots els dominis * .fi es recullen, així com els servidors web ubicats a Finlàndia. Fora d'aquestes collites, la biblioteca selecciona manualment llocs web rellevants.
BnF - BnF Dipósit web legal[25] França 2006 Heritrix, Wayback, NutchWAX, Arxivat 2015-06-26 a Wayback Machine. NetarchiveSuite, BCWeb. 10
Ina (Institut National de l'Audiovisuel)[26] França 2009 Cerca: PhagoSite, Crocket based on Firefox, Fantomasbased on PhantomJS/ Accès: Vortex / Search: Dowserbased on Elasticsearch 7 Staff of 80 documentalists taking part in nominating sites and QA
E-diaspora (Télécom ParisTech, FMSH)[27] França 2010 Crawl: PhagoSite 1 30 investigadors que participen en llocs de nominació
Internet memory Foundation França, PaÏsos Baixos 2004 IM large scale crawler, Heritrix, IM Access software. Storage of Web Content: Hbase Monitorització de rastreigs, desenvolupadors i infraestructures, administrador i administració.
Internet Memory Research (ATN service)[28] França 2011 IM large scale crawler, Heritrix, IM Access software. Storage of Web Content: Hbase Seguiment de rastreig (QA, enginyeria de rastreig, gestió de projectes), desenvolupadors i infraestructures, administrador i administració
Bibliotheksservice-Zentrum Baden-Württemberg[29] Alemanya 2003 Archive-It 1 Migració a l'arxiu-a partir del 2017.

Les dades s'emmagatzemen permanentment a San Francisco (Arxiu-It), així com a la infraestructura d'emmagatzematge a Baden-Württemberg.

Arxiu web de German Bundestag[30] Alemanya 2005
Islàndia[31] Islàndia 2004 Heritrix, OpenWayback
Biblioteca Nacional d'Irlanda[32] Irlanda 2011 Heritrix 1 La Biblioteca Nacional d'Irlanda selecciona de manera selectiva llocs web irlandesos d'importància acadèmica, cultural i política a través del seu Arxiu Web de NLI.
Arxiu Web d'Israel Israel 2011 Heritrix, Web curator tool, Wayback, Rosetta 1 >3 Biblioteca Nacional d'Israel[33] recopilant dominis '.IL', 1 administrador de projectes a temps parcial, 1 líder tècnic a temps complet, 1 temps parcial de bibliotecari, 1 IT part de la infraestructura
Web Archiving Project (WARP, The National Diet Library)[34] Japó 2002 Heritrix, Wayback, Solr. Previously: Wget, Accela BizSearch 9 1 Llançada el 2002 com a projecte pilot, WARP (Web Archiving Project) ha estat en funcionament a gran escala des de l'any 2006. Va començar l'arxiu web dels llocs oficials d'institucions segons la legislació d'abril de 2010.[35]
Biblioteca Nacional de Corea

OASIS (Online Archiving & Searching Internet Sources)

Corea 2001 Sistema propi basat en Oracle DBMS i motor de cerca especialitzat (IRS) que realitza la gestió de dades i la funció de cerca. 3 11
Biblioteca Nacional de Luxemburg Luxemburg 2015 Heritrix, Wayback 2 La biblioteca nacional de Luxemburg duu a terme rastres amplis bianuals per al domini .lu, així com rastreigs selectius i basats en esdeveniments.

Els llocs web que es recullen a l'Arxiu Web enriqueixen les col·leccions patrimonials de la biblioteca nacional, que permet la preservació de publicacions digitals per a les generacions futures. L'objectiu general és preservar la web luxemburguesa i mantenir la seva informació permanentment disponible.

Koninklijke Bibliotheek[36] PaÏsos Baixos 2006 Heritrix, Web Curator Tool, Wayback, KB e-Depot system 10 1 enginyer de rastreig, i 9 especialistes en recaptació, tot a temps parcial (equivalent a 1,3 a temps complet). El KB recull selectivament llocs de recerca holandesos i valor cultural.
Biblioteca Nacional de Lituània Lituània 2005 Web Curator Tool and Wayback 1 Actualment només emmagatzema per a la preservació, l'accés al públic en desenvolupament (ETA, juny de 2012). El terme letó per a la captura web és "rasmošana
Arxiu Web de Nova Zelanda[37] Nova Zelanda 1999 Web Curator Tool, Heritrix, Rosetta 3 10 La recol·lecció selectiva és realitzada per la Biblioteca Nacional de Nova Zelanda mitjançant l'eina Web Curator. Tres llocs web de personal de cultiu a temps complet i una sèrie de publicacions en règim personal recollides en serials HTML o monografies HTML. Les collites de domini nacional s'han realitzat bianualment en col·laboració amb l'Arxiu d'Internet des de 2008. El personal de serveis tècnics respon a les sol·licituds del servei de servei tal com es presenten. Els problemes d'arxiu web són gestionats per personal que treballa amb Rosetta
Biblioteca Nacional de Noruega[38] Noruega
Netherlands Institute for Sound and Vision(Sound and Vision) web archive Països Baixos 2011 Heritrix, Elasticsearchfor full-text index, Drupal for front-end 7 Sound & Vision ha participat en projectes d'arxiu web des de 2008, començant pel projecte de recerca de la UE LiWA [39]]. Després d'un parell de pilots, els projectes d'arxiu web es van ampliar el 2014.
Rhizome (organization) Estats Units 2009 ArtBase, Webrecorder, Oldweb.Today 3 1 Rhizome opera un programa de preservació digital, encapçalat per Dragan Espenschied, que se centra en la creació d'eines de programari lliure i de codi obert per descentralitzar l'arxivat web i les pràctiques de preservació del programari i garantir l'accés a les seves col·leccions d'art digital nascut. Oldweb.Today i Webrecorder són les seves eines enfocades específicament a l'arxivat web.[40]

Referències

[modifica]
  1. Australia, c=AU; o=Commonwealth of Australia; ou=National Library of. «Pandora Archive - Preserving and Accessing Networked Documentary Resources of Australia» (en anglès), 01-05-1999. [Consulta: 7 maig 2018].
  2. «PROMISE – A Belgian web archiving project | Preserving Online Multiple Information : towards a Belgian strategy» (en anglès). [Consulta: 7 maig 2018].
  3. «PROMISE project». Royal Library of Belgium, 16-08-2017.
  4. «State Archives of Belgium» (en anglès). [Consulta: 7 maig 2018].
  5. «Research group for Media, Innovation and Communication Technology (MICT) — Research group for Media, Innovation and Communication Technologies — Ghent University» (en neerlandès). [Consulta: 7 maig 2018].
  6. «Ghent Centre for Digital Humanities» (en anglès). [Consulta: 7 maig 2018].
  7. «Research Centre in Information, Law and Society — CRIDS» (en anglès). [Consulta: 7 maig 2018].
  8. «HE2B» (en francès). [Consulta: 7 maig 2018].
  9. «How to Archive a Website - PageFreezer Software Inc.» (en anglès). [Consulta: 7 maig 2018].
  10. «PageFreezer | Legal». Arxivat de l'original el 2018-04-01. [Consulta: 7 maig 2018].
  11. «Yahoo! GeoCities: Get a web site with easy-to-use site building tools.», 07-07-2012. Arxivat de l'original el 2012-07-07. [Consulta: 7 maig 2018].
  12. Nationalbibliothek, Österreichische. «Webarchiv Österreich» (en alemany). [Consulta: 7 maig 2018].
  13. «Deutsche Nationalbibliothek - Web Archive» (en anglès). Arxivat de l'original el 2018-05-08. [Consulta: 7 maig 2018].
  14. «dilimag - Welcome». [Consulta: 7 maig 2018].
  15. «Archivage Web | BAnQ» (en anglès). [Consulta: 7 maig 2018].
  16. Canada, Library and Archives Canada / Bibliothèque et Archives. «Government of Canada Web Archive» (en anglès). Arxivat de l'original el 2018-03-15. [Consulta: 7 maig 2018].
  17. Branch, Legislative Services. «Consolidated federal laws of canada, Library and Archives of Canada Act» (en anglès). [Consulta: 7 maig 2018].
  18. Canada, Library and Archives «Home - Library and Archives Canada - Library and Archives Canada» (en anglès). .
  19. Canada, Library and Archives «Legal Deposit - Library and Archives Canada» (en anglès). .
  20. «中国事典», 10-08-2011. Arxivat de l'original el 2011-08-10. [Consulta: 7 maig 2018].
  21. NSK, Nacionalna i sveučilišna knjižnica u Zagrebu, National and University Library in Zagreb,; Zagreb, Sveučilišni računski centar (Srce), University Computing Centre; http://www.nsk.hr/. «Hrvatski arhiv weba, HAW». Arxivat de l'original el 2013-07-13. [Consulta: 7 maig 2018].
  22. Webarchiv. «The Museum of Czech web | Webarchiv.cz» (en anglès). [Consulta: 7 maig 2018].
  23. «National Library of Estonia». [Consulta: 7 maig 2018].
  24. «Verkkoarkisto» (en anglès). [Consulta: 7 maig 2018].
  25. France, Bibliothèque nationale de. «BnF - Digital legal deposit» (en anglès). [Consulta: 7 maig 2018].
  26. Ina.fr, Institut National de l'Audiovisuel –. «Ina.fr : vidéo, radio, audio et publicité - Actualités, archives de la radio et de la télévision en ligne - Archives vidéo et radio Ina.fr» (en francès). [Consulta: 7 maig 2018].
  27. «ticmigrations.fr - ticmigrations Resources and Information. This website is for sale!», 27-09-2013. Arxivat de l'original el 2013-09-27. [Consulta: 7 maig 2018].
  28. http://polylogue.com, Nicolas Taffin -. «Archive The Net : home» (en francès). Arxivat de l'original el 2016-08-04. [Consulta: 7 maig 2018].
  29. «Willkommen im Bibliotheksservice-Zentrum Baden-Württemberg». [Consulta: 7 maig 2018].
  30. «Deutscher Bundestag - Webarchiv» (en alemany). [Consulta: 7 maig 2018].
  31. «Vefsafn.is - English» (en islandès). Arxivat de l'original el 2018-05-08. [Consulta: 7 maig 2018].
  32. National Library of Ireland «Digital Collections». National Library of Ireland Annual Report., 2011.
  33. «National Library of Israel» (en anglès). [Consulta: 7 maig 2018].
  34. «国立国会図書館インターネット資料収集保存事業». [Consulta: 7 maig 2018].
  35. National Diet Library, Japan Questionnaire Survey on Web Archiving (Q2-Q7), 13-04-2010.
  36. «WebART (Web Archive Retrieval Tools)». [Consulta: 7 maig 2018].
  37. «New Zealand Web Archive | A-Z | Collections | National Library of New Zealand» (en anglès). [Consulta: 7 maig 2018].
  38. «Nasjonalbiblioteket» (en noruec). [Consulta: 7 maig 2018].
  39. «LiWA - Living Web Archives : Home». Arxivat de l'original el 2018-05-08. [Consulta: 7 maig 2018].
  40. Durón, Maximilíano. «A Net Art Pioneer Evolves With the Digital Age: Rhizome Turns 20» (en anglès), 01-09-2016. [Consulta: 7 maig 2018].