Llista d'arxius de contingut web
Aquesta pàgina conté una llista d'iniciatives de web archiving d'arreu del món. Per a una lectura més fàcil la informació està dividida en tres taules: iniciatives de web archiving, data arxivada i mètodes d'accés.
Aquesta pàgina de la Viquipèdia va ser originalment generada mitjançant els resultats obtinguts pel diari A sourvey on web archiving publicada per http://arquivo.pt/ (l'arxiu web portugués).
Iniciatives d'arxiu web
[modifica]Nom | País | Any de creació | Teconologies | Nombre de treballadors | Comentaris |
---|---|---|---|---|---|
Arxiu web australià [1] | Austràlia | 1996 | Sistema d'arxiu digital Pandora (PANDAS), NLA Trove, HTTrack | 10 >5 | L'arxiu PANDORA, amb un sistema selectiu, és un programa col·laboratiu entre 10 agències que proveeixen un staff mensual d'aproximadament 10 FTE. Amb suport de la Biblioteca nacional d'Austràlia; o.25 persones al mes. En col·laboració amb l'Internet Archive s'han dut a terme des del 2005 recollides de domini web utilitzant Heritrixi Wayback. |
Projecte PROMISE[2] | Bèlgica | 2017 | El projecte PROMISE és un projecte de dos anys que explorarà els problemes legals, polítics, tècnics i científics relacionats amb l'arxiu de la web belga. Els objectius del programa són a) establir un pilot per l'arxiu de la web belga b) identificar les millors maneres per dur a terme l'arxiu web c) identificar casos del estudi científic de l'arxiu web d) dur a terme recomanacions per la implementació d'un servei d'arxiu web sostenible. El projecte va ser iniciat per la Royal Library of Belgium[3] i dels Arxius estatals de Bèlgica[4] en col·laboració amb la Universitat de Ghent (Grup de recerca de mitjans, innovació i comunicació i el Centre Digital d'Humanitats),[5][6] la Universitat de Namur (Centre de recerca de la informació, dret i societat)[7]i el University college Bruxelles-Brabant[8] (Unitat de recerca i de formació en ciències de la informació i la comunciació). | ||
Pagefreezer.com[9] | Canadà, Estats Units i Europa | 2006 | Buscador de la deep web Pagefreezer, Hadoop, Cassandra, Elastic Search | 25 | Es tracta d'un sistema sota demanda per les empreses per archivar i repetir llocs web, blogs, Ajax, Flash, audio, vídeo i xarxes socials per a la protecció de litigis, E-discovery i compliment de la normativa amb FDA, FINRA, FSA, SEC, SOX, normes federals de proves i lleis de gestió de registres. |
Webpreserver.com[10] | Internacional | 2015 | WebPreserver Arxivat 2018-04-01 a Wayback Machine. | El complement del webbrowser de Chrome i el servei basat en web per recollir pàgines web autenticades i legalment admissibles i pàgines de mitjans socials per a eDiscovery. Les instantànies web es poden exportar a EDRM-XML, WARC, PDF i HTML natiu. Els serveis de WebPreserver.com permeten als equips legals organitzar, etiquetar i col·laborar les proves digitals capturades amb l'eina WebPreserver. | |
OoCities-GeoCities archive/GeoCities mirror[11] | Alemanya | ||||
Web@rchive Austria[12] | Austria | 2008 | NetarchiveSuite, Heritrix, OpenWayback | 1 | |
Deutsche Nationalbibliothek[13] | Alemanya | 2012 | Tools of oia GmbH | 3 | El rastreig per a l'arxiu web selectiu és realitzat per l'empresa alemanya oia GmbH. L'accés està restringit a les sales de lectura de la Biblioteca Nacional Alemanya. |
DILIMAG[14] (Digital Literature Magazines) | Austria | 2007 | WebCurator Arxivat 2015-02-19 a Wayback Machine. | 2 | Un tècnic, un per a la recollida i metadades. |
Biblioteca i Arxius Nacionals del Quebec[15] (BAnQ) | Canadà | 2012 | Hetrix, Wayback | 2 bibliotecaris, 2 desenvolupadors. | |
Programa d'arxius web a la Llibreria i Arxius de Canada.[16] | Canadà | 2005 | Hetrix i Wayback | 8 | L'arxivatge web a Canadà és una activitat legislativa que es duu a terme amb finalitats de conservació digital a la secció 8 (2) de la Biblioteca i Arxiu de la Llei de Canadà.[17] Quatre bibliotecaris, dos arxivers, un tècnic i un desenvolupador treballen en el programa a temps parcial. L'arxivatge web a la Biblioteca i arxius de Canadà[18] també s'utilitza per efectuar el dipòsit legal.[19] |
Web Information Collection and Preservation - WICP (Arxiu web xinès)[20] | Xina | 2003 | Hetrix, Wayback i NutchWax Arxivat 2015-06-26 a Wayback Machine. | ||
Arxiu Web de Croàcia (Hrvatski arhiv weba - HAW)[21] | Croàcia | 2004 | Cerca: DAMP software, Heritrix
Accès: Wayback, Lucene |
2 2 | L'Arxiu web croat (HAW) és una col·lecció de continguts recollits a Internet. El 2004, l'Arxiu va començar com un concepte de captura selectiva de recursos web. Les collites completes de domini .hr s'han realitzat anualment des de 2011. Així com la collita temàtica/d'esdeveniment per a esdeveniments d'interès nacional. El contingut de l'Arxiu està disponible públicament a través del lloc web HAW. (2 bibliotecaris a temps complet, 1 bibliotecari a temps parcial, NUL), 2 professionals de TI a temps parcial (SRCE - Universitat de Zagreb, Centre d'Informàtica Universitària) |
Webarchiv (Llibreria Nacional de la República Txeca)[22] | República Txeca | 2000 | Heritrix, Wayback and WA Admin. | 4 2 | 1 gerent, 2,5 comissaris + 0,5 tècnics |
Netarkivet | Dinamarca | 2005 | NetarchiveSuite, Heritrix, Free text search using Solr, and Wayback. | ~ 23 = 7.5 FTE | ~ 23 persones involucrades (desenvolupadors, comissaris web, personal d'operacions, gestors de projectes, tot el temps parcial). |
Arxiu web d'Estònia[23] | Estònia | 2010 | Heritrix, Squidwarc, Wayback. | 4 | Des de 2006, la Llei de Dipòsits Jurídics permet que la Biblioteca Nacional d'Estònia reculli els llocs web d'Estònia com a còpia de dipòsit legal. S'ha permès que el contingut recollit estigui disponible públicament. La nova Llei de còpia de dipòsit legal va entrar en vigor el 2017 i des de llavors només es permet l'accés públic d'acord amb el permís dels propietaris de drets d'autor dels llocs. |
Arxiu web finlandès[24] | Finlàndia | 2008 | Heritrix, Solr, Wayback. | 2 >2 | Mantingut per la Biblioteca Nacional de Finlàndia. Anualment, tots els dominis * .fi es recullen, així com els servidors web ubicats a Finlàndia. Fora d'aquestes collites, la biblioteca selecciona manualment llocs web rellevants. |
BnF - BnF Dipósit web legal[25] | França | 2006 | Heritrix, Wayback, NutchWAX, Arxivat 2015-06-26 a Wayback Machine. NetarchiveSuite, BCWeb. | 10 | |
Ina (Institut National de l'Audiovisuel)[26] | França | 2009 | Cerca: PhagoSite, Crocket based on Firefox, Fantomasbased on PhantomJS/ Accès: Vortex / Search: Dowserbased on Elasticsearch | 7 | Staff of 80 documentalists taking part in nominating sites and QA |
E-diaspora (Télécom ParisTech, FMSH)[27] | França | 2010 | Crawl: PhagoSite | 1 | 30 investigadors que participen en llocs de nominació |
Internet memory Foundation | França, PaÏsos Baixos | 2004 | IM large scale crawler, Heritrix, IM Access software. Storage of Web Content: Hbase | Monitorització de rastreigs, desenvolupadors i infraestructures, administrador i administració. | |
Internet Memory Research (ATN service)[28] | França | 2011 | IM large scale crawler, Heritrix, IM Access software. Storage of Web Content: Hbase | Seguiment de rastreig (QA, enginyeria de rastreig, gestió de projectes), desenvolupadors i infraestructures, administrador i administració | |
Bibliotheksservice-Zentrum Baden-Württemberg[29] | Alemanya | 2003 | Archive-It | 1 | Migració a l'arxiu-a partir del 2017.
Les dades s'emmagatzemen permanentment a San Francisco (Arxiu-It), així com a la infraestructura d'emmagatzematge a Baden-Württemberg. |
Arxiu web de German Bundestag[30] | Alemanya | 2005 | |||
Islàndia[31] | Islàndia | 2004 | Heritrix, OpenWayback | ||
Biblioteca Nacional d'Irlanda[32] | Irlanda | 2011 | Heritrix | 1 | La Biblioteca Nacional d'Irlanda selecciona de manera selectiva llocs web irlandesos d'importància acadèmica, cultural i política a través del seu Arxiu Web de NLI. |
Arxiu Web d'Israel | Israel | 2011 | Heritrix, Web curator tool, Wayback, Rosetta | 1 >3 | Biblioteca Nacional d'Israel[33] recopilant dominis '.IL', 1 administrador de projectes a temps parcial, 1 líder tècnic a temps complet, 1 temps parcial de bibliotecari, 1 IT part de la infraestructura |
Web Archiving Project (WARP, The National Diet Library)[34] | Japó | 2002 | Heritrix, Wayback, Solr. Previously: Wget, Accela BizSearch | 9 1 | Llançada el 2002 com a projecte pilot, WARP (Web Archiving Project) ha estat en funcionament a gran escala des de l'any 2006. Va començar l'arxiu web dels llocs oficials d'institucions segons la legislació d'abril de 2010.[35] |
Biblioteca Nacional de Corea
OASIS (Online Archiving & Searching Internet Sources) |
Corea | 2001 | Sistema propi basat en Oracle DBMS i motor de cerca especialitzat (IRS) que realitza la gestió de dades i la funció de cerca. | 3 11 | |
Biblioteca Nacional de Luxemburg | Luxemburg | 2015 | Heritrix, Wayback | 2 | La biblioteca nacional de Luxemburg duu a terme rastres amplis bianuals per al domini .lu, així com rastreigs selectius i basats en esdeveniments.
Els llocs web que es recullen a l'Arxiu Web enriqueixen les col·leccions patrimonials de la biblioteca nacional, que permet la preservació de publicacions digitals per a les generacions futures. L'objectiu general és preservar la web luxemburguesa i mantenir la seva informació permanentment disponible. |
Koninklijke Bibliotheek[36] | PaÏsos Baixos | 2006 | Heritrix, Web Curator Tool, Wayback, KB e-Depot system | 10 | 1 enginyer de rastreig, i 9 especialistes en recaptació, tot a temps parcial (equivalent a 1,3 a temps complet). El KB recull selectivament llocs de recerca holandesos i valor cultural. |
Biblioteca Nacional de Lituània | Lituània | 2005 | Web Curator Tool and Wayback | 1 | Actualment només emmagatzema per a la preservació, l'accés al públic en desenvolupament (ETA, juny de 2012). El terme letó per a la captura web és "rasmošana |
Arxiu Web de Nova Zelanda[37] | Nova Zelanda | 1999 | Web Curator Tool, Heritrix, Rosetta | 3 10 | La recol·lecció selectiva és realitzada per la Biblioteca Nacional de Nova Zelanda mitjançant l'eina Web Curator. Tres llocs web de personal de cultiu a temps complet i una sèrie de publicacions en règim personal recollides en serials HTML o monografies HTML. Les collites de domini nacional s'han realitzat bianualment en col·laboració amb l'Arxiu d'Internet des de 2008. El personal de serveis tècnics respon a les sol·licituds del servei de servei tal com es presenten. Els problemes d'arxiu web són gestionats per personal que treballa amb Rosetta |
Biblioteca Nacional de Noruega[38] | Noruega | ||||
Netherlands Institute for Sound and Vision(Sound and Vision) web archive | Països Baixos | 2011 | Heritrix, Elasticsearchfor full-text index, Drupal for front-end | 7 | Sound & Vision ha participat en projectes d'arxiu web des de 2008, començant pel projecte de recerca de la UE LiWA [39]]. Després d'un parell de pilots, els projectes d'arxiu web es van ampliar el 2014. |
Rhizome (organization) | Estats Units | 2009 | ArtBase, Webrecorder, Oldweb.Today | 3 1 | Rhizome opera un programa de preservació digital, encapçalat per Dragan Espenschied, que se centra en la creació d'eines de programari lliure i de codi obert per descentralitzar l'arxivat web i les pràctiques de preservació del programari i garantir l'accés a les seves col·leccions d'art digital nascut. Oldweb.Today i Webrecorder són les seves eines enfocades específicament a l'arxivat web.[40] |
Referències
[modifica]- ↑ Australia, c=AU; o=Commonwealth of Australia; ou=National Library of. «Pandora Archive - Preserving and Accessing Networked Documentary Resources of Australia» (en anglès), 01-05-1999. [Consulta: 7 maig 2018].
- ↑ «PROMISE – A Belgian web archiving project | Preserving Online Multiple Information : towards a Belgian strategy» (en anglès). [Consulta: 7 maig 2018].
- ↑ «PROMISE project». Royal Library of Belgium, 16-08-2017.
- ↑ «State Archives of Belgium» (en anglès). [Consulta: 7 maig 2018].
- ↑ «Research group for Media, Innovation and Communication Technology (MICT) — Research group for Media, Innovation and Communication Technologies — Ghent University» (en neerlandès). [Consulta: 7 maig 2018].
- ↑ «Ghent Centre for Digital Humanities» (en anglès). [Consulta: 7 maig 2018].
- ↑ «Research Centre in Information, Law and Society — CRIDS» (en anglès). [Consulta: 7 maig 2018].
- ↑ «HE2B» (en francès). [Consulta: 7 maig 2018].
- ↑ «How to Archive a Website - PageFreezer Software Inc.» (en anglès). [Consulta: 7 maig 2018].
- ↑ «PageFreezer | Legal». Arxivat de l'original el 2018-04-01. [Consulta: 7 maig 2018].
- ↑ «Yahoo! GeoCities: Get a web site with easy-to-use site building tools.», 07-07-2012. Arxivat de l'original el 2012-07-07. [Consulta: 7 maig 2018].
- ↑ Nationalbibliothek, Österreichische. «Webarchiv Österreich» (en alemany). [Consulta: 7 maig 2018].
- ↑ «Deutsche Nationalbibliothek - Web Archive» (en anglès). Arxivat de l'original el 2018-05-08. [Consulta: 7 maig 2018].
- ↑ «dilimag - Welcome». [Consulta: 7 maig 2018].
- ↑ «Archivage Web | BAnQ» (en anglès). [Consulta: 7 maig 2018].
- ↑ Canada, Library and Archives Canada / Bibliothèque et Archives. «Government of Canada Web Archive» (en anglès). Arxivat de l'original el 2018-03-15. [Consulta: 7 maig 2018].
- ↑ Branch, Legislative Services. «Consolidated federal laws of canada, Library and Archives of Canada Act» (en anglès). [Consulta: 7 maig 2018].
- ↑ Canada, Library and Archives «Home - Library and Archives Canada - Library and Archives Canada» (en anglès). .
- ↑ Canada, Library and Archives «Legal Deposit - Library and Archives Canada» (en anglès). .
- ↑ «中国事典», 10-08-2011. Arxivat de l'original el 2011-08-10. [Consulta: 7 maig 2018].
- ↑ NSK, Nacionalna i sveučilišna knjižnica u Zagrebu, National and University Library in Zagreb,; Zagreb, Sveučilišni računski centar (Srce), University Computing Centre; http://www.nsk.hr/. «Hrvatski arhiv weba, HAW». Arxivat de l'original el 2013-07-13. [Consulta: 7 maig 2018].
- ↑ Webarchiv. «The Museum of Czech web | Webarchiv.cz» (en anglès). [Consulta: 7 maig 2018].
- ↑ «National Library of Estonia». [Consulta: 7 maig 2018].
- ↑ «Verkkoarkisto» (en anglès). [Consulta: 7 maig 2018].
- ↑ France, Bibliothèque nationale de. «BnF - Digital legal deposit» (en anglès). [Consulta: 7 maig 2018].
- ↑ Ina.fr, Institut National de l'Audiovisuel –. «Ina.fr : vidéo, radio, audio et publicité - Actualités, archives de la radio et de la télévision en ligne - Archives vidéo et radio Ina.fr» (en francès). [Consulta: 7 maig 2018].
- ↑ «ticmigrations.fr - ticmigrations Resources and Information. This website is for sale!», 27-09-2013. Arxivat de l'original el 2013-09-27. [Consulta: 7 maig 2018].
- ↑ http://polylogue.com, Nicolas Taffin -. «Archive The Net : home» (en francès). Arxivat de l'original el 2016-08-04. [Consulta: 7 maig 2018].
- ↑ «Willkommen im Bibliotheksservice-Zentrum Baden-Württemberg». [Consulta: 7 maig 2018].
- ↑ «Deutscher Bundestag - Webarchiv» (en alemany). [Consulta: 7 maig 2018].
- ↑ «Vefsafn.is - English» (en islandès). Arxivat de l'original el 2018-05-08. [Consulta: 7 maig 2018].
- ↑ National Library of Ireland «Digital Collections». National Library of Ireland Annual Report., 2011.
- ↑ «National Library of Israel» (en anglès). [Consulta: 7 maig 2018].
- ↑ «国立国会図書館インターネット資料収集保存事業». [Consulta: 7 maig 2018].
- ↑ National Diet Library, Japan Questionnaire Survey on Web Archiving (Q2-Q7), 13-04-2010.
- ↑ «WebART (Web Archive Retrieval Tools)». [Consulta: 7 maig 2018].
- ↑ «New Zealand Web Archive | A-Z | Collections | National Library of New Zealand» (en anglès). [Consulta: 7 maig 2018].
- ↑ «Nasjonalbiblioteket» (en noruec). [Consulta: 7 maig 2018].
- ↑ «LiWA - Living Web Archives : Home». Arxivat de l'original el 2018-05-08. [Consulta: 7 maig 2018].
- ↑ Durón, Maximilíano. «A Net Art Pioneer Evolves With the Digital Age: Rhizome Turns 20» (en anglès), 01-09-2016. [Consulta: 7 maig 2018].