Common Crawl

Common Crawl
Dades
Tipus	empresa punt com ; organització sense ànim de lucre
Indústria	edició i recol·lecció de dades
Camp de treball	web crawling (en)
Història
Creació	2008
Fundador	Gil Elbaz
Lloc web	commoncrawl.org

Common Crawl és una organització sense ànim de lucre 501(c)(3) que rastreja el web i proporciona lliurement els seus arxius i conjunts de dades al públic.^[1] L'arxiu web de Common Crawl consta de petabytes de dades recollides des del 2011.^[2] Completa els rastres generalment cada mes.^[3]

Common Crawl va ser fundada per Gil Elbaz. Entre els assessors de l'organització sense ànim de lucre hi ha Peter Norvig i Joi Ito.^[4] Els rastrejadors de l'organització respecten les polítiques de nofollow i robots.txt. El codi font obert per processar el conjunt de dades de Common Crawl està disponible públicament.

El conjunt de dades de Common Crawl inclou treballs protegits per drets d'autor i es distribueix des dels EUA sota reclamacions d'ús legítim. Els investigadors d'altres països han fet ús de tècniques com ara remenar frases o fer referència al conjunt de dades de rastreig comú per solucionar la llei de drets d'autor en altres jurisdiccions legals.^[5]

Amazon Web Services va començar a allotjar l'arxiu de Common Crawl a través del seu programa Public Data Sets el 2012.^[6]

L'organització va començar a publicar fitxers de metadades i la sortida de text dels rastrejadors juntament amb fitxers .arc el juliol d'aquell any.^[7] Els arxius de Common Crawl només havien inclòs fitxers .arc anteriorment.^[7]

El desembre de 2012, blekko (empresa que es dedicava a fer recerques internet) va fer una donació al motor de cerca de Common Crawl que blekko va reunir a partir dels rastreigs que va dur a terme de febrer a octubre de 2012.^[8] Les dades donades van ajudar a Common Crawl "a millorar el seu rastreig alhora que s'evitava el correu brossa, la pornografia i la influència d'un SEO excessiu".^[8]

El 2013, Common Crawl va començar a utilitzar el rastrejador web Nutch d'Apache Software Foundation en lloc d'un rastrejador personalitzat.^[9] Common Crawl va canviar d'utilitzar fitxers .arc a fitxers .warc amb el rastreig de novembre de 2013.^[10]

Es va utilitzar una versió filtrada de Common Crawl per entrenar el model de llenguatge GPT-3 d'OpenAI, anunciat el 2020. Un dels reptes de l'ús de dades de Common Crawl és que, malgrat la gran quantitat de dades web documentades, es podrien documentar millor peces individuals de llocs web rastrejats. Això pot crear reptes quan s'intenta diagnosticar problemes en projectes que utilitzen les dades de Common Crawl. Una solució proposada per Timnit Gebru, i altres, el 2020 a un dèficit de documentació a tota la indústria és que cada conjunt de dades ha d'anar acompanyat d'un full de dades que documenti la seva motivació, composició, procés de recollida i usos recomanats.

Data de rastreig	Grandària en Tibibytes ( $2^{40}$ )	Milions de pàgines
Octobre 2022	380	3150
Novembre 2015	151	1820
Novembre 2011	40	500

Referències

↑ Rosanna Xia , 05-02-2012.
↑ «So you're ready to get started» (en anglès). [Consulta: 2 juny 2018].
↑ Lisa Green , 08-01-2014.
↑ Tom Simonite , 23-01-2013. Arxivat 26 de juny 2014 a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2014-06-26. [Consulta: 12 desembre 2022].
↑ Schäfer, Roland Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) [Portorož, Slovenia], pàg. 4501.
↑ Jennifer Zaino , 13-03-2012. Arxivat 1 de juliol 2014 a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2014-07-01. [Consulta: 12 desembre 2022].
↑ ^7,0 ^7,1 Jennifer Zaino «Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore». Semantic Web, 16-07-2012. Arxivat 12 August 2014^{[Date mismatch]} a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2014-08-12. [Consulta: 12 desembre 2022].
↑ ^8,0 ^8,1 Jennifer Zaino «Blekko Data Donation Is A Big Benefit To Common Crawl». Semantic Web, 18-12-2012. Arxivat 12 August 2014^{[Date mismatch]} a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2014-08-12. [Consulta: 12 desembre 2022].
↑ Jordan Mendelson. «Common Crawl's Move to Nutch» (en anglès). Common Crawl, 20-02-2014. Arxivat de l'original el 24 de juliol 2014. [Consulta: 31 juliol 2014].
↑ Jordan Mendelson. «New Crawl Data Available!» (en anglès). Common Crawl, 27-11-2013. Arxivat de l'original el 24 de juliol 2014. [Consulta: 31 juliol 2014].

[latimes-1] Rosanna Xia , 05-02-2012.

[2] «So you're ready to get started» (en anglès). [Consulta: 2 juny 2018].

[theverge-3] Lisa Green , 08-01-2014.

[technologyreview-4] Tom Simonite , 23-01-2013. Arxivat 26 de juny 2014 a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2014-06-26. [Consulta: 12 desembre 2022].

[5] Schäfer, Roland Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) [Portorož, Slovenia], pàg. 4501.

[semanticweb_12-6] Jennifer Zaino , 13-03-2012. Arxivat 1 de juliol 2014 a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2014-07-01. [Consulta: 12 desembre 2022].

[semanticweb_2-7] 7,0 ^7,1 Jennifer Zaino «Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore». Semantic Web, 16-07-2012. Arxivat 12 August 2014^{[Date mismatch]} a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2014-08-12. [Consulta: 12 desembre 2022].

[semanticweb_3-8] 8,0 ^8,1 Jennifer Zaino «Blekko Data Donation Is A Big Benefit To Common Crawl». Semantic Web, 18-12-2012. Arxivat 12 August 2014^{[Date mismatch]} a Wayback Machine. «Còpia arxivada». Arxivat de l'original el 2014-08-12. [Consulta: 12 desembre 2022].

[ccnutch-9] Jordan Mendelson. «Common Crawl's Move to Nutch» (en anglès). Common Crawl, 20-02-2014. Arxivat de l'original el 24 de juliol 2014. [Consulta: 31 juliol 2014].

[ccnov2013-10] Jordan Mendelson. «New Crawl Data Available!» (en anglès). Common Crawl, 27-11-2013. Arxivat de l'original el 24 de juliol 2014. [Consulta: 31 juliol 2014].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]