The Pile (conjunt de dades)

The Pile és un conjunt de dades divers i de codi obert de 886,03 GB de text en anglès creat com a conjunt de dades d'entrenament per a grans models de llenguatge (LLM). Va ser construït per EleutherAI el 2020 i llançat públicament el 31 de desembre d'aquell any.^[1] Està compost per 22 conjunts de dades més petits, inclosos 14 de nous.

Creació

La formació de LLM requereix quantitats de dades prou grans que, abans de la introducció de la pila, la majoria de les dades utilitzades per a la formació de LLM es van extreure del Common Crawl. Tanmateix, els LLM formats en conjunts de dades més diversos són més capaços de gestionar una gamma més àmplia de situacions després de la formació.^[2] La creació de la pila va ser motivada per la necessitat d'un conjunt de dades prou gran que contingués dades d'una gran varietat de fonts i estils d'escriptura.^[3] En comparació amb altres conjunts de dades, les principals característiques distintives de la pila són que es tracta d'una selecció de dades seleccionada pels investigadors d'EleutherAI per contenir la informació que pensaven que els models lingüístics haurien d'aprendre i que és l'únic conjunt de dades que està documentat a fons pels investigadors que van desenvolupar això.^[4]

Continguts i filtratge

+Les intel·ligències artificials no aprenen tot el que poden a partir de les dades de la primera passada, per la qual cosa és una pràctica habitual entrenar una IA amb les mateixes dades més d'una vegada amb cada passada per tot el conjunt de dades que s'anomena "època".^[5] A cadascun dels 22 subconjunts de dades que formen la pila se li va assignar un nombre diferent d'èpoques segons la qualitat percebuda de les dades. La taula següent mostra la mida relativa de cadascun dels 22 subconjunts de dades abans i després de ser multiplicats pel nombre d'èpoques. Els números s'han convertit a GB i s'utilitzen asteriscs per indicar els conjunts de dades recentment introduïts.

Subconjunts de dades de la pila ^[6]

Component	Mida original	Èpoques	Mida efectiva
Pila-CC	243,87 GB	1	243,87 GB
PubMed Central *	96,93 GB	2	193,86 GB
Llibres 3	108,40 GB	1.5	162,61 GB
OpenWebText2*	67,40 GB	2	134,80 GB
arXiv *	60,36 GB	2	120,71 GB
GitHub *	102,18 GB	1	102,18 GB
Llei lliure *	54,92 GB	1.5	82,39 GB
Intercanvi de pila *	34,57 GB	2	69,14 GB
Fons USPTO *	24,59 GB	2	49,19 GB
Resums de PubMed *	20,68 GB	2	41,37 GB
Gutenberg (PG-19)	11,68 GB	2.5	29,20 GB
OpenSubtítols	13,94 GB	1.5	20,91 GB
Viquipèdia	6,85 GB	3	20,54 GB
DeepMind Matemàtiques	8,32 GB	2	16,63 GB
Registres d'IRC d'Ubuntu Freenode *	5,93 GB	2	11,84 GB
BookCorpus 2*	6,76 GB	1.5	10,15 GB
EuroParl	4,93 GB	2	9,85 GB
Notícies de pirates informàtics *	4,19 GB	2	8,38 GB
Subtítols de YouTube *	4,01 GB	2	8,02 GB
PhilPapers *	2,56 GB	2	5,11 GB
NIH ExPorter*	2,03 GB	2	4,07 GB
Correus electrònics d'Enron	0,95 GB	2	1,89 GB
Total	886,03 GB		1346,69 GB

EleutherAI va triar els conjunts de dades per tractar de cobrir una àmplia gamma de temes i estils d'escriptura, inclosa la redacció acadèmica, amb els quals es va trobar que els models formats en altres conjunts de dades tenien problemes.

Totes les dades utilitzades a la pila s'han extret de fonts d'accés públic. Aleshores, EleutherAI va filtrar el conjunt de dades en conjunt per eliminar els duplicats. Alguns subconjunts de dades també es van filtrar per al control de qualitat. Sobretot, el Pile-CC és una versió modificada del Common Crawl en què les dades es van filtrar per eliminar parts que no són text, com ara el format HTML i els enllaços.

Alguns possibles subconjunts de dades es van excloure per diversos motius, com ara el Registre del Congrés dels EUA, que es va excloure a causa del seu contingut racista.

Dins dels subconjunts de dades que es van incloure, els documents individuals no es van filtrar per eliminar el text no anglès, esbiaixat o profà. Tampoc es va filtrar sobre la base del consentiment, el que significa que, per exemple, el Pile-CC té els mateixos problemes ètics que el mateix Common Crawl. Tanmateix, EleutherAI ha documentat la quantitat de biaix (sobre la base del gènere, la religió i la raça) i la blasfemia, així com el nivell de consentiment donat per a cadascun dels subconjunts de dades, permetent a un investigador conscient de l'ètica utilitzar només aquestes parts. de la Pila que compleixen els seus propis estàndards.

Ús

El Pile es va desenvolupar originalment per entrenar els models GPT-Neo d'EleutherAI ^[7]^[8]^[9] però s'ha utilitzat àmpliament per entrenar altres models, inclòs el Megatron-Turing Natural Language Generation de Microsoft,^[10]^[11] Meta AI Open Pre-trained Transformers, LLaMA, i Galactica, BioMedLM 2.7B de la Universitat Stanford,^[12] Chinese-Transformer-XL de l'Acadèmia d'Intel·ligència Artificial de Beijing,^[13] i YaLM 100B de Yandex.

A més d'utilitzar-se com a conjunt de dades d'entrenament, la pila també es pot utilitzar com a punt de referència per provar models i puntuar el rendiment que tenen en diversos estils d'escriptura.^[14]^[15]

Referències

↑ «The Pile: An 800GB Dataset of Diverse Text for Language Modeling» (en anglès). EleutherAI Website. EleutherAI, 13-02-2020. [Consulta: 4 juny 2023].
↑ Rosset, Corby. «Turing-NLG: A 17-billion-parameter language model by Microsoft» (en anglès). Microsoft Blog. Microsoft, 13-02-2020. [Consulta: 31 desembre 2020].
↑ Gao, Leo. «The Pile Replication Code» (en anglès). github.com, 15-06-2021. [Consulta: 6 juny 2023].
↑ Khan, Mehtab. «The Subjects and Stages of AI Dataset Development: A Framework for Dataset Accountability» (en anglès), 13-09-2022. [Consulta: 8 març 2023].
↑ Brownlee, Jason. «Difference Between a Batch and an Epoch in a Neural Network» (en anglès), 10-08-2022. [Consulta: 2 juny 2023].
↑ Gao, Leo. «The Pile Replication Code» (en anglès). github.com, 15-06-2021. [Consulta: 6 juny 2023].
↑ «GPT-Neo 125M» (en anglès). huggingface.co, 08-12-2022. [Consulta: 7 juny 2023].
↑ «GPT-Neo 1.3B» (en anglès). huggingface.co, 08-12-2022. [Consulta: 7 juny 2023].
↑ «GPT-Neo 2.7B» (en anglès). huggingface.co, 08-12-2022. [Consulta: 7 juny 2023].
↑ «Microsoft and Nvidia team up to train one of the world’s largest language models» (en anglès), 11-10-2021. [Consulta: 8 març 2023].
↑ «AI: Megatron the Transformer, and its related language models» (en anglès), 24-09-2021. [Consulta: 8 març 2023].
↑ «Model Card for BioMedLM 2.7B» (en anglès). huggingface.co. [Consulta: 5 juny 2023].
↑ Yuan, Sha; Zhao, Hanyu; Du, Zhengxiao; Ding, Ming; Liu, Xiao AI Open, 2, 01-01-2021, pàg. 65–68. DOI: 10.1016/j.aiopen.2021.06.001 [Consulta: 8 març 2023].
↑ «The Pile: An 800GB Dataset of Diverse Text for Language Modeling» (en anglès). EleutherAI Website. EleutherAI, 13-02-2020. [Consulta: 4 juny 2023].
↑ Lieber, Opher. «Jurassic-1: Technical Details and Evaluation» (en anglès). AI21 Labs, 01-08-2021. [Consulta: 5 juny 2023].

[host_page-1] «The Pile: An 800GB Dataset of Diverse Text for Language Modeling» (en anglès). EleutherAI Website. EleutherAI, 13-02-2020. [Consulta: 4 juny 2023].

[2] Rosset, Corby. «Turing-NLG: A 17-billion-parameter language model by Microsoft» (en anglès). Microsoft Blog. Microsoft, 13-02-2020. [Consulta: 31 desembre 2020].

[GitHub-3] Gao, Leo. «The Pile Replication Code» (en anglès). github.com, 15-06-2021. [Consulta: 6 juny 2023].

[auto-4] Khan, Mehtab. «The Subjects and Stages of AI Dataset Development: A Framework for Dataset Accountability» (en anglès), 13-09-2022. [Consulta: 8 març 2023].

[5] Brownlee, Jason. «Difference Between a Batch and an Epoch in a Neural Network» (en anglès), 10-08-2022. [Consulta: 2 juny 2023].

[GitHub2-6] Gao, Leo. «The Pile Replication Code» (en anglès). github.com, 15-06-2021. [Consulta: 6 juny 2023].

[7] «GPT-Neo 125M» (en anglès). huggingface.co, 08-12-2022. [Consulta: 7 juny 2023].

[8] «GPT-Neo 1.3B» (en anglès). huggingface.co, 08-12-2022. [Consulta: 7 juny 2023].

[9] «GPT-Neo 2.7B» (en anglès). huggingface.co, 08-12-2022. [Consulta: 7 juny 2023].

[10] «Microsoft and Nvidia team up to train one of the world’s largest language models» (en anglès), 11-10-2021. [Consulta: 8 març 2023].

[11] «AI: Megatron the Transformer, and its related language models» (en anglès), 24-09-2021. [Consulta: 8 març 2023].

[12] «Model Card for BioMedLM 2.7B» (en anglès). huggingface.co. [Consulta: 5 juny 2023].

[13] Yuan, Sha; Zhao, Hanyu; Du, Zhengxiao; Ding, Ming; Liu, Xiao AI Open, 2, 01-01-2021, pàg. 65–68. DOI: 10.1016/j.aiopen.2021.06.001 [Consulta: 8 març 2023].

[host_page2-14] «The Pile: An 800GB Dataset of Diverse Text for Language Modeling» (en anglès). EleutherAI Website. EleutherAI, 13-02-2020. [Consulta: 4 juny 2023].

[15] Lieber, Opher. «Jurassic-1: Technical Details and Evaluation» (en anglès). AI21 Labs, 01-08-2021. [Consulta: 5 juny 2023].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]