Corpus de Canterbury
Aparença
Tipus | corpus de compressió de dades |
---|---|
Versió inicial | 1997 |
Més informació | |
Lloc web | corpus.canterbury.ac.nz |
El Corpus de Canterbury és una col·lecció de fitxers pensada per fer servir com a Benchmark per provar algoritmes de compressió sense pèrdua. Es va crear l'any 1997 a l'Universitat de Canterbury per reemplaçar el corpus de Calgary. Els fitxers van ser seleccionats basant-se en la seva capacitat de proporcionar resultats de rendiment representatius.[1]
Continguts
[modifica]En la seva forma més utilitzada, el corpus consisteix en 11 fitxers, seleccionats de diferentes classes de documents,[2] ocupant un total de 2.810.784 bytes.
Mida (bytes) | Nom de l'arxiu | Descripció |
---|---|---|
152.089 | alice29.txt | Text en anglès |
125.179 | asyoulik .txt | Shakespeare |
24.603 | cp.html | Codi Font HTML |
11.150 | fields.c | Codi Font C |
3.721 | grammar.lsp | Codi Font LISP |
1.029.744 | kennedy.xls | Full de càlcul Excel |
426.754 | lcet10.txt | Redacció tècnica |
481.861 | plrabn12.txt | Poesia ( El paradís perdut ) |
513.216 | ptt5 | Conjunt de proves del CCITT |
38.240 | suma | Executable SPARC |
4.227 | xargs.1 | Pàgina de manual de GNU |
La Universitat de Canterbury també ofereix els següents corpus. És possible que s'afegeixin fitxers addicionals, per tant els resultats han de ser reportats per cada fitxer individual.[3]
- El Corpus Artifical, un conjunt de fitxers amb dades "artificials" dissenyat per provocar comportaments patològics o escenaris del pitjor cas.
- El Corpus Gran, un conjunt de fitxers grans (mida megabyte). Conté un genoma de E. coli, una còpia de la Bíblia del rei Jaume, i el llibre de CIA World Factbook
- El Corpus Miscel·lani. Conté un milió de dígits de pi
Referències
[modifica]- ↑ Ian H. Witten. Managing Gigabytes: Compressing and Indexing Documents and Images. Morgan Kaufmann, 1999, p. 92. ISBN 9781558605701.
- ↑ Salomon, David. Data Compression: The Complete Reference. Fourth. Springer, 2007, p. 12. ISBN 9781846286032.
- ↑ «The Canterbury Corpus: Descriptions». corpus.canterbury.ac.nz.