Usuari:Amadalvarez/categories des de WD
Pàgina de treball sobre categoritzacions automàtiques des de WD. |
Antecedents
[modifica]El manteniment de categories representa una càrrega important de les activitats quotidianes de la VP.
Recentment s'ha generat un debat sobre la categorització incorporant el gènere femení (no consensuat formalment dins la comunitat). Des del punt de vista exclusivament operatiu, el seu desplegament comportaria un increment molt important de l'activitat de manteniment esmentada. Actualment tenim 176.000 articles de persones.
Per mirar de reduir la càrrega funcionen des de fa uns mesos uns bots de Pere prlpz que assignen categories per origen, categories per lloc de la mort, estudiants per centre educatiu i premiats per premi.
Categorització incorporant el gènere femení
[modifica]La possibilitat de que hi hagués "categories on la seva sintaxi sigui en femení", per exemple: "Escriptores catalanes", "Metgesses estatunidenques", etc. es va abordar temps enrere i va ser objecte d'una presa de decisió desfavorable. Recentment, s'ha tornat a reclamar aquesta funcionalitat.
Atès que el debat tard o d'hora es tornarà a produir, seria convenient que, addicionalment als aspectes de dret, oportunitat, normes que ho regulen, etc., s'incorporessin els aspectes tècnics i operatius afectats, ja que la decisió afecta al disseny tècnic i les capacitats tècniques condicionen la decisió.
La definició bàsica no resolt incògnites que, tot i haver-se debatut informalment durant la Viquitrobada-2021 i altres fòrums, no resulta fàcil decidir.
Algunes punts oberts, conseqüència de l'estructura de categories:
- Totes les categories depenen d'una altra més global que incorpora "de facto" tots els articles que hi ha per sota. L'arbre de categories en femení, podria:
- dependre de les actuals categories globals (homes+dones) tal qual estan. Això generaria una redundància conceptual perquè els articles de les categories femenines ja hi són a les globals.
- dependre d'unes categories globals sota el que hi hagues un arbre de categories en masculí i un altre femení hauria d'haver un altre en masculí (només homes), depenent tots dos de categories globals (dones+homes) ?. Si fos així, com s'hauria de reanomenar el conjunt masculí per diferenciar-lo del global?.
- Mantenir independència entre l'arbre de les categories actual (masculí genèric) com a conjunt global (dones+homes), amb l'arbre de categories en femení, que es desenvoluparia des de categoria:persones. Això permetria evitar els duplicats entre el contingut del nivell global i categories depenent d'ell (el bloc en femení). NO existirien categories on només hi hagués categories només amb homes.
- Com tractar els casos on no hi ha diferència de nom entre gèneres. Ex: Artistes, músics., etc.
- Si han de seguir junts per no haver diferència de nom, no s'acompliria l'objectiu de tenir subconjunts de dones.
- Si es creen les categories en femení, cal decidir la forma de construcció del nom.
- Mantindrem un paral·lelisme exacte entre l'estructura de bloc femení i bloc global? En aquest cas, podríem trobar-nos amb categories en femení amb menys de 5 articles o fins i tot buides.
etc.
Conceptes de categorització
[modifica]Categoria: És un receptacle que conté una llista amb el nom i enllaç dels articles i subcategories que apunten cap amb ella.
Enllaços dins els articles: Són els marcadors/etiquetes que hi afegim dins els articles indicant a quina llista els volem afegir.
Arbre de categories: Totes les categories excepte "Categoria:Principal", apunten cap a una o unes altres categories, temàticament superiors
Situacions anòmales:
- Enllaços vermells als articles: és a dir la categoria no existeix (el receptacle), però la llista existeix a l'espera que hom crei la Categoria. Apareix a Especial:Categories_demanades.
- Categories buida: no és una anomalia tècnica, sinó organitzativa. Poden existir categories només amb subcategories, sense articles. Si no té cap de les dues coses, caldria esborrar-la
- Categoria sense categoritzar: és un error. Sense "categoria superior" no pertany a cap arbre i tots els articles i subcategories que en depenen d'ella, queden fora de les cerques descendents.
- Enllaç redundant: és un error. Un article pot estar a més d'una categoria, però no d'un mateix arbre. És a dir, no pot estar en una categoria i en alguna de les seves subcategories.
Funcionament:
El funcionament habitual comença per afegir els enllaços de la categorització als articles. Si la categoria existeix, el procés està finalitzat.
Si l'enllaç és vermell -i no és un error- cal crear la categoria, és a dir el receptacle i categoritzar-la, afegint-li enllaços cap a categories temàticament superiors. En aquest pas, no hauríem de tenir enllaços vermells, ja que si estem creant una nova categoria, habitualment serà per "fer créixer l'arbre" cap a una estructura de més detall que d'on partíem. Si es produeix, caldrà crear-les.
Opcions d'automatització
[modifica]Seguint el procediment descrit al punt anterior, les tasques derivades d'un canvi (el de gènere o qualsevol altre) requereix:
- Dissenyar l'arbre de categories. A diferència de creixement del dia a dia on l'arbre evoluciona segons els articles que es creen.
- creació de les categories segons l'estructura d'arbres que es decideixi
- incorporació de les categories als articles
Quan parlem d'automatitzar, podem:
- fer una acció singular que permeti "desdoblar" els arbres de categories (amb el disseny que es decideixi, que encara no està clar), fer els canvis que calguin tant als articles com a les categories i, a partir d'aquí, continuar amb les tasques de manteniment diari com s'està fent ara.
- disposar d'alguna solució tecnològica categoritzadora (bot, plantilla, ..) que actuï periòdicament aplicant unes regles per posar enllaços a categories dins els articles. Amb el coneixement que tenim ara, aquesta solució no crearia categories.
La primera opció pot comptar amb alguna ajuda tecnològica, si bé cal assumir que requerirà d'una important intervenció manual, especialment en la creació dels arbres de categories.
La segona opció redueix dràsticament el temps dedicat a pensar quines categories encaixen millor en un article determinat, ja que ho farà l'eina tecnològica. També millora la qualitat i harmonització entre articles similar. Un efecte al que no estem acostumats, seria disposar d'una major categorització, ja que no requereix cap esforç fer-ho.
La part més crítica de la segona opció és que es trasllada l'esforç a la creació dels paràmetres que requerirà l'eina per saber que ha de fer. D'alguna manera, si com hem dit al capítol anterior, el circuit actualment comença per "afegir enllaços als articles" per acabar "creant categories", en aquesta fórmula definir un paràmetre va associat a crear una categoria a l'espera que els articles s'enllacin.
Les dues opcions no són excloents. La primera opció és una tasca singular per afrontar un canvi de criteri i afectació massiva. La segona opció no ve derivada de cap canvi de criteri i, per tant, ja es pot aplicar amb l'estructura que tenim.
De fet, com hem comentat als antecedents, ja s'està fent un ús discret amb 4 tipus de categories, mitjançant un bot de Pere prlpz.
Utilització de WD per la creació de paràmetres de l'eina periòdica
[modifica]El que es descriu a continuació està circumscrit als articles de persones i els seus derivats (com ara, obres).
Es basa en unes propietats, algunes creades recentment, amb el mateix objectiu que nosaltres però amb una lògica de categories diferent a la nostra. Per tant, no sabem encara fins a quin punt seran 100% útils.
Característiques:
- Són propietats que s'han de situar en un item per indicar la categoria que aplica a "tots els items depenents d'aquest d'una determinada classe". És a dir, no són per indicar la categoria de l'item (que seria tan feixuc com fem ara posant categories a cada article).
- Per exemple: Girona (Q7038) Categoria per a les persones mortes aquí (P1465) Categoria:Morts a Girona (Q9218492), és a dir, és una regla que permet que l'eina categoritzi els 250 articles que hi ha amb Lloc de defunció (P20) Girona (Q7038), en contra dels 219 que ara tenim categoritzats a mà.
- Actualment hi ha una trentena de categories per classes específiques com la de l'exemple anterior.
- L'existència d'una d'aquestes propietats en un item afecta a totes les WP per igual. La inexistència a cawiki de la categoria proposada, ha de tenir una acció per part de la categoritzadora a decidir entre:
- No fer res perquè no volem aquesta mena de categorització: as Girona (Q7038) Categoria per a les persones nascudes aquí (P1464) Category:Births in Girona (Q9224887)
- Aplicar-la igualment per forçar una Categoria demandada, per tal que sigui creada i assignar el sitelink a WD
- Intentar assignar-lo a una categoria superior, una acció que requereix tenir regles internes dins la categoritzadora.
En procés...
Material de treball
[modifica]Proves: Plantilla:Amadalvarez/traduccions 2
Queries:
- https://w.wiki/4nAN Totes les propietats que fan servir els items P31= Categoria de Wikimedia (Q4167836)
- https://w.wiki/4nBW Propietats específiques de categorització
- https://w.wiki/4pqp Quantitat d'usos de cada qualif. P1013 que tenen les Metaclasse de (P8225)
Relatives a Categoria relacionada (P7084), propietat comodí per no haver de crear masses propietats específiques.
- https://w.wiki/4jmX Qualificadors emprats a P7084 (P642 és l'obligatori en el que ens centrarem)
- https://w.wiki/4nAz Quantitat d'usos de cada valor del qualif. P642 que tenen les P7084
- https://w.wiki/4m6J P7084 amb múltiples qualif. P642 dins un valor
- https://w.wiki/4nAa Tots els items amb qualsevol P7084 i un valor de P642 específic
- https://w.wiki/4nAX Categoria relacionada d'una categoria
- https://w.wiki/4nAd Tots els items amb qualsevol P7084 i un qualificador determinat (ara P4224) per conèixer quins valors té
- https://w.wiki/4pqy Múltiples P7084 claims.
Debats i funcionament:
- discussió funcionament P7084
- Comentaris sobre bots Pere_prlpz
Casos:
- Obres d'un pintor: Hans Memling (Q106851)
- Categories per nacionalitat (premi): Justos entre les Nacions (Q112197)
- Música de pel·lícules (criteri diferent a cawiki): Vangelis (Q153172)
- Persones amb article de cinematografia (no existeix a cawiki): Vittorio Storaro (Q363413)
- Obres d'un director i productor de cinema: Alfred Hitchcock (Q7374)
- Exemple de Temes associats per la categoria (P971): Categoria:Nascuts a Bahia (Q18857127)
- amb la categoria inversa (P7084): Lloc de naixement (Q1322263), Estat de Bahia (Q40430), Baiano (Q60615538)