Vés al contingut

Tema de Viquipèdia:La taverna/Propostes

Jmarchn (discussiócontribucions)

Amb l'actualització automàtica des de wikidata en la plantilla {{infotaula malaltia}} dels noms dels fàrmacs utilitzats en les malalties (el camp "Medicació"), aquests noms presenten el corresponent (i existent a wikidata) nom en anglès si no hi ha la traducció al català a wikidata.

N'he actualitzat uns quants a wikidata, però això és feina poc eficient. A TermCat n'existeix la llista corresponent dels noms del fàrmacs i la traducció catalana. Seria possible automatitzar (amb un bot) a wikidata l'assignació del nom en català dels fàrmacs?.

ESM (discussiócontribucions)

Fins on jo sé, es podria fer una càrrega massiva dels noms en català però caldria fer un treball previ (manual, al meu entendre) d'aparellar les Q ja existents amb els termes nous. Es va més ràpid, però no és una cosa 100% automàtica. Si el termcat també ofereix terminologia en anglès potser es podria fer un bot que busqués l'etiqueta en anglès i la casés amb el termcat, però jo fins aquí ja no hi arribo.

Amadalvarez (discussiócontribucions)

@Jmarchn Tens forma de tenir una simple taula nom anglès-nom català ?. A partir d'aquí crec que sabria com industrialitzar-lo

Jmarchn (discussiócontribucions)

@Amadalvarez, miraré de posar-me en contacte amb el TermCat, tot i que no ho podré fer fins d'aquí a uns 10 dies doncs no seré a casa. Ja me n'encarrego i ho tirem endavant (ja t'avisaré).

De moment vaig actualitzant (a wikidata) els noms dels Tipus, Símptomes i Causa de dels articles de malalties (camps que s'utilitzen en la infotaula malaltia) i que no es poden sistematitzar amb una traducció de forma automàtica com podrem fer amb els fàrmacs.

Amadalvarez (discussiócontribucions)

com ho fas, un a un ?.

Amadalvarez (discussiócontribucions)

@Jmarchn T'he preparat un procediment per fer càrregues massives de les traduccions manuals.

Quan vulguis t'ho explico

ESM (discussiócontribucions)

Jo també ho voldria saber!

Amadalvarez (discussiócontribucions)

@ESM

En síntesi és:

  • Fer un llistat dels ítems d'una temàtica que no tinguin label en català (amb un sparql que ara et passaré)
  • baixar-se el resultat (format CSV) en un excel. Fer les següents manipulacions:
    • A la primera columna, eliminar el codi que hi ha abans de la Q (http://www.wikidata.org/entity/) mitjançant un reemplaçar
    • Insertar dues columnes entre la primera (que té el codi Q) i la segona (que té el label en EN / ES)
    • A la columna B escriure Lca a totes les línies (que vol dir Label català)
  • Anar afegint la traducció dels textos en la columna C (calabel)
  • Quan s'acabi la feina de traducció, es copien les 3 primeres columnes (la de la Q, la que té el text Lca i la que té la traducció) com a paràmetres del Quickstatements. Si hi ha files que no s'han traduït, elimina-les abans de copiar i pegar. Ja tornaran a sortir la propera vegada que s'executi el SPARQL.

S'entén ?

Aquí passo els materials.

El SPARQL (tunejat per a que et deixi ja insertades les dues columnes de la descripció original):

SELECT ?item ?Lca ?calabel ?itemLabel ?itemDescription WHERE {
#  *******************  Les següents condicions funcionen com un AND i fan la selecció 
  ?item wdt:P31   wd:Q12136.     # és malaltia
  ?item wdt:P1995 wd:Q162606.    #especialitat: endocrinologia 
#  **************************************************************
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en,es". }
  FILTER(NOT EXISTS {
    ?item rdfs:label ?lang_label.
    FILTER((LANG(?lang_label)) = "ca")
  })
}
ORDER BY ?itemLabel
LIMIT 300

Prova-ho !

----

Per carregar amb el quickstatement: https://tools.wmflabs.org/wikidata-todo/quick_statements.php

  • T'autentifiques amb el OATH i acceptant
  • enganxes el contingut de les 3 primeres columnes (sense l'encapçalament) en la caixa que et mostra al començament
  • fes Do it !
ESM (discussiócontribucions)

Val, és el que mé so menys tenia al cap. Requereix un cert treball manual però és tremendament més ràpid que anant Q per Q. @Jmarchn, si finalment ho fas, tingues present que el text que vulguis que quedi com l'etiqueta (label) de cada Q ha d'anar entre cometes.

Amadalvarez (discussiócontribucions)

Si. Això és per fer lots de 50-70 articles.

El temps de la part manual és igual per 1 que per 100 articles i el temps de traduir i escriure és igual per cada article tant si ho fas un a un com en lot.

Per tant, en lot s'avança molt

Jmarchn (discussiócontribucions)

Hola!,

No havia tingut temps de mirar-ho (i provar-ho) fins ara. Molt pràctic i interessant!. Ja m'ho miraré amb més detall.

Podria fer-se una consulta enllaçant dos bases de dades (la de wikidata i la de cawiki) que retornés els elements del camp Tipus (P279) utilitzats en els articles de la Viquipèdia que utilitzin infotaula malaltia i (per fer-ho més complicat) que alhora no tinguin traducció al català?.

Moltes gràcies!

Amadalvarez (discussiócontribucions)

@Jmarchn em penso que la query és aquesta:

#llista les P279 sense label en català que apareguin com a property en algun ítem amb:
#  P31= malaltia i P1995 = una especialitat mèdica (a l'exemple, infectiologia)
# Mostra, com ajuda, el nom i descripció de l'ítem on es fan servir
SELECT ?tipus ?Lca ?calabel ?tipusLabel ?item  ?itemLabel ?itemDescription WHERE {
  ?item wdt:P31 wd:Q12136.      # és malaltia
  ?item wdt:P1995 wd:Q788926.    #especialitat
  ?item wdt:P279 ?tipus.
  SERVICE wikibase:label { bd:serviceParam wikibase:language "ca,en,es". }
  FILTER(NOT EXISTS {
    ?tipus rdfs:label ?lang_label.
    FILTER((LANG(?lang_label)) = "ca")
  })
}
ORDER BY ?tipusLabel
LIMIT 300

Prova-ho !

Prova a veure. Tingues en compte que, com que hi ha una línia per cada ítem on apareix, un mateix valor de P279 pot sortir llistat més d'un cop. Ordena per Tipuslabel per a que quedin agrupats i només ho tradueixis un cop.

La raó de posar "especialitat mèdica" dins les condicions de filtre és per poder fer seleccions més curtes o temàticament més similars, però si la vols treure s'executarà per a tots els ítems amb P31= malaltia.

El procediment és el mateix descrit abans: baixar a excel, traduir sobre columna calabel (en aquest cas el contingut de tipusLabel) i després pegar les 4 primeres columnes sobre el quickstatements.

Ja em diràs si he encertat

Amadalvarez (discussiócontribucions)

@Jmarchn hi pensaré. Lo de la infotaula em grinyola, perquè barrejar WD i contingut de VP em supera.

Hi pensaré altra via i te la proposo.

Respost més amunt.

Pere prlpz (discussiócontribucions)

Amb bot segur que es pot fer, però porta feina. Suposo que depèn que hi hagi algú que tingui temps i que serveixi per milers d'articles, perquè si no segurament no val la pena la feina de fer-ho.

Jmarchn (discussiócontribucions)

@Amadalvarez, @Pere prlpz, @ESM, Hola!.

He estat enfeinat amb altres coses i també en traduir i corregir a wikidata el contingut dels camps que es llegeixen des de wikidata de la infotaula malaltia, de tots els articles de malalties de la Viquipèdia, que no corresponen als fàrmacs (camp Medicació). Alguns milers d'edicions (detectant no pocs errors i aprofitant de traduir-ho i corregir-ho en d'altres idiomes).

També m'he adonat de no poques associacions poc convenients en el camp Medicació, i que convindria canviar a wikidata. Per exemple, si mireu Inflamació i al camp Medicació (objecte de la proposta) hi podeu veure una molt llarga llista de fàrmacs, quan el que convindria seria que constés solament antiinflamatori.

Vaig parlar per telèfon i vaig enviar una carta al TermCat. La resposta després de donar una explicació ben detallada ha estat:

"En relació amb les denominacions del Lèxic de Fàrmacs, ens hauríeu de fer una petició per escrit, al director del TERMCAT,  i nosaltres us respondríem autoritzant la cessió de les dades amb les condicions següents:

“Us autoritzem a utilitzar les denominacions catalanes i angleses per a fer una obra derivada sense finalitat comercial i d’accés obert.

Aquesta cessió es fa amb caràcter gratuït, únicament per a usos no comercials i amb reconeixement de l’autoria de l’obra.”

Cap de l’Àrea de Projectes Terminològics"

No sé com es pot garantir que algú no recuperi la correspondència de wikidata per a usos no comercials i com fer el reconeixement de l'autoria de l'obra. Algú pot fer aquesta gestió, ara que ja està explicada i el TermCat està al cas?. Moltes gràcies!!

Amadalvarez (discussiócontribucions)

@Jmarchn Lo de l'autoria s'arregla via referències fent servir el "afirmat per" + "URL de la referència", si la tenim.

L'altre tema ho responc més avall. Bona feina !

Vriullop (discussiócontribucions)

Nota: eliminades dades personals del correu.

ESM (discussiócontribucions)

@Jmarchn: T'agraeixo la feina que estàs fent en aquest àmbit tan sensible, on tanta gent consulta la Viquipèdia quan alguna cosa no rutlla amb la seva salut. Ara bé, no oblidis que la llicència de Wikidata és CC0, i per tant es permet gairebé qualsevol ús que s'imagini, inclòs el comercial, perquè les metadades no tenen drets d'autor. És més, la llicència de la Viquipèdia (BY SA) permet usos comercials, així que l'autorització del termcat no acaba d'encaixar. De totes maneres, no acabo d'entendre que el termcat tingui els drets d'autor sobre la terminologia. Pensava que els termes (que no les definicions) no tenien drets d'autor. Lamento no poder-te ajudar més en aquest aspecte.

Amadalvarez (discussiócontribucions)

@ESM Potser no és tant el dret sobre la terminologia, com sobre el catàleg. En alguns casos la propietat que es vol protegir no és el nom de la cosa, sinó l'esforç de sistematitzar el catàleg raonat de les coses. Si no és això, no ho entenc; i si fos això, la solució passaria per demanar-li la terminologia oficial a partir d'una llista aportada per nosaltres.

En tot cas, em poso malalt quan responen d'aquesta forma des d'entitats que es paguen amb diners públics. Els diners es paguen per a que facin una cosa d'utilitat pública. Aquesta resposta podria ser vàlida si qui ho demana és una empresa privada per a ús privat, però li estem demanant per accelerar la difusió del coneixement normalitzat per ells.

Una solució seria enviar-los-hi (passant per registre d'entrada) una llista de conceptes amb traduccions barroeres i plenes de barbarismes indicant-los que, llevat que ells ho corregeixin, aquesta serà la versió que publicarem.

Pere prlpz (discussiócontribucions)

Wikidata té la llicència de domini públic. Aleshores, fins i tot si demanéssim al Termcat que publiquin aquestes dades amb la mateixa llicència genèrica de dades obertes de la Generalitat (si no és que ja ho estan fent) i que fins ara ens ha servit per carregar imatges a Commons, no seria prou per carregar-ho a Wikidata.

On sí que podem tenir èxit és mirant què és el que té drets d'autor. No estem fotocopiant un diccionari, i la informació és lliure però hi ha un dret de bases de dades. Tinc bastant clar que copiar unes quantes traduccions a Wikidata no deu vulnerar cap dret d'autor, però pujar el diccionari sencer paraula per paraula potser sí, perquè el Termcat no té drets d'autors sobre les paraules (com diu l'@ESM), però si sobre el recull.

Probablement, valdria la pena preguntar a Wikidata, perquè no crec que sigui el primer cas com aquest que es troben.

Notifico en @Vriullop, que potser ens pot ajudar.

Vriullop (discussiócontribucions)

La llicència genèrica de gencat no serveix per Wikidata. Demanen atribució que és incompatible amb CC-0.

Jo mateix he carregat traduccions de Termcat al Viccionari. En uns casos per col·laboració amb cessió de fitxers CC-BY-SA. En altres casos puntualment per camps temàtics genèrics. Amb la introducció de lexemes a Wikidata hi ha un debat sobre el copyright dels diccionaris. Per fer-ho simple, s'entén que una definició té copyright i que una traducció no en té. Ara bé, les bases de dades, com a recull de termes sistemàtic i organitzat, estan protegides a la Unió Europea i hi ha seriosos dubtes de si es respecta a Wikidata. Tot plegat fa que el desenvolupament dels lexemes es faci amb peus de plom i amb els Viccionaris alarmats. No veig viable la càrrega de fitxers de Termcat a Wikidata, tot i que és possible fer-ho puntualment.

Vriullop (discussiócontribucions)

No sé de quin diccionari del Termcat estem parlant, però per exemplificar-ho. A la Terminologia Oberta cerco "medicaments" i em surt el Diccionari de recerca clínica de medicaments. Ofereix dos fitxers amb diferents llicències: HTML amb CC-BY que inclou només traduccions i XML amb CC-BY-ND que inclou les definicions. El primer el puc carregar al Viccionari, però no es pot importar del Viccionari a Wikidata. Demanar-los que canviïn a CC-0 em sembla demanar-los la lluna.

Jmarchn (discussiócontribucions)

M'he posat novament en contacte telefònic amb la responsable del TermCat, mostrant a la pràctica com funciona wikidata i les limitacions de Creative Commons que utilitza. Ho ha comprès i m'ha dit que s'ho estudiaran.

Jmarchn (discussiócontribucions)

@Vriullop@Pere prlpz@Amadalvarez@ESM. Hola!. Resposta del Cap de de l’Àrea de Projectes Terminològics del Termcat:

"No hem oblidat la teva petició i fa dies que vam fer la gestió amb el Col·legi de Farmacèutics, que són coautors del diccionari.

Seguirem el cas i tan aviat com et puguem respondre ho farem."

Jmarchn (discussiócontribucions)

@Vriullop@Pere prlpz@Amadalvarez@ESM. Hola!.

  1. S'ha acceptat el traspàs de les equivalències, només s'ha de formalitzar (i com que estem en vacances, serà pel setembre).
  2. TermCat està interessat a que les relacions de la Viquipèdia siguin més intenses i volen articular una reunió pel setembre.
  3. Diversos membres de l'Acadèmia de Ciències Mèdiques (amb qui vaig contactar amb el Congrés de Metges i Biòlegs de parla catalana a Manresa) segurament voldran un taller.
Amadalvarez (discussiócontribucions)

@Jmarchn Molt bones notícies !!!.

li faig ping al @Kippelboy per a que vagi agendant

Jmarchn (discussiócontribucions)

@Kippelboy@ESM@Vriullop@Pere prlpz@Amadalvarez.

Perdoneu el retard en la resposta, he estat de baixa per la intervenció del meu condrosarcoma del genoll, ja vaig amb una crossa i millorant.

He parlat amb la responsable del TermCat per fer l'actualització dels noms a WikiData de fàrmacs i ja tinc la llista (amb 3173 fàrmacs). No solament hi ha el terme en anglès i el corresponent en català, sinó que a més hi ha el grup (o, infreqüentment grups) al que pertany cada fàrmac (denominat en el fitxer com "areatematica") i que es podria (a més d'actualitzar el nom en català) afegir o actualitzar en la Descripció de WD.

Exemples:

amoxicillin -> amoxicil·lina. On consta la descripció amb un inespecífic "compost químic". En aquest cas es podria substituir per "antibiòtic penicil·línic sensible a la penicil·linasa".

befunolol -> befunolol. No hi és en català i, per tant, no hi ha descripció. La descripció podria ser la unió de les dues àrees que (aquest fàrmac) conté, i que quedés així "blocador d'adrenoreceptors beta; emprat en el tractament del glaucoma".

Podeu veure, descarregar els fitxer de:

http://www.saniwiki.cat/farmacs/LexicFarmacs.xml

http://www.saniwiki.cat/farmacs/LexicFarmacs.zip (l'anterior comprimit, per descarregar, junt amb l'innecessari descriptor).

Pere prlpz (discussiócontribucions)

Bona feina. Ara bé, tornant al tema de les llicències, està documentat quin permís han donat els del Termcat per l'ús d'aquest fitxer?

Vriullop (discussiócontribucions)

Diria que aquest és el Lèxic de fàrmacs fet pel Col·legi de Farmacèutics de Barcelona i el Termcat. La llicència normalment la indica en l'opció de descàrrega, però en aquest cas remet a la secció de Terminologia Oberta i allà no es troba. En general, les obres del Termcat fetes en col·laboració tenen restriccions. També en general, en la Terminologia Oberta estan protegits els fitxers que inclouen definicions però no els fitxers amb traduccions.

ESM (discussiócontribucions)

Bona feina @Jmarchn! Si et cal un cop de mà per fer la importació a WD un cop estigui clar el tema de les llicències, demana! Ànims amb la recuperació!

Jmarchn (discussiócontribucions)

Tal com us vaig dir, TermCat va parlar amb el Col·legi de Farmacèutics i han donat el vist i plau per tal de que nosaltres (Viquipèdia) utilitzem les dades. Jo no sé com posar-m'hi a fer el bolcat.

Pere prlpz (discussiócontribucions)

Quan carreguis les dades a Wikidata estàs donant permís per que absolutament qualsevol en faci qualsevol ús absolutament sense cap limitació i sense ni esmentar el TermCat ni el Col·legi de Farmacèutics. És aquest el vist-i-plau que tens ben documentat?

Jmarchn (discussiócontribucions)

No tinc cap document, només la paraula de qui va fer els tràmits (de TermCat al Col·legi de Farmacèutics). De tota forma saben que a la Viquipèdia tot està sobre Creative Commons, i així es va transmetre al Col·legi de Farmacèutics. Van respondre afirmativament per tal de que en féssim l'ús explicat (actualitzar WD automàticament), Per això m'han facilitat el fitxer.

Vriullop (discussiócontribucions)

Només es tracta d'afegir les etiquetes en català. Si ho faig manualment consultant el Termcat no hi ha cap problema. Si es fa amb QuickStatements és el mateix.

Jmarchn (discussiócontribucions)

La gràcia és fer-ho automàticament, és clar....

Resposta a «Nom dels fàrmacs»