Vés al contingut

Tema de Viquipèdia:La taverna/Novetats

L'article més llegit del 2022: com ho fem públicament?

20
Xavier Dengra (discussiócontribucions)

Bon dia,

En la intenció comunicativa de publicar periòdicament informació interessant, útil i d'actualitat sobre el progrés de la Viquipèdia cada certs mesos, us voldria demanar si us agradaria que féssim una nota de premsa sobre els articles més llegits del 2022.

Sí és que sí, hi ha una bona notícia i una altra de dolenta. La dolenta? Encara no està disponible a l'API.

La bona, que tenim temps a definir quins paràmetres i llindars li conferim. Per què llindars? Doncs perquè hi ha falsos positius: en català, basc i gallec els més famosos són Carles Puigdemont i Manuel de Pedrolo. Articles que per alguna raó de bot aranya o de mala gestió de les dades, apareix sobreexpressat com el més llegit de cada dia i en totes aquestes llengües des de fa anys. El més llegit del 2018, que vam anunciar públicament i va passar als mitjans, ja era el de Puigdemont. No vol dir que fos una dada errònia, atesa la transcendència social de llavors i perquè només teníem dades de valors de consulta absoluts.

Ara bé, des de llavors vam començar a detectar coses estranyes i fins i tot se n'han hagut d'obrir dues tasques pendents a Phabricator perquè afecta força llengües ("el món ens mira"). Això ja va fer que, tocant-nos el tema de tant a prop, decidíssim no anunciar els articles més vistos ni del 2020 ni del 2021.

Però això podria canviar si ens aclarim una mica, perquè ara amb l'eina de visites generalista, la que després pot contrastar tothom, es filtrar falsos positius i alhora es mostra el percentatge de visites via mòbil. Al meu parer, el % de lectures mòbils és la clau de tot. Si mireu els més llegits de 2021, queda molt clar que 700.000 visites anuals de les quals un 2,5% són via mòbil (Puigdemont) o 160.000 de les quals un 0,7% són mòbils (Betúria, WTF) no quadren en absolut tenint en compte els usos de dispositius actuals. En canvi, Morad (110.000; 75% mòbil) és una evidència que fou el més llegit del 2021 -més quan la seva entrada fa any i mig només existia en català.

Si som capaços de definir un paràmetre o llindar estadístic a partir del qual assumim que un % de visita mòbil sí que és significatiu i no cal descartar l'article, podem reconstruir la llista i fer-la vàlida. Què en penseu? Ens hi posem i tant aviat com apareguin les dades del 2022 les podem anunciar amb un criteri rigorós? O preferiu deixar-ho córrer?

Pere prlpz (discussiócontribucions)

Sembla raonable, però si posem un % a ull, rigorós tampoc n'és gaire.

Jo hi veig dos problemes:

  • Caldria veure en els articles (o una mostra prou gran) el % de visites mòbils. Això permetria considerar els que se n'apartessin molt com a dades atípiques. Segurament, veure com varia el nombre de mòbils d'un dia per l'altre també ajudaria a detectar patrons atípics.
  • Segur que cap bot surt com a mòbil? També podria ser que un bot entrés per la interfície de mòbil. Descartar-ho a priori per Morad sembla raonable, però altra vegada torna a no ser rigorós.
Xavier Dengra (discussiócontribucions)

Crec que algú que en sàpiga d'estadística n'hauria de poder treure bé l'entrellat. cc @Pau Colominas i @SMP

Pere prlpz (discussiócontribucions)

Es podria descartar els valors atípics, però això no deixa de ser arbitrari i poc transparent. A més, amb les dades en català tots els articles més vists tenen percentatges de mòbil variables i difícils d'explicar, a diferència de l'anglès on la majoria estan al 70% excepte un grapat que tenen un motiu raonable o com a mínim molt en comú (són articles com Gmail, Whatsapp, Facebook, etc. on algú pot anar a parar en un ordinador quan el que vol és fer servir el servei). Això fa més difícil posar un punt de tall raonable en català.

Per altra banda, les visites de mòbil tampoc són cap garantia, perquè no trobo una explicació raonable a que l'article més vist en castellà (amb diferència) sigui el de Cleopatra amb un 99,55% de mòbils.

I com més directes siguin les dades que es difonen, millor, sobretot si qui les dóna no és una font rellevant per si mateixa (no és el mateix que el CIS cuini les dades que que les cuinem nosaltres). És més clar i rigorós dir que l'article més vist des del mòbil és X que dir que l'article més vist després d'eliminar els valors atípics que ens ha semblat és X, perquè ajustant el criteri es podria fer sortir el que ens sembli.

Aleshores, si les dades de mòbil donen coses raonables quan surtin, jo faria servir aquestes.

Xavier Dengra (discussiócontribucions)

No té cap sentit que diguem que l'article més llegit és el de Carles Puigdemont o el de Manuel de Pedrolo si tenen dos tiquets de deficiències oberts. A partir d'aquí, el que proposava era poder consensuar quins són manifestament evidents o amb major seguretat per tal de donar una llista de noms que pugui ser sensata o que puguem justificar amb prou seny i acceptació. De la mateixa manera que quan difoníem l'article 100.000 o 500.000 hi havia cert marge d'error i càlcul humà. Si no, em temo que potser ens ho hauríem d'estalviar.

Isidre blanc (discussiócontribucions)

Vistos els dubtes sobre la fiabilitat i racionalitat de les dades, jo m'ho estalviaria.

Beusson (discussiócontribucions)

He perdut una estona a revisar uns quants dies a l'atzar del 2022 i els resultats que dona l'accés per webmobil semblen força assenyats (coincideixen amb la festa que és, la mort d'algú, algun esdeveniment, etc.) i potser es podria fer un bot que comptabilitzes els primers 200? 300? resultats dels 365 dies. De totes maneres, s'estaria descartant els que entrem per escriptori (jo en soc un, en molt rares ocasions entro pel mòbil), i aquí sí que no sé com s'hauria de fer. Els resultats per escriptori sempre donen uns articles molt polititzats, sigui quina sigui la data que cerquis).

A veure que opina la resta de gent.

Wecoc (discussiócontribucions)

Des del 2020 que l'API Pageviews inclou la opció de separar en agents, i opino que mirar l'agent "automated" seria més fidel que basar-ho en les visites per mòbil. La taula que mostres correspondria només a l'agent "user", que se suposa que elimina les visites automatitzades. Tot i això, és evident que aquells articles on el nombre de visites automatitzades és major (sovint gairebé el doble) que la d'usuaris, són molt sospitosos.

Trobaràs més informació sobre això aquí: Articles més vistos a la Viquipèdia el 2022

Xavier Dengra (discussiócontribucions)

Em sembla una molt bona anàlisi i sobretot pel fet d'estar raonada amb un desgranament de l'API, @Wecoc! Però és que a més a més el que dius de les visites automatitzades coincideix amb el fet que dèiem que aquests articles també són concretament els que tenen entre un 1 i un 5% de visites via ordinador (anòmal també).

Jo crec que els resultats són prou evidents per a concloure que els articles Youtube, Catalunya i Ucraïna són els més vistos del 2022. El primer, molt possiblement, per la inèrcia dels primers resultats de Google.

Què en penseu la resta?

Cataleirxs (discussiócontribucions)
Pere prlpz (discussiócontribucions)

A més, que el més llegit sigui Youtube no sembla fruit de molta gent fent servir la Viquipèdia per informar-se sobre Youtube sinó de molta gent que va a parar a l'article per involuntàriament quan el que vol és entrar a Youtube. Que l'article més llegit de la Viquipèdia ho sigui per accident i no per l'interès dels lectors no sé si és gaire noticiable, però segur que no és gaire positiu.

Cataleirxs (discussiócontribucions)
Xavier Dengra (discussiócontribucions)

Bon exemple, @Cataleirxs! Jo crec que és normal que la gent teclegi Youtube, en el nostre context, i hagi acabat parant a l'article en comptes del web. No hauríem de trencar-nos gaire el cap en explicar-ho.

El debat continua essent el mateix: fem públics els resultats del 2022 com a Viquipèdia amb una nota de premsa, o ens esperarem a que ho tregui algun mitjà i s'equivoqui de mig a mig posant tots els exiliats quan no és cert?

Xavier Dengra (discussiócontribucions)
Cataleirxs (discussiócontribucions)

No comprenc què significa la segona columna de la taula d'en Wecoc.

Wecoc (discussiócontribucions)

Aquí s'explica amb molt més detall, però dit molt resumidament 'automated' és el nombre de visites mitjançant bots. En aquest cas mostra la gran diferència entre els resultats més fiables, on el nombre d'automatitzats és molt baix, i els altres, on és molt més gran que les visites fetes per usuaris. Mirant-ho per visites al mòbil el resultat és molt similar però no queda tan clar on posar el llindar, per això vaig fer aquesta distinció.

Medol (discussiócontribucions)

Una possibilitat seria esperar que surti la dada al https://pageviews.wmcloud.org/ i fem la nota després, contextualitzant-ho, explicant molt bé quins són els condicionants i els problemes de la llista. Em sembla més interessant tot això que no coneixia i que he après llegint aquesta discussió que la llista en qüestió. Fer llistes alternatives requereix explicar-ho molt bé, i és difícil explicar els paràmetres que decidim si no són objetivables.

Xavier Dengra (discussiócontribucions)

La dada ja hi és, @Medol. És el primer enllaç dels dos que he posat al meu darree comentari («dades sense polir»).

Pere prlpz (discussiócontribucions)

Responc perquè m'has cridat.

Ja vaig dir que no veig una manera objectiva de cuinar les dades. D'acord que hi ha uns articles on passen coses estranyes però excloure les que tinguin menys d'un % de visites per mòbil no deixa de ser arbitrari i difícil de justificar. Fer servir només les visites de mòbil és una manipulació més simple i comprensible, però no sé com són de raonables els resultats que dóna.

Dit això, la decisió és dels que coneixeu com funcionen aquestes coses de la comunicació. Podem enviar la llista que ens sembli i llestos? Es comentarà la curiositat i prou? O algú es mirarà la metodologia i ens la discutirà?

I encara pitjor, algú compararà la llista que donem amb les dades de https://pageviews.wmcloud.org/topviews/?project=ca.wikipedia.org&platform=all-access&date=last-year&excludes= i li buscarà els tres peus al gat als motius darrera de la divergència? Pot ser que algú faci uns tuits o uns articles com els següents exemples?

Exemple 1: Amical Wikipedia se suma a la repressió. La mateixa organització que fa uns anys va eliminar agressivament la senyera de les infotaules de totes les biografies de catalans a la Viquipèdia com a preu pel seu reconeixement, ara ha censurat de la llista d'articles més llegits el 2022 el president legítim i la resta d'exiliats. Comparant el registre de visites que es pot trobar aquí amb el comunicat de premsa d'Amical Viquipèdia es pot veure una colla de supressions gens innocents. Darrera d'aquest comunicat hi ha la ma d'un administrador, acusat anteriorment a les xarxes socials de censura masclista, que ara no ha dubtat a posar les mateixes habilitats al servei de la repressió espanyola...

Exemple 2: Intento de blanqueo de la edición más radical de Wikipedia. Que la Wikipedia en catalán es un panfleto de propaganda antiespañola es público y notorio desde hace muchos años y por si no estuviera meridianamente claro la lista de los artículos más leídos y editados de 2022 (consultable aquí) lo confirma. Tan claramente lo confirma que para hacer un comunicado de prensa que colara en algún medio, aunque sólo fuera en los más despistados y los más afines al separatismo, esta lista ha tenido que ser blanqueda para que la encabezara un anodino Youtube en vez de una ristra de criminales...

O sigui, creieu que aquestes reccions (o d'altres) no passaran, vosaltres mateixos. Publiqueu la llista que us sembli raonable perquè de modificacions objectives i raonables no n'hi veig gaires.

Josu PV (discussiócontribucions)

Jo pense que excloure els articles amb menys d'un cert percentatge de visites de mòbils té sentit i és comprensible si s'explica el motiu. No és un mètode 100% científic, però almenys les dades resultants tenen algun valor. Que YouTube siga la pàgina més visitada pot resultar decebedor però és la realitat i es pot explicar el motiu com una curiositat. Al final crec que la clau ací és ser transparents i explicar clarament el procés i els motius pels quals s'ha fet així.

El que puguen dir o discutir altres no ens hauria d'importar en aquest assumpte.

Resposta a «L'article més llegit del 2022: com ho fem públicament?»