Vés al contingut

Detecció de similitud de contingut

De la Viquipèdia, l'enciclopèdia lliure

La detecció de similitud de contingut o detecció de possible plagi, és el procés de localització de casos de semblança en el text de dos o més treballs o documents. L'ús generalitzat dels ordinadors i l'arribada d'Internet han facilitat el plagi del treball dels altres. La majoria dels casos de plagi es troben en l'àmbit acadèmic, on els documents solen ser assajos o informes. No obstant això, el plagi pot trobar-se pràcticament en qualsevol camp, incloent novel·les, articles científics, dissenys d'art i codi font.[1]

Motors d'investigació

[modifica]

Amb el desenvolupament d'Internet i les noves tecnologies, el fenomen del plagi escolar s'ha desenvolupat molt, particularment en el món acadèmic. Molts professors han buscat maneres i mètodes efectius per combatre el plagi, i poden utilitzar diversos motors per detectar-lo.

Per detectar un possible plagi, la primera possibilitat és buscar en un motor de cerca paraules clau o frases del text en qüestió, per veure si es troba un text potencialment plagiat.

Aquest mètode pot ser especialment efectiu en el cas d'un estudiant que ha copiat completament un article que es troba a Internet. D'altra banda, si l'estudiant ha plagiat diverses fonts, o només una part del seu treball, aquesta recerca pot convertir-se en una feina molt complexa.

Enfocaments de l'anàlisi

[modifica]

La figura següent representa una classificació de tots els enfocaments de detecció actualment utilitzats per a la detecció de plagi. Els enfocaments es caracteritzen pel tipus d'avaluació de similitud que realitzen: global o local. Els enfocaments d'avaluació de similituds globals utilitzen les característiques que es prenen de parts més grans del text o del document en general per calcular la similitud, mentre que els mètodes locals només examinen els segments de text pre-seleccionats.

Classificació dels mètodes emprats en la investigació de plagi

Rendiment

[modifica]

Les avaluacions comparades dels sistemes de detecció de plagi[2][3][4][5][6][7] indiquen que el seu rendiment depèn del tipus de plagi present (vegeu figura). A excepció de l'anàlisi del patró de citacions, tots els enfocaments de detecció es basen en la semblança textual. Per tant, és simptomàtic que la precisió de detecció disminueixi mentre més casos de plagi són dissimulats.

El rendiment de la detecció de plagi depèn del tipus de plagi present

Programes

[modifica]

Per poder lluitar contra aquest fenomen creixent, han aparegut recentment una gran varietat de programes. Tenen unes característiques substancialment idèntiques, però la seva efectivitat pot variar.

Aquests programes van des de la senzilla comparació de dos documents fins a la recerca automàtica a Internet, per a fonts semblants. Depenent del seu grau d'èxit, són capaços de processar un nombre més o menys gran de formats de fitxers, els més comuns són fitxers Word, PDF i html.

De fet, bàsicament hi ha dos tipus d'operacions per a aquests programes:

  • els que treballen sobre un servidor distant ;
  • els que es poden instal·lar directament a la màquina de l'usuari i s'utilitzen localment.

El primer tipus de programes és a priori el més eficaç perquè sovint té una base de dades de referència gegantina, que s'enriqueix cada vegada que es presenta un document nou per a l'anàlisi, el servidor que la incorpora als seus documents de referència. Aquest també va ser objecte d'un escàndol del programes Turnitin, acusat de violar el copyright de tots els estudiants que l'havien emprat, quan aquests van veure reutilitzats els seus texts-informes per a fins comercials per part del propietari del programes.[8]

Vegeu també

[modifica]

Referències

[modifica]
  1. Bela Gipp. Citation-based Plagiarism Detection: Detecting Disguised and Cross-language Plagiarism using Citation Pattern Analysis. Springer, 26 juny 2014. ISBN 978-3-658-06394-8. 
  2. Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo (2009), "Overview of the 1st International Competition on Plagiarism Detection", PAN09 - 3rd Workshop on Uncovering Plagiarism, Authorship and Social Software Misuse and 1st International Competition on Plagiarism Detection (PDF), CEUR Workshop Proceedings, 502, pp. 1–9, ISSN 1613-0073, archived from the original (PDF) on 2 April 2012
  3. Portal Plagiat - Softwaretest 2004 Arxivat 2011-10-25 a Wayback Machine. (en alemany), HTW University of Applied Sciences Berlin, retrieved 6 October 2011
  4. Portal Plagiat - Softwaretest 2008 (en alemany), HTW University of Applied Sciences Berlin, retrieved 6 October 2011
  5. Portal Plagiat - Softwaretest 2010 (en alemany), HTW University of Applied Sciences Berlin, retrieved 6 October 2011
  6. Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo (2010), "Overview of the 2nd International Competition on Plagiarism Detection", Notebook Papers of CLEF 2010 LABs and Workshops, 22–23 September, Padua, Italy Arxivat 2012-04-03 a Wayback Machine. (PDF)
  7. Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), "Overview of the 3rd International Competition on Plagiarism Detection", Notebook Papers of CLEF 2011 LABs and Workshops, 19–22 September, Amsterdam, Netherlands Arxivat 2012-04-02 a Wayback Machine. (PDF)
  8. Turnitin : la polémique des technologies anti-plagiat