Review: Citation-based Plagiarism Detection

Die Kollegen Bela Gipp, Norman Meuschke und Joeran Beel von der UC Berkeley haben eine neue Technik zum Detektieren von Plagiaten vorgeschlagen, die weder auf string matching-, fingerprinting- oder style comparison-Strategien beruht und daher interessant genug ist, um hier besprochen zu werden: citation-based plagiarism detection (CbPD) scheint in systematischer Weise schneller und besser zu funktionieren als hergebrachte und crowd-sourced  basierte Textanalysemethoden und zum Teil auch Ideenplagiate zu erfassen. Lassen wir im Folgenden formale Details beseite und fragen nach den Leitgedanken der maschinellen Identifikation von Plagiaten.

Standard Approaches

Man kann externe Methoden, die Vergleiche von Textdokumenten vornehmen von internen Methoden, die nach Wechseln des Schreibstils suchen, unterscheiden. Im ersten Fall gibt es neben einfachem string-matching sehr populäre fingerprinting-Methoden, die Stilmerkmale formulieren und zu einer Art Steckbrief des plagiat-verdächtigen Dokuments arrangieren. Ähnliche Steckbriefe von Dokumenten sind ein Hinweis auf ein Plagiat.

The novelty of CbPD

Im Vergleich hierzu ist CbPD ist auf wissenschaftliche Publikationen spezialisiert und wertet Textähnlichkeiten zwischen Dokumenten, die darauf zurückgehen, daß fremde Texte von den Plagiatoren manuell abgewandelt wurden. Damit versucht CbPD eine bisher existierende Lücke zu schließen, die die bisherige Methoden offen lassen mußten. Zu diesem Zweck werden primär die Literaturhinweise ausgewertet: Ähnlichkeiten hier induzieren Ähnlichkeiten im Text. Die Strategie besteht daher darin, Wahrscheinlichkeiten für Muster in den Zitierungen zu berechnen.

Die Simulationsergebnisse weisen darauf hin, daß CbPD die angesprochene Lücke tatsächlich mit akzeptablem Erfolg schließen kann. Solche Algorithmen machen sicher die manuelle Kontrolle der gefunden Textstellen nicht überflüssig. Aber vielleicht sehen wir ja demnächst den Einsatz dieser Technik auch auf VroniPlag – einfach damit es schneller geht und weniger Arbeit macht.


6 Kommentare on “Review: Citation-based Plagiarism Detection”

  1. Die Technik dürfte gerade für Übersetzungsplagiate und verschleierte Plagiate (mit Einschränkungen) sehr nützlich sein.
    Allerdings ist die Aussage „schneller und besser zu funktionieren als hergebrachte und crowd-sourced basierte Textanalysemethoden“ etwas irreführend.
    CbPD wird ja gegen die crowd-gesourcte Guttenberg-Analyse als Gold-Standard geprüft, d.h. in diesem Test konnte gar nicht ermittelt werden, ob es besser als crowd-sourcing ist.

  2. VPtwelve sagt:

    Exakt mit dieser Methode wurde bei Dv (http://de.vroniplag.wikia.com/wiki/Dv) am erfolgreichsten gearbeitet. Es klingt jedenfalls identisch. Grüße von VroniPlag

  3. Plagiarism in a „family“ style
    How young ambitious capoes and soldiers from the Italian Institute of Technology (IIT) under supervision of a decrepit american don-godfather from Northwestern University are successfully completed their sequential plagiaristic enterprise: http://issuu.com/r_sklyar/docs/sklyarvsmussaivaldi

  4. (for English readers stumbling upon this comment: I believe the allegations by Mr. Skylar are completely unfounded. Mr. Skylar seems to believe that the general concept of a brain-robot interface is his own invention that nobody may use without citing him.)

    Um anderen Lesern die Zeit zu sparen: Die Vorwürfe von Herrn Skylar scheinen wenig substantiiert zu sein.
    Das verlinkte Dokument „An academic sketch about plagiarism“ beinhaltet den E-Mail-Verkehr zwischen Skylar und drei Personen, die er des Ideenklaus beschuldigt. Außerdem eine Gegenüberstellung eines seiner Papers mit dem der beschuldigten Autoren (einer der drei war wohl nur Reviewer des Papers).
    Ein direktes Plagiat ist da nicht zu sehen. Skylar behauptet, dass seine Idee geklaut worden wäre, die sich wohl wie folgt zusammenfassen lässt: „In einer Hirn-Roboter-Schnittstelle gibt es eine bidirektionale Kommunikation, wobei eine Übersetzungskomponente zwischen Hirn und Roboter gebraucht wird.“
    Diese Idee alleine scheint mir jetzt nicht besonders einzigartig zu sein. Bis auf diese thematische Übereinstimmung gibt es augenscheinlich keine Gemeinsamkeiten zwischen den Papers.

  5. j. sagt:

    Als Jöran (einer der Autoren) in Magdeburg studierte, wurde er noch mit ö geschrieben ^^


Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s