Inhaltsverzeichnis

Seminar "Automatisierte, interaktive und kollaborative Analyse von Textähnlichkeiten"

Infos

Aktuell

Bis 31. Mai 2012:

Lest Tutorials zu Git, probiert sie aus

Misc:

Gruppen

Sie werden in kleinen Gruppen von zwei bis vier Teilnehmern zusammen an einer Komponente arbeiten. Dabei müssen Sie sich mit den anderen Gruppen über Schnittstellen und Anforderungen abstimmen.

System

Stark vereinfachter (= naiver) Aufbau eines Plagiatserkennungssystems

(Wir werden die Architektur im Laufe des Seminars verfeinern.)

Ziele des Seminars

Ziel dieses Seminars ist, gemeinsam ein System zur Plagiatserkennung in wissenschaftlichen Arbeiten zu entwickeln. Dabei werden nicht alle Komponenten voll ausgestaltet.

Am Ende des Seminars werden Sie einen Einblick in folgende Themen haben:

Eventuell finden wir auch eine untere Schranke für die Dunkelziffer bei Plagiaten

Projektziele

Ein System, in das man vorne Dokumente reinsteckt, und wo hinten Plagiatsdokumentation rauskommt.

Konkrete Anforderungen:

Anforderungen

Um das Seminar erfolgreich abzuschließen, wird von Ihnen folgendes erwartet:

Zusätzlich würden wir Sie darum bitten, Ihre Beiträge unter einer Open-Source-Lizenz (CC-BY für Text und MIT license für Code) freizugeben.

Ablauf

Anforderungen:

Themen und Material: siehe Unterseite "Kurzvorträge"

Ansätze zur Plagiatserkennung

Aus der Sitzung vom 10.05.2012:

 Quelle: Gipp, B. und Meuschke, N.: Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence. In Proc. ACM DocEng 2011 Quelle: Gipp, B. und Meuschke, N.: Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence. In Proc. ACM DocEng 2011

Infrastruktur

Arbeitsplätze

Donnerstag, 14-18 Uhr ist der CIP-Pool PHY 1.0.02 für uns reserviert. Auch in den restlichen Zeiten können Sie darin arbeiten, wenn gerade keine Lehrveranstaltung dort stattfindet. Sie können sich auch per SSH auf einem der CIP-Pool-Rechner einloggen. Wenn Sie größere Rechenjobs starten wollen, überprüfen Sie bitte vorher mit dem Befehl who, ob noch jemand anderes gerade an diesem Rechner arbeitet.

Speicherplatz

/home: In Ihrem Home-Verzeichnis auf dem Linux-Rechner haben Sie nur 50 MB frei. Das Home-Verzeichnis wird auf allen Rechnern über das Netzwerk eingebunden.

/localtmp:Auf jedem CIP-Pool_Rechner gibt es das Verzeichnis /localtmp. In diesem können Sie temporäre Dateien ablegen. Diese Verzeichnisse werden nicht mit zwischen den Rechnern synchronsiert und können jederzeit gelöscht werden.

/(noch nicht angelegt): In diesem globalen Projektverzeichnis befinden sich alle Daten. Es wird über das Netzwerk eingebunden. Details zur Datenstruktur folgen noch

Git Repository

Der komplette Programmcode - ohne Daten! - befindet sich in einem gemeinsamen Git Repository unter (TODO). Verwenden Sie zur Authentisierung Ihren NDS-Account.

Es folgt noch:

Wiki

Dieses Wiki dient dazu, das Seminar und die einzelnen Projekte zu dokumentieren. Legen Sie dazu bitte Unterseiten zu dieser Seite an, z.B. lehre:seminar_plagiate_ss_12:PDFParser.

Ressourcen

Plagiate:

Unix shell scripting:

Python:

Hilfreiche Tools

Python:

Korpora