no way to compare when less than two revisions
Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
— | lehre:ss12:ps_plagiate [06.08.2012 08:42] (aktuell) – angelegt Alexander Bazo | ||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
+ | ====== Seminar " | ||
+ | |||
+ | ===== Infos ===== | ||
+ | |||
+ | * **Ort:** [[ http:// | ||
+ | * **Zeit:** Donnerstags, | ||
+ | * [[ http:// | ||
+ | |||
+ | ===== Aktuell ===== | ||
+ | |||
+ | **Bis 31. Mai 2012:** | ||
+ | |||
+ | Lest Tutorials zu Git, probiert sie aus | ||
+ | * http:// | ||
+ | * http:// | ||
+ | * http:// | ||
+ | * http:// | ||
+ | |||
+ | Misc: | ||
+ | * Maike Krüger, Elisabeth Salomon, Philipp Jean-Jacques am 31. Mai nicht da. | ||
+ | ===== Gruppen ===== | ||
+ | |||
+ | Sie werden in kleinen Gruppen von zwei bis vier Teilnehmern zusammen an einer Komponente arbeiten. Dabei müssen Sie sich mit den anderen Gruppen über Schnittstellen und Anforderungen abstimmen. | ||
+ | |||
+ | ===== System ===== | ||
+ | |||
+ | === Stark vereinfachter (= naiver) Aufbau eines Plagiatserkennungssystems === | ||
+ | (Wir werden die Architektur im Laufe des Seminars verfeinern.) | ||
+ | < | ||
+ | digraph simplified_plagiarism_checker { | ||
+ | rankdir=LR; | ||
+ | size=" | ||
+ | node [shape = box3d]; Compare ; | ||
+ | node [shape = box]; | ||
+ | Document_A -> Compare [ label = " | ||
+ | Document_B -> Compare [ label = " | ||
+ | Document_C -> Compare [ label = " | ||
+ | Wikipedia -> Compare [ label = " | ||
+ | Compare -> Report[ label = " | ||
+ | } | ||
+ | </ | ||
+ | |||
+ | |||
+ | ===== Ziele des Seminars ===== | ||
+ | |||
+ | Ziel dieses Seminars ist, gemeinsam ein System zur Plagiatserkennung in wissenschaftlichen Arbeiten zu entwickeln. Dabei werden nicht alle Komponenten voll ausgestaltet. | ||
+ | |||
+ | Am Ende des Seminars werden Sie einen Einblick in folgende Themen haben: | ||
+ | |||
+ | * Verständnis von Plagiaten | ||
+ | * Algorithmen zur Ähnlichkeitssuche | ||
+ | * Arbeiten auf der Kommandozeile | ||
+ | * Text-Verarbeitung mit Python | ||
+ | * Versionskontrolle mit Git | ||
+ | * Praktische Erfahrung im Projektmanagement | ||
+ | * Verarbeiten von großen Datenmengen | ||
+ | |||
+ | Eventuell finden wir auch eine untere Schranke für die Dunkelziffer bei Plagiaten | ||
+ | |||
+ | |||
+ | ===== Projektziele ===== | ||
+ | Ein System, in das man vorne Dokumente reinsteckt, und wo hinten Plagiatsdokumentation rauskommt. | ||
+ | |||
+ | Konkrete Anforderungen: | ||
+ | * sehr modulares System | ||
+ | * soll mit mehreren hunderttausend Dokumenten umgehen können | ||
+ | * halbwegs effizient | ||
+ | * PDF-Dokumente, | ||
+ | * irrelevante Inhalte (z.B. Seitenzahlen) filtern | ||
+ | * Zitate und Quellenangaben automatisch erkennen | ||
+ | * verschiedene Erkennungsalgorithmen parallel und einen kombinierten PlagScore bilden | ||
+ | * Interaktive Annotation von Plagiaten, die schlecht automatisiert erkannt werden können | ||
+ | * Visualisierung: | ||
+ | ===== Anforderungen ===== | ||
+ | Um das Seminar erfolgreich abzuschließen, | ||
+ | * Sie halten ein kurzes Referat (5 Minuten) zu einem Teilaspekt des Seminars | ||
+ | * Sie sind regelmäßig im Seminar anwesend und diskutieren aktiv mit. | ||
+ | * Sie implementieren und dokumentieren in einer kleinen Gruppe eine Komponente für ein Plagiaterkennungssystem. | ||
+ | * Sie stellen ihre Arbeit bei der gemeinsamen Präsentation vor. | ||
+ | |||
+ | Zusätzlich würden wir Sie darum bitten, Ihre Beiträge unter einer Open-Source-Lizenz (CC-BY für Text und MIT license für Code) freizugeben. | ||
+ | |||
+ | ===== Ablauf ===== | ||
+ | |||
+ | * 19.04. Intro, Plagiate | ||
+ | * 26.04. Text-Verarbeitung auf der Kommandozeile | ||
+ | * 03.05. // | ||
+ | * 10.05. Überblick " | ||
+ | * 17.05. *entfällt (Christi Himmelfahrt)* | ||
+ | * 24.05. Vorstellung Algorithmen (Referate), Planung Projekte | ||
+ | * 31.05. Systemarchitektur, | ||
+ | * 07.06. *entfällt (Fronleichnam)* | ||
+ | * 14.06. Präsentation Milestone 1 | ||
+ | * 21.06. Präsentation Milestone 2 | ||
+ | * 28.06. Präsentation Milestone 3 | ||
+ | * 05.07. Präsentation Milestone 4 | ||
+ | * 12.07. Release v0.1 | ||
+ | |||
+ | ===== Referate ===== | ||
+ | |||
+ | Anforderungen: | ||
+ | * Handout auf [[lehre: | ||
+ | * Vortrag, 10 Minuten, inkl. Folien/ | ||
+ | * Demo-Implementierung d. Algorithmus in Python, inkl. Testdaten | ||
+ | * Besprechung mit Raphael vor dem Referat | ||
+ | |||
+ | Themen und Material: siehe [[lehre: | ||
+ | |||
+ | ===== Ansätze zur Plagiatserkennung ===== | ||
+ | Aus der Sitzung vom 10.05.2012: | ||
+ | * gleiche Sätze in beiden Dokumenten, auch permutiert | ||
+ | * Stilanalyse | ||
+ | * Ähnlche Rechtschreibfehler / Rechtschreibung (Schweiz: ' | ||
+ | * Homonyme | ||
+ | * Synonyome | ||
+ | * Ähnliche Ideen | ||
+ | * Alle Dokumente in die gleiche Sprache übersetzen | ||
+ | * Grundformen der Wörter bilden ([[http:// | ||
+ | * unnötige Wörter entfernen (= [[http:// | ||
+ | |||
+ | {{ : | ||
+ | //Quelle: Gipp, B. und Meuschke, N.: Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence. In Proc. ACM DocEng 2011// | ||
+ | ===== Infrastruktur ===== | ||
+ | |||
+ | ==== Arbeitsplätze ==== | ||
+ | Donnerstag, 14-18 Uhr ist der CIP-Pool PHY 1.0.02 für uns reserviert. Auch in den restlichen Zeiten können Sie darin arbeiten, wenn gerade keine Lehrveranstaltung dort stattfindet. | ||
+ | Sie können sich auch per SSH auf einem der CIP-Pool-Rechner einloggen. Wenn Sie größere Rechenjobs starten wollen, überprüfen Sie bitte vorher mit dem Befehl '' | ||
+ | |||
+ | ==== Speicherplatz ==== | ||
+ | **/home**: In Ihrem Home-Verzeichnis auf dem Linux-Rechner haben Sie nur 50 MB frei. Das Home-Verzeichnis wird auf allen Rechnern über das Netzwerk eingebunden. | ||
+ | |||
+ | **/ | ||
+ | |||
+ | **/(noch nicht angelegt)**: | ||
+ | |||
+ | ==== Git Repository ==== | ||
+ | Der komplette Programmcode - ohne Daten! - befindet sich in einem gemeinsamen Git Repository unter //(TODO)//. Verwenden Sie zur Authentisierung Ihren NDS-Account. | ||
+ | |||
+ | Es folgt noch: | ||
+ | * Anleitung zur Benutzung | ||
+ | * Richtlinien für Commits | ||
+ | * Dateistruktur | ||
+ | |||
+ | ==== Wiki ==== | ||
+ | Dieses Wiki dient dazu, das Seminar und die einzelnen Projekte zu dokumentieren. Legen Sie dazu bitte Unterseiten zu dieser Seite an, z.B. [[lehre: | ||
+ | |||
+ | ===== Ressourcen ===== | ||
+ | |||
+ | **Plagiate: | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | |||
+ | **Unix shell scripting: | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | |||
+ | **Python:** | ||
+ | *[[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | |||
+ | |||
+ | ===== Hilfreiche Tools ===== | ||
+ | |||
+ | **Python:** | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | |||
+ | ===== Korpora ===== | ||
+ | |||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * ACM Digital Library | ||
+ | * [[http:// | ||
+ | * [[http:// | ||