Bis 31. Mai 2012:
Lest Tutorials zu Git, probiert sie aus
Misc:
Sie werden in kleinen Gruppen von zwei bis vier Teilnehmern zusammen an einer Komponente arbeiten. Dabei müssen Sie sich mit den anderen Gruppen über Schnittstellen und Anforderungen abstimmen.
(Wir werden die Architektur im Laufe des Seminars verfeinern.)
Ziel dieses Seminars ist, gemeinsam ein System zur Plagiatserkennung in wissenschaftlichen Arbeiten zu entwickeln. Dabei werden nicht alle Komponenten voll ausgestaltet.
Am Ende des Seminars werden Sie einen Einblick in folgende Themen haben:
Eventuell finden wir auch eine untere Schranke für die Dunkelziffer bei Plagiaten
Ein System, in das man vorne Dokumente reinsteckt, und wo hinten Plagiatsdokumentation rauskommt.
Konkrete Anforderungen:
Um das Seminar erfolgreich abzuschließen, wird von Ihnen folgendes erwartet:
Zusätzlich würden wir Sie darum bitten, Ihre Beiträge unter einer Open-Source-Lizenz (CC-BY für Text und MIT license für Code) freizugeben.
Anforderungen:
Themen und Material: siehe Unterseite "Kurzvorträge"
Aus der Sitzung vom 10.05.2012:
Quelle: Gipp, B. und Meuschke, N.: Citation Pattern Matching Algorithms for Citation-based Plagiarism Detection: Greedy Citation Tiling, Citation Chunking and Longest Common Citation Sequence. In Proc. ACM DocEng 2011
Donnerstag, 14-18 Uhr ist der CIP-Pool PHY 1.0.02 für uns reserviert. Auch in den restlichen Zeiten können Sie darin arbeiten, wenn gerade keine Lehrveranstaltung dort stattfindet.
Sie können sich auch per SSH auf einem der CIP-Pool-Rechner einloggen. Wenn Sie größere Rechenjobs starten wollen, überprüfen Sie bitte vorher mit dem Befehl who
, ob noch jemand anderes gerade an diesem Rechner arbeitet.
/home: In Ihrem Home-Verzeichnis auf dem Linux-Rechner haben Sie nur 50 MB frei. Das Home-Verzeichnis wird auf allen Rechnern über das Netzwerk eingebunden.
/localtmp:Auf jedem CIP-Pool_Rechner gibt es das Verzeichnis /localtmp
. In diesem können Sie temporäre Dateien ablegen. Diese Verzeichnisse werden nicht mit zwischen den Rechnern synchronsiert und können jederzeit gelöscht werden.
/(noch nicht angelegt): In diesem globalen Projektverzeichnis befinden sich alle Daten. Es wird über das Netzwerk eingebunden. Details zur Datenstruktur folgen noch
Der komplette Programmcode - ohne Daten! - befindet sich in einem gemeinsamen Git Repository unter (TODO). Verwenden Sie zur Authentisierung Ihren NDS-Account.
Es folgt noch:
Dieses Wiki dient dazu, das Seminar und die einzelnen Projekte zu dokumentieren. Legen Sie dazu bitte Unterseiten zu dieser Seite an, z.B. lehre:seminar_plagiate_ss_12:PDFParser.
Python: