Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Beide Seiten der vorigen Revision Vorhergehende Überarbeitung Nächste Überarbeitung | Vorhergehende ÜberarbeitungLetzte ÜberarbeitungBeide Seiten der Revision | ||
arbeiten:extraktion_praegnanter_zitate_der_abgeordneten_des_oesterreichischen_nationalrats_aus_den_parlamentsprotokollen_der_24._und_25._gesetzgebungsperiode_anhand_von_n-gramm-ermittlung_und_sentiment-analyse [30.08.2015 11:28] – [Data-Entry] Manuel Burghardt | arbeiten:extraktion_praegnanter_zitate_der_abgeordneten_des_oesterreichischen_nationalrats_aus_den_parlamentsprotokollen_der_24._und_25._gesetzgebungsperiode_anhand_von_n-gramm-ermittlung_und_sentiment-analyse [22.05.2016 18:37] – [Data-Entry] buk25587 | ||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
- | ====== | + | ====== |
---- dataentry StudentischeArbeit ---- | ---- dataentry StudentischeArbeit ---- | ||
- | Thema | + | Thema |
- | Art_tags | + | Art_thesistypes |
- | Betreuer_title | + | Betreuer_thesisadvisor |
- | Student_title | + | Student |
- | Professor_title | + | Professor_thesisprofessor |
- | Status_tag | + | Status_thesisstate |
- | Stichworte_tags | + | Stichworte_thesiskeywords |
- | angelegt_dt | + | angelegt_dt |
- | Beginn_dt | + | Beginn_dt |
- | Ende_dt | + | Anmeldung_dt |
+ | Antrittsvortrag_dt | ||
+ | Abschlussvortrag_dt | ||
+ | Ende_dt | ||
---- | ---- | ||
+ | |||
+ | |||
=== Hintergrund === | === Hintergrund === | ||
- | kommt noch ... | + | Mit der täglich zunehmenden Textmenge steigt die Bedeutung textlinguistischer Verfahren, die eine schnelle Kategorisierung und inhaltliche Erschließung der Textdaten ermöglichen. Vor diesem Hintergrund sollen in dieser Bachelorarbeit die Wortprotokolle parlamentarischer Reden anhand einiger ausgewählter Methoden der auf der Computerlinguistik basierenden Diskursanalyse näher zu betrachten. |
=== Zielsetzung der Arbeit === | === Zielsetzung der Arbeit === | ||
- | kommt noch ... | + | Die Stenographischen Protokolle des Österreichischen Nationalrates sind im Internet als transkribierte Textdokumente für jedermann abrufbar und bilden ein umfassendes Korpus, das die parlamentarischen Debatten, die zumeist von außerordentlicher gesellschaftlicher Relevanz sind, über die Jahre hinweg abbildet. Gerade in diesen Debatten prallen meist unterschiedlichste Forderungen – um nicht zu sagen Welten – aufeinander. Dies gilt insbesondere für die FPÖ und die GRÜNEN, deren Vertreter in Fernsehsendungen recht häufig als unversöhnliche Kontrahenten gegenübersitzen (https:// |
=== Konkrete Aufgaben === | === Konkrete Aufgaben === | ||
- | Nach Absprache mit dem Betreuer. | + | 1. Aufbereitung des Textmaterials (JAVA, Stanford NLP): |
+ | |||
+ | a) Extraktion der relevanten Redensabschnitte aus den Protokollen | ||
+ | |||
+ | b) Segmentierung und Tokenisierung | ||
+ | |||
+ | c) POS-Tagging, | ||
+ | |||
+ | 2. Analyse des Textmaterials (NLTK, Python): | ||
+ | |||
+ | a) Stoppwortermittlung | ||
+ | |||
+ | b) N-Gramm-Analyse | ||
+ | |||
+ | c) Wortkontextanalyse | ||
+ | |||
+ | d) Phrasenanalyse | ||
+ | |||
+ | => Speicherung im CSV/ | ||
+ | |||
+ | 3. Deutung und Darstellung des gewonnenen Materials (Excel, D3.js) | ||
+ | |||
+ | a) Fehlerdiskussion | ||
+ | |||
+ | b) Gegenüberstellung | ||
+ | |||
+ | c) Interpretation | ||
=== Erwartete Vorkenntnisse === | === Erwartete Vorkenntnisse === | ||
- | Keine | + | XML, HTML, Python NLTK, Linguistik / Computerlinguistik |
=== Weiterführende Quellen === | === Weiterführende Quellen === |