Version v1.0

Vortrag: Buchstaben-n-Gramme in der Autorenattribution

Quantitative und Qualitative Analysen

Event large 4b8aa978adbb7c8e80151f5a83c6782a12e763374ae3a042a55e7e626a64d93b

Ich setze mich genauer mit einer Methode der maschinellen Autorschaftsattribution auseinander, welche auf den Häufigkeiten von Buchstaben-n-Grammen basiert. Dabei wird aus linguistischer Sichtweise die Validität dieses Verfahrens untersucht.

Im Rahmen meiner Masterarbeit im Bereich Angewandte Linguistik beschäftige ich mich mit maschinellen Methoden der Autorenattribution. Genauer gesagt untersuche ich die Klassifizierung der Autoren anhand von Buchstaben-n-Grammen (das erste Wort dieses Satzes kann beispielsweise in folgende Bigramme unterteilt werden: Ge, en, na, au, etc.). Diese Methode baut auf einer einfachen Erfassung der Häufigkeiten der n-Gramme auf, welche als Grundlage für die Klassifikation mittels maschineller Lernmethoden dient. In vielen Studien wird in diesem Kontext von einer äußerst effektiven – wenn nicht gar der effektivsten Vorgehensweise zur Bestimmung des Autors eines anonymen Textes gesprochen. Unklar bleibt jedoch, welche Textmerkmale durch die Buchstaben-n-Gramme überhaupt gemessen werden. An dieser Stelle setzt meine Untersuchung an, welche auf einem Perl-Skript beruht. Ausgehend von einem Korpus aus natürlichsprachlichen Texten von verschiedenen Autoren erfolgt die Bestimmung jener Buchstaben-n-Gramme, die für die Klassifikation am entscheidendsten sind. Im nächsten Schritt werden alle Wörter ausgegeben, welche diese Buchstabenkombination enthalten. Diese werden in der sich anschließenden qualitativen Analyse gemeinsam mit den dazugehörigen Wortarten genauer untersucht. Den Hintergrund bildet die Annahme, dass nicht die Inhaltsmerkmale, sondern bestimmte Stilmerkmale eines anonymen Textes die Kriterien zur Bestimmung der Autorschaft bilden. Aus diesem Grund muss überprüft werden, ob sich die Wörter eher inhaltlichen oder stilistischen Gesichtspunkten zuordnen lassen. Somit hoffe ich, die zentrale Fragestellung beantworten zu können: Welche Textmerkmale werden durch Buchstaben-n-Gramme gemessen?
In meinem Vortrag im Rahmen der Datenspuren 2015 werde ich diese Problematik sowie meine methodische Vorgehensweise kurz vorstellen und anschließend ausführlich auf meine Ergebnisse eingehen. Der Vortrag stellt insgesamt ein Plädoyer für die unterstützende qualitative Analyse im Rahmen computergestützter Verfahren zur Autorschaftsattribution dar.

Info

Tag: 25.10.2015
Anfang: 16:00 Uhr
Dauer: 01:00
Raum: Erlebniswerkstatt

Sprache: de

Links:

Feedback

Uns interessiert deine Meinung! Wie fandest du diese Veranstaltung?