Klassifikation von Texten nach Genre

Mit diesen Perl-Programmen können einzelne Genres erkannt werden. contains_xxx.pl erkennt, ob das Genre xxx im Text vorkommt, find_xxx.pl ob der komplette Text zu Genre xxx gehört.

Der Aufruf erfolgt mit

perl programm.pl [VERZEICHNISNAME [KORPUS [DATEINAME]]]
mit KORPUS := train | test
Ist kein Dateiname angegeben, wird das komplette Verzeichnis geprüft.

Für die Programme contains_literatur und find_literatur muss der TreeTagger installiert sein und der Pfad dorthin in den Programmen angepasst werden. Einige andere Programme benötigen bereits getaggte Dateien. Deswegen sind diese Programme nur für die Verwendung mit dem hier gegebenen Korpus gedacht. Sie können aber ohne große Probleme so modifiziert werden, dass sie das Genre von beliebigen Texten erkennen.

Alle Programme als ZIP-Archiv