Klassifikation von Texten nach Genre
Magisterarbeit zur automatischen Erkennung des Genres von Texten. Die Programme, Wortlisten, Korpora und natürlich die Arbeit gibt es...
Genre as Noise, Noise in Genre
Wie hängen die Anzahl von Rechtschreibfehlern und das Genre von Texten zusammen? Mit Klaus U. Schulz (Uni München) und Christoph Ringlstetter (Uni Alberta), für die International Joint Conference on Artificial Intelligence 07 in Hyderabad und ein Special Issue des International Journal of Document Analysis and Recognition.
Recognizing Genres
Zusammenfassung der Ergebnisse meiner Magisterarbeit für einen Workshop im Rahmen der Corpus Linguistics 07 in Birmingham, wieder zusammen mit Christoph.
Incremental genre classification
Der Versuch, User-Feedback zu verwenden, um die Genre-Klassifikatoren "lernend" zu machen. Auch für die Corpus Linguistics 07, in Zusammenarbeit mit Christoph Ringlstetter, Randy Goebel und Tong Zheng
Elements of a Learning Interface for Genre Qualfied Search
Die Weiterentwicklung des lernenden Klassifikators. Vorgestellt bei einem Workshop bei der Conference on Recent Advances in Natural Language Processing 07 in Borovets, Bulgarien und als Poster bei der Australian Joint Conference on Artificial Intelligence. Wieder mit Christoph und Randy Goebel
Towards a Reference Corpus of Web Genres for the Evaluation of Genre Identification Systems
Zusammenarbeit der Workshop-Teilnehmer aus Borovets, in dem heiß diskutiert wird, was denn nun ein Genre ist und was nicht. Veröffentlicht bei der LREC 08. Nebenbei entstand als Diskussionsplattform und Ressourcen-Sammlung das Genre-Wiki. Immer einen Besuch wert!
Charset Guesser
Alles muss man selber machen... Perl-Skript, das den Zeichensatz einer Text- oder HTML-Datei (fast immer richtig) erkennt.
Part of Speech-Tagger
Und schon wieder ging Programmieren schneller als Suchen: Ein direkt einsetzbarer Brill-, Regex- und Most Frequent-Tagger in Java. Wer mag, kann auch mit eigenen Korpora nochmal trainieren.
Rewriting-Transducer
Visualisierung eines Algorithmus, der einen Automaten zum Suchen und Ersetzen von Zeichenketten aufbaut. Dabei werden simultan alle Einträge des Dictionarys übersetzt. Flash mit selbstentwickelten Graph-Zeichen-Algorithmus.
Zeit und Aspekt in DRT
Kurze Zusammenfassung eines Teils der Diskurs-Repräsentations-Theorie von Hans Kamp. (Quelle)
download [.zip]Optics Algorithm
Algorithmus für das Clustering von Daten. gleichfarbige Punkte gehören zu einer Gruppe. Verschiedene Parameter beeinflussen die Gruppenbildung.
Grovers Algorithmus
Ein blitzschneller Algorithmus zum Finden eines Elements in einer unsortierten Menge. Ist zwar Quanteninformatik und nicht Computerlinguistik, aber trotzdem interessant.