In diesem Artikel möchte ich kurz das Ergebnis von einem Projekt des letzten Semesters (Knowledge Networks and Semantic Technologies // SoSe2009 // TU Berlin) vorstellen. In dem Projekt ging es um die Analyse vorhandener E-Mails hinsichtlich der vorkommenden Themen und deren Verbreitung in dem E-Mail Netzwerk. Die Ausgangsdaten waren E-Mails vom Konkurs gegangenen US-Gas-Konzern Enron. Uns lagen knapp 70 000 Mails vor, die das entstandene Topic Map Tool auf interessante Themen untersucht und die Korrelationen von Keywords berechnet. Um wirklich interessante Themen im nicht standardisierten E-Mail Verkehr zu identifizieren, kamen Regular Expressions, Stopword-Listen sowie die Wordnet-Searching-API zum Einsatz. Mit diesen Technologien wurden relevante Keywords aus den E-Mails gesammelt und deren Korrelationen zu anderen relevanten Keywords berechnet. Ein wichtiger Faktor für die Berechnung ist, wie häufig zwei korrelierte Wörter zusammen in einer E-Mail auftauchen. Mit Hilfe von Wordnet konnten semantisch gleiche Wörter zu Clustern zusammengefasst oder gefiltert werden. Ebenso half Wordnet bei einer Filterung nach Wortarten, da vor allem Substantive interessante Schlüsselwörter sind.
Das Ergebnis der Analyse war ein Datenbank Dump, der im Commetrix Schema gespeichert wurde. So konnten die Ergebnisse mit Hilfe von Commetrix visualisiert werden. Die Ergebnisse seht Ihr auf den Screenshots weiter unten.
Exemplarisch starke Korrelationen bestanden zum Beispiel zwischen den Worten Gas und Price sowie zwischen President und Election. Unzählige weiter Beispiele könnte ich an dieser Stelle auflisten. Zusammenfassend hat die Lehrveranstaltung sehr viel Spaß gemacht und mich für das Thema semantische Netze begeistert.
Screenshot der Anwendung


