Gedankenweitsprung

Von Philosophie bis Pixel: Gedankengänge und kreative Welten


Dieser Text entsteht weil ich warte

Ich habe etwas für mich entdeckt, wovon ich niemals gedacht hätte, dass ich daran wirklich Spaß haben könnte: Datenanalyse.

Ich habe aktuell einige Dinge, die ich machen muss. Darunter zwei Projekte in Hausarbeit ähnlicher Art und zwei Hausarbeiten. Eins dieser Projekte handelt in hohem Maße von der Aufbereitung und Analyse bestimmter Daten. Oder einfach gesagt: Das Ziel ist, hübsche Diagramme zu machen die einem Informationen zeigen.

Und ich musste zu meiner Überraschung feststellen, dass mir das ungemein viel Spaß macht. Ich bin IMMERNOCH dabei, die Daten zu optimieren. Beispielsweise beinhalten Texte oft viele sogenannte „stopwords“. Das sind Begriffe, die oft benutzt werden, aber keine Bedeutung haben wie beispielsweise „und“ oder „oder“. Diese kann man also ohne schlechtes Gewissen aus Texten filtern, ohne dass sich die Bedeutung ändert, denn diese Worte haben ja keine.

Das ist aber nur die Spitze des Eisbergs. Ein roher Datensatz enthält viele Tücken. In meinem Fall sind es zum Beispiel ganze Passagen, die inhaltslos sind. Durch eine Gliederung in eine Tabelle lassen sich diese relativ einfach durch ein Python Skript filtern.

Warum ich warte

Ich bin gerade dabei, die Texte zu „tokenisieren“. Das heißt, dass ich ein Programm laufen lasse, dass die Worte eines Textes erkennt und sie einer Lise hinzufügt. Ich habe also nicht einen einzelnen, zusammenhängenden Text sondern eine Liste an Worten. Diese kann ich dann verwenden, um zum Beispiel eine Themenanalyse zu machen. Also: Welche Themen kommen in diesem Text vor? Dafür reichen die Schlagworte aus.

Und dieser Prozess dauert lange. Insgesamt trotz sehr verkleinertem Datensatz ungefähr eine Stunde. Der Grund dafür ist, dass ich insgesamt 6 Tabellen habe, die jeweils zwischen 8 – 18 Tausend Zeilen enthalten. Und diese Zeilen haben es in sich, denn die Spalten mit den Texten enthalten im Durchschnitt 800 Wörter.

Neu entdeckte Faszination

Wenn man letztlich aber vor dem Endresultat sitzt: Eine Tabelle, bzw. mehrere Tabellen, die fast ausschließlich Informationen enthalten, die ich brauche, um Fragen an die Daten gut beantworten zu können, fühlt sich das äußerst befriedigend an. Dabei gibt es unfassbar viele Möglichkeiten, was man mit den Daten tun kann.

Das klingt alles super abstrakt, ist aber ungemein praktisch in der Anwendung. Wahrscheinlich werde ich dazu, wenn das Projekt weitergeht bzw. fertig ist nochmal einen eigenen Post machen, denn die Ergebnisse die ich erhalten werde, werden sicherlich interessant sein.

Ich freue mich auf jeden Fall darauf, wenn der erste Schritt endlich abgeschlossen ist und ich mich den hübschen Graphen zuwenden kann!



Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert