Analyse von Twitter Streams. Was denkt das Volk?
- 13.11.2015
- Wen könnte interessieren, was das Volk denkt? Der Politiker möchte wissen, was der Wähler von einem Gesetzesentwurf hält und der Unternehmer möchte wissen, wie sein Produkt beim Kunden ankommt, der Tourist möchte wissen, welches Hotel seinen Anforderungen entspricht. Früher verbreiteten sich solche Nachrichten als Klatsch und Tratsch im Hausflur von Frau Meier zu Herrn Schmidt mit den Worten: „Haben Sie schon gehört? Frau Müller hat den neuen Lavamat. Einfach großartig!“ Heute können wir das Problem etwas systematischer angehen. Wenn Sie durch Osnabrück schlendern, werden Sie an den Haltestellen junge Leute treffen, die auf ihrem Handy im Internet surfen, ihre Mails lesen und twittern. Ein Tweet ist eine Textnachricht bestehend aus 140 Zeichen und richtet sich nicht wie bei einer E-Mail an einen bestimmten Adressaten, sondern an alle Twitter-User. Davon gibt es 300 Millionen weltweit, die pro Sekunde 5.000 Tweets absetzen. Damit man nicht alle diese Tweets lesen muss, folgt man gewissen Personen, das heißt nur deren Tweets tauchen auf meinem Smartphone auf. Die Firma Twitter gibt es seit zehn Jahren, sie ist an der Börse etwa 18 Milliarden Dollar wert und macht jährlich etwa 600 Millionen Dollar Verlust. Der Durchbruch eines überzeugenden Geschäftsmodells lässt noch auf sich warten. Hier kommt ein Vorschlag dafür: Wir finden per Software heraus, wie der Twitter-Nutzer die Welt sieht, genauer: Was er vom Politiker X, Produkt Y, vom Hotel Z hält und verkaufen das Ergebnis an den, der es wissen will. Wir machen das mit sogenanntem überwachtem Lernen. Zunächst einmal erstellen wir ein Stimmungs Wörterbuch, in dem für jedes mögliche Wort eine Zahl zwischen 100 und -100 hinterlegt ist, welche ausdrückt, wie positiv bzw. negativ dieses Wort besetzt ist. So erhalten Begriffe wie „schön“, „fröhlich“ und „Sonne“ sicherlich Werte nahe an 100, „Unfall“, „bitter“ und „traurig“ bewegen sich bei 100. Nun können wir ein Programm entwickeln, welches für einen Tweet mehrere Merkmale berechnet, in die zum Beispiel die Summe der durchschnittlichen Stimmungswerte aller Wörter einfließt, die Zahl der lachenden und weinen den Smileys, die Zahl der Ausrufezeichen etc. Dann stellen wir zehn studentische Hilfskräfte ein und besorgen uns eine Stichprobe von 10.000 Tweets. Jeder Student schaut sich jeden Tweet an und bewertet ihn nach gesundem Menschenverstand als positiv oder negativ. Alle Tweets, die von mehreren Studenten einheitlich bewertet wurden, werden dann zusammen mit ihren Merkmalen dem Computer zum Trainieren vorgesetzt, das heißt, ein Programm ermittelt automatisch den Zusammenhang zwischen den Merkmalen und der vorgegebenen Gesamtstimmung. Heraus kommt eine sogenannte Hyperebene, das ist eine mathematische Formel, welche die positiven von den negativen Tweets trennt. Wenn dann die Firma AEG wissen will, wie der neue Lavamat beim Kunden ankommt, greifen wir alle Tweets mit dem Wort Lavamat ab, wenden unsere Formel drauf an, und wissen jetzt wissenschaftlich abgesichert dasselbe, was Frau Meier zu Herrn Schmidt im Hausflur gesagt hatte: 97 Prozent Zustimmung!