Texte auswerten und Trends finden

Data Science auf Sprache angewendet – Texte analysieren ohne alles zu lesen und Strichlisten zu führen.

Text Mining bedeutet auf Deutsch wörtlich: Text-Bergbau. Gemeint ist das gezielte Ausgraben von Informationen mit mathematischen Hilfsmitteln. Die Maschine liest, der Mensch betrachtet die Ergebnisse. Das das klassisches Vorgehen der Textanalyse seit Beginn der Alphabetisierung um 3000 B. C. ist lesen und dann eine Literaturarbeit darüber schreiben. Diese strukturierte Textrecherche betreibt jeder, der Informationen aus mehreren Quellen sammelt. Vorteil dieses Vorgehens ist die Filterung durch den Menschen – mehrfach Erscheinendes wird nicht automatisch stärker gewichtet, Fehler werden entdeckt.

Text Mining im Sinn von „Bergbau im Text“ ist auf Mengen und Häufigkeiten abgestellt und liefert quantitative Informationen. Das bedeutet der Trend, die inhaltliche Richtung des Textes wird über Zahlen, Mengen und Positionen erfasst. Eine zehnmal vorkommende Aussage ist wichtiger als eine, die nur einmal vorkommt. Das gibt dem Kommunikationsmittel Sprache eine neue Interpretation. Maschinell können sehr große und viele Texte analysiert werden. Ein Mensch kann große Mengen Text nicht verarbeiten. Text Miner arbeiten nicht Schaufel und Pickel, wie im traditionellen Bergbau, sondern mit geeigneten Maschinen, die menschliche Arbeitskraft vervielfachen.

Bedeutend ist die Analyse von Stimmungen und Trends über Text-Mining. Für dieses Analyse ordnet man den Wörtern im Text Bedeutungsgruppen oder Gefühle zu. So können aus Kundenrezensionen und anderen Texten Zufriedenheitsbarometer und Trendmessungen berechnet werden oder auch Falschmeldungen erkannt werden. Sehr gut geeignet dafür ist die Standardsoftware R mit den Paketen tm oder dem neueren und umfangreicheren tidytext[0] .

Clusteranalysen – was kommt besonders häufig in welchem Zusammenhang vor – geben wichtige Hinweise auf Trends.

Es folgt ein bewußt einfach gehaltenes Beispiel aus dem Arbeitsmarkt.

Text Mining für die Marktforschung am Arbeitsmarkt

Der Absatz behandelt Text Mining am Beispiel Berufswahl. Hier genügt das einfache Sammeln von Worthäufigkeiten und Bildung von Clustern von Wörtern zur Ermittlung von Trends.

Xing kann als Datenquelle für Karriereentscheidungen[1] benutzt werden. Viele der dortigen Mitglieder haben dort ihre Lebensläufe, Interessen und Angebote hinterlegt. Xing lässt die volle Suchfunktion über dort hinterlegte Profile nur mit kostenpflichtigem Premium-Konto zu. Ohne Premium geht nur die Suche nach Namen. Warum Xing? Es ist die deutschsprachige Entsprechnung zu Linkedin. Linkedin beschränkt sich auf die englische Sprache und ist daher gut für internationale Beziehungen, während Xing auf die deutsche Sprache setzt und lokal ist. Die Mitglieder werden dort direkt aufgefordert, unter Klarnamen richtige Lebensläufe einzupflegen. Dies soll helfen, die eigene Positionierung im Arbeitsmarkt zu verbessern. Viele Deutsche tun sich mit englischsprachigen Lebensläufen schwer, weswegen Xing für Deutschland aussagekräftiger ist.

Aus den Profilen, auch aus Stellenanzeigen oder Webseiten können Karrierepfade, Anforderungsprofile und mehr ausgewählt werden. Diese kann man einfach anschauen und auf Erkenntnis hoffen. Alternativ lassens sich Textanalysewerkzeuge anwenden, dazu später. Dazu müssen die Daten jedoch entweder in einer Textdatei oder einer vollwertigen Datenbank zusammen gefaßt werden.

Wie gut sind die Daten?

Die Aussagekraft dieser Recherche ist insofern begrenzt, als im Falle einer Xing-Recherche die Stichprobe ausschließlich Xing-Mitglieder betrifft oder alternativ für den englischen Sprachraum Linkedin-Mitglieder sind. Das sind in der Regel Menschen, die entweder wegen Stellensuche ihre Sichtbarkeit erhöhen wollen, generell Freizeitkontakte suchen (auch das gibt es über Xing) oder viele Kunden- und Lieferantenkontakte haben, die sie über Xing pflegen. Glückliche Fleißarbeiter, die in Hinterzimmern Daten und Texte auswerten, sind in Xing seltener zu finden.

Trends lassen sich aus Texten gut ablesen – höhere Worthäufigkeiten, mehr Bedeutung. Man staunt, wieviel Bullshit im Sinn sich wiederholender Verstärkerwörter sich besonders in der Werbung breit macht. Auch Stellenangebote bleiben hier nicht verschont.

Texte auswerten – Verfahren

Es gibt komplexe Verfahren, wie etwa das von Google verwendete, in dem die Wörter nach Bedeutung gewichtet werden. Die einfachste Methode zur Textauswertung ist Wörter zählen. Möchte man das nicht über kostenpflichtige Konten bei spezialisierten Diensten machen, sondern mithilfe freier Software selbst, empfiehlt sich Textstat. Dieses kann Word- und Openoffice-Dokumente sowie Webseiten und Textdateien einlesen und die Worthäufigkeiten ermitteln.

Folgende Grafik zeigt eine beispielhaft Text Mining aus 14 Stellenangeboten für Trainer und Marktforscher.

Texte auswerten mit Textstat
Analyse großer Texte mit Textstat – hier Worthäufigkeiten bei 14 Stellenangeboten für Trainer und Marktforscher
(für größeren Text auf die Grafik klicken) Einerseits ist erkennbar, wie viele immergleiche Füllwörter in Stellenangeboten verwendet werden, andererseits liegt der Schwerpunkt in Frankfurt am Main – die Hälfte der Stellen.

———————————————-

  1. [0] Personal Coach Svenja Hofert argumentiert hier für eine datenbasierte Studien- und Berufswahl.
  2. [1] Analyseverfahren im Text-Mining – eine Übersicht (Fallstudienarbeit)
  3. [2]Die Auswertungen von Freitext mit tidytext für R ist ein breites Gebiet. Siehe auch im Tidytext-Manual

Big Data Analyse oder Hypothesen testen?

Worum geht es

Big Data (große Datenmenge) meint zunächst die Zahlenkolonnen, die bei Webanwendungen, Sensoren an Maschinen oder für das Wetter und bei Fakturierungs- und CRM-(Kundenbeziehungsmanagement)-Software anfallen.

Arbeit mit Hypothesen bedeutet, dass eine Grundannahme existiert, z. B. wer Golf fährt wird wieder einen Golf kaufen. Diese Annahme kann nach einer repräsentativen Umfrage unter 500 Golf-Fahrern bestätigt oder verworfen werden. Verwerfen bedeutet, laut Umfrageergebnis sagt die Eigenschaft „Golf fahren“ überhaupt nichts über die Wahrscheinlichkeit des Kaufs eines weiteren Golfs aus.

Big Data Anwendungen sind Softwarepakete, die aus diesen Daten ohne Grundannahmen Zusammenhänge herauslesen können. Dazu werden die Daten betrachtet und Häufungen (Cluster) gesucht, oder Entscheidungsbäume gebildet. Beispiel für einen Entscheidungsbaum: ich möchte ausrechnen, ob eine Apfelbaum dieses Jahr Ertrag haben wird. Gemessen habe ich folgende Daten über mehrere Jahre an vielen Bäumen: Alter, Sorte, Bodennährstoffe, Sonneneinstrahlung, Ertrag. Mit Entscheidungsbäumen und Clustern kann ich den Ertrag vorhersagen.

Schätzung und Realität
Schätzung und Realität – hier hat es funktioniert

Gerne werden daher Big-Data Anwendungen zur Umsatzprognose bei Händlern, zur Lagerhaltung und zum Errechnen von Maschinenstandzeiten ausgerechnet. Händler profitieren, indem sie die Bestellmengen und die Lagerhaltung dem erwarteten Umsatz anpassen können, einige können sogar Bestellungen ausliefern, die noch gar nicht getätigt wurden. Der Computer wußte, dass der Kunde noch kommt.

Es entsteht doch Nutzen

Weiter können neue Korrelationen gefunden werden, die traditionell nach Hypothesenbildung aus den Datenbeständen statistisch errechnet und oft auch übersehen wurde. Es ist keine theoretische Begründung für den Zusammenhang mehr nötig.

Die Auswertung von Big Data ist insofern eine Verlängerung des menschlichen Gehirns. Die Fundierung durch Daten gibt den Zusammenhängen mehr Gewicht. George Soros, der vor einigen Jahrzehnten mal legal mit Leerverkäufen die Bank von England knackte, ließ nach eigenen Angaben nach die Milliarden dann los, wenn es ihn rechts im Bauch.
zwickte. Sein Gehirn wertete demnach unbewußt die vorhandenen Daten aus und signalisierte die Entscheidung.

Ziele auf deine Kunden - Hochdruckverkauf
Ziele auf deine Kunden – Hochdruckverkauf

Big Data automatisiert – und macht genauso Fehler wie Menschen, die etwas abschätzen. Berüchtigt und für jeden sichtbar sind die Retargeting-Kampagnen in der Online-Werbung, bei denen aus vergangenen Käufen die Wahrscheinlichkeit zukünftiger Käufe errechnet werden soll. Die Vorschläge sorgen oft für Heiterkeit. Der Entwickler und Daten-Analyst kann natürlich unplausible Zusammenhänge verwerfen.

Lesenswert zur Thematik ist folgender Artikel, welcher die Bedeutung der Big-Data(nalyse) realistisch sieht. Für die Versprechen der Hersteller siehe: Hier klicken für computerwoche.ch