Web-Monitoring-Analyse

Algorithmus zur Erhebung von Quellen

<< vorherige Seite

Dabei geht es zum einen um das Instrument der Informationsextraktion und zum anderen um das Instrument zur Klassifizierung der extrahierten Informationen. Der Einsatz der beiden Instrumente wird im folgenden erläutert:

Die Informationsextraktion hat die Aufgabe Systeme einzuführen, die es dem Web-Monitoring-Unternehmen durch Filterung vereinfachen, Texte robuster zu bearbeiten oder zu extrahieren. Diese Filterung bezieht sich auf den Pool von strukturierten Informationsquellen, der durch den Wrapper gebildet wurde. Dabei steht jedoch nicht nur die Filterung von Informationen im Vordergrund sondern auch die möglichst effiziente Speicherung und Klassifizierung der gefilterten Informationen. Somit unterteilt sich die Informationsextraktion in zwei Bereiche:

1. Der erste Bereich der eigentlichen Informationsextraktion bedarf einiger vorbereitender Schritte um effektiv Informationen zu filtern. In einem ersten Schritt muss geklärt werden welche Informationen aus den
strukturierten Informationsquellen herausgezogen werden sollen.
Die zu extrahierenden Informationen müssen mit folgenden Fragen bearbeitet werden:

Wer?
Was?
Wem?
Wann?
Wo?

Warum (evtl.) Die Frage nach dem „was" ist hierbei nicht zu beachten. Durch die
automatische Erhebung von Informationsquellen ist der Untersuchungsgegenstand schon abgegrenzt. Die Frage nach dem "was" ist somit schon definiert. Dies kann beispielsweise ein Unternehmen sein.

2. Nach der Klärung des Informationsbedarfs erfolgt in einem zweiten Schritt die eigentliche Extraktion. Es muss nun also eine Möglichkeit gefunden werden, die es erlaubt, relevante Wörter bzw. Phrasen aus dem Pool von Informationsquellen herauszuziehen. Diese Funktion erfüllen Parser.

Diese Funktion stellt wohl die größte Herausforderung für Web-Monitoring-Systeme da. Im Gegensatz zum
manuellen Webmonitoringe, wo ein erkennbare Anzahl an Informationsquellen durch Menschen intellektuell analysieren lassen kann, ist die Anzahl der Informationsquellen im automatischen Webmonitoring für eine manuelle
Analyse zu groß.

Die Nachahmung der manuellen intellektuellen Analyse durch einen automatisierten Algorithmus ist jedoch schwer. Die Erschwerung ist durch folgendes gekennzeichnet:

Polysemie
Wörter können mehrdeutig sein (Polysemie).

Synonymie
Wörter können durch verschiedene Wörter ersetzt werden

Da es sich hier um eine sehr komplexe Thematik handelt, wird die Funktionsweise der Parser an dieser Stelle nur in groben Zügen erklärt.

In einem ersten Schritt müssen die vorhandenen Informationen aus den Informationsquellen zerlegt werden. Der Text wird dabei in seine Bestandteile aufgelöst und in Sätze, Phrasen und Wörter zerlegt. Diesen Vorgang nennt man Tokenisierung. Die so zerlegten Bestandteile des Textes müssen nun hinsichtlich ihrer linguistischen Zuordnung klassifiziert werden. Dabei geht um die Bestimmung der Wortformen. Im Anschluss wird die grammatische Struktur der Sätze ermittelt. Als Beispiel seien hier Pronomen genannt. Pronomen müssen den vorausgehenden oder folgenden Nominalphrasen, auf die sie verweisen, zugeordnet werden. Anhand der so gewonnen Informationen lässt sich allerdings noch kein Wissen generieren. Wissen wird hierbei als Information verstanden, die in einem bestimmten Kontext handlungsrelevante Informationen darstellt. Zur Generierung des Wissens benötigt das System kodiertes Wissen. Dieses kodierte Wissen kann in verschiedenen Formen zur Verfügung gestellt werden:

- Wörterbücher, die Wortarten und Bedeutungen von Wörtern in Phrasen aufzeigen
- Ontologien mit spezifischem Wortschatz von Fachgebieten oder den Beziehungen zwischen Fachwörtern
- Listen von Eigennamen (z. B. Länder, Firmen, Personen)
- Listen von häufig verwendeten Abbroviationen

Aus diesem Abgleich zwischen den zerlegten Informationen der Informationsquelle und dem kodierten Wissen lassen sich Beziehungen um Zusammenhänge erkennen, die es erlauben, eine Bewertung der Information abzugeben. In Bezug auf eine Imageanalyse von Produkten oder Unternehmen müssen also zerlegte Wörter identifiziert werden, die eine negative, neutrale oder positive Aussage zu einem Untersuchungsgegenstand erkennen lassen.

Ist dieser Punkt erreicht, so gelangt man zum zweiten Punkt, der Klassifizierung der extrahierten Informationen. Die Klassifizierung dient dazu, die kategorisierte Basis in Klassen einzuteilen, um Aussagen über die Bewertung des Untersuchungsgegenstands zu treffen. Um nun die Informationsquellen zu analysieren und klassifizieren ist es notwendig Vergleichmaterial zu haben, die jeweils eine Klasse des Klassifizierungssystems repräsentieren. Das Vergleichsmaterial beinhaltet dabei eine Menge von Termen die eine bestimmte Bewertung des Untersuchungsgegenstandes widerspiegeln. Zur Verdeutlichung soll hier ein Beispiel eingebracht werden:

Eine grobe Klassifizierung für die Imageanalyse eines Produkts wird in drei Klassen eingeteilt. Unterschieden werden die Klassen

- Neutral
- Positiv
- Negativ

Diese Klassen, in Beziehung gestellt mit dem Produkt, lassen eine erste qualitative Analyse des Produktimages zu und geben dadurch handlungsrelevante Informationen für die entsprechenden Funktionsbereiche eines Unternehmens wieder. Beispielsweise könnte ein Benchmark zu anderen Konkurrenzprodukten durchgeführt werden.

Da die Basis ebenfalls kategorisiert wurde lässt sich mittels der Klassen aus der Klassifikation eine Landkarte von Meinungen bilden die Stärken und Schwäche des Produktimages im Internet widerspiegelt. Dabei werden zwei wichtige Funktionen erfüllt. Zum einen lässt sich mittels einer Zeitreihenanalyse die Wirkung von PR-Aktivitäten verfolgen und zum anderen entsteht ein Frühwarnsystem, welches negative Resonanzen aufspüren kann und somit ein prophylaktisches Handeln auslösen soll.