Web-Monitoring Algorithmus

Algorithmus zur Erhebung von Quellen

<< vorherige Seite

Eine intellektuelle Verfeinerung des Merkmalpool gewährt eine optimale Charakterisierung des Untersuchungsgegenstands. Gerade in der deutschen Sprache ist das Stemming sehr schwierig und muss daher intellektuell überwacht werden. Der nun vorhandene Merkmalpool muss mittels eines Wörterbuchs ergänzt werden. Durch das Stemming beinhaltet der Pool nur Wortgrundformen. Die Inhalte der Websites bestehen aber nicht nur aus den Wortgrundformen der Terme. Vielmehr gibt es eine Vielzahl von Derivaten und Synonymen zu jedem Term. Diese Ergänzung des Merkmalpools ist notwendig für eine effektiven Aufbau des Suchbaums.

Stemming
Die so durchgeführten Teilschritte führen zu einem kleinen Thesaurus, der einen Untersuchungsgegenstand durch verschiedene Terme und deren Derivate charakterisiert. Dieser Thesaurus bildet den Grundstock für den zweiten Schritt, der aus dem Start des des Spiders auf Grundlage der aus der Basis extrahierten Informationen besteht. Zu beachten ist hier, dass der Merkmalpool keine Bewertung der gefundenen Websites zulässt. Es geht hierbei nur darum den Untersuchungsgegenstand zu charakterisieren, um auf dieser Grundlage die Suche nach Websites die den Untersuchungsgegenstand beinhalten durchzuführen. Hierbei lassen sich noch keine Aussagen über das Image eines Produkts, einer Dienstleistung oder eines Unternehmens erkennen. Dies ist Aufgabe der Automatischen Analyse von Informationsquellen.

Der zweite Schritt dient zur eigentlichen Steuerung des Spiders. Dabei unterteilt sich diese Phase ebenfalls in zwei Teilschritte. Der erste Schritt beschäftigt sich mit den Hyperlinks, die in der Basis enthalten sind. Sie bilden den Startpunkt des Spiders und sind somit die Wurzeln des Suchbaums. Bevor nun der Spider aber die Hyperlinks der Basis verfolgt muss geprüft werden, ob die Hyperlinks eine ausreichende Relevanz für den Untersuchungsgegenstand darstellen. Hierzu wird der Hyperlink auf enthaltene Terme untersucht, die durch einen Abgleich mit dem Thesaurus auf Relevanz überprüft werden.

Ist eine (vordefinierte) Relevanz gegeben, so wird der Spider aufgefordert diesen Hyperlink zu verfolgen. Diese Relevanzanalyse wird für alle Hyperlinks der jeweiligen Basiswebseite durchgeführt. Aus dieser Analyse heraus ergibt sich eine Relevanzkennzahl für die Website. Diese Relevanzkennzahl hilft dem Spider bei Hyperlinks deren Analyse keine Bewertung zulässt. Keine Bewertung ist beispielsweise bei Hyperlinks ohne Ankertext möglich. Die Entscheidung, ob diese Hyperlinks trotzdem verfolgt werden hängt von der Relevanz der übrigen Hyperlinks und damit von der Relevanzkennzahl ab. Ist eine hohe Anzahl von Hyperlinks einer Website relevant, so kann man davon ausgehen, dass auch der Hyperlink ohne Aussage relevant ist.

Der zweite Teilschritt beschäftigt sich mit der Analyse der Webseiten die über die Hyperlinks angesteuert wurden. Dabei wird davon ausgegangen, dass durch einen Hyperlink miteinander verbundene Sites viel wahrscheinlicher das gleiche Thema behandeln als zwei zufällig gewählte Seiten. Allein auf dieser Theorie kann sich ein effektives Web-Monitoring allerdings nicht aufbauen. Daher ist eine Analyse der Texte auf der jeweiligen Webseite notwendig. Dazu werden die vorhandenen Terme der Webseite extrahiert und mit den Termen des Thesaurus verglichen. Durch diesen Abgleich wird eine Relevanz ermittelt die dem Spider signalisiert, ob die Hyperlinks auf der Webseite für ihn interessant sind oder nicht. Ist eine Relevanz gegeben wird Teilschritt 1 wieder aktiviert. Somit werden wieder die Hyperlinks analysiert und aus dieser Analyse heraus wird der weitere Weg des Spiders bestimmt.

Im zweiten Schritt arbeitet der Spider also eine Schleife ab, die sich so lange wiederholt bis der Spider keine relevanten Websites bzw. Hyperlinks mehr findet. Damit ist dann der Suchbaum abgeschlossen. Der Suchbaum ist durch diesen Algorithmus nicht vorhersehbar. Dennoch lassen zwei Faktoren eine Beeinflussung des Suchbaums zu:
  1. Basis
    Der erste Faktor ist die Basis. Je genauer sie einen Untersuchungsgegenstand anhand von WebsiteS beschreibt desto wahrscheinlicher ist der Aufbau eines effektiven Suchbaums. Der Spider wird mit hoher Wahrscheinlichkeit Hyperlinks finden, die eine hohe Affinität zum Untersuchungsgegenstand aufweisen. Damit geht die Wahrscheinlichkeit von relevanten Websites einher , die der Spider durch die Verfolgung der Hyperlinks erreicht. Hier wird nochmal die hohe Bedeutsamkeit der Basis und die intellektuelle Erstellung der Basis für ein effektives Web-Monitoring hervorgehoben.
  2. Steuerung
    Der zweite Faktor lässt eine Steuerung der Komplexität des Suchbaums zu. Dazu werden dem Spider Relevanzwerte vorgegeben die eine Entscheidung zulassen ob eine Website bzw. ein Hyperlink relevant ist oder nicht. Die Relevanz kann dabei abgestuft in einer Skala von 0 bis 10 beschrieben werden. Dabei gilt 0 als nicht relevant und 10 als sehr relevant. Die Relevanzeinstellung für die Hyperlinks und Websites werden getrennt voneinander definiert.
Beispielsweise könnte die Relevanz für Hyperlinks mit 3 definiert werden und die Relevanz der Webseiten mit 8. Damit erreicht man eine hohe Verfolgung von Hyperlinks. Damit die Qualität der Informationsquellen nicht leidet werden aber nur Websites verfolgt die eine Relevanz von mindestens 8 aufweisen. Diese Einstellung verringert die Wahrscheinlichkeit eines vorzeitigen Stopps des Spiders und damit auch einen hohen Informationsgewinn für das Web-Monitoring-System.