Web-Monitoring Algorithmus

Algorithmus zur Erhebung von Quellen

Wie bereits klar wurde, wächst das Web dermaßen stark, dass Suchmaschinen nur einen kleinen Teil aller Websites indexieren können. Dies begründet auch die relativ schlechten Ergebnisse bei den Indikatoren Recall und Precision. Daher ist eine explizite Steuerung des Spider, nötig um die Precision zu erhöhen. Im Gegensatz zur Vorgehensweise der Suchmaschinenspider die von einer Basis aus alle Links verfolgen und die verfolgten Sites indexieren, sind Spider für Web-Monitoring-Systeme dazu gezwungen schon vorab eine Bewertung jeden Schritts durch den Suchbaum durchzuführen. Die Verfolgung der Hyperlinks von der Basis in das Internet geschieht nicht mehr willkürlich sondern unterstützt durch einen Algorithmus.

Am Anfang des Algorithmus steht die Basis
manuelles, quantitatives Web-Monitoring. Im manuellen Web-Monitoring diente sie als kategorisierte Ansammlung von Informationsquellen anhand derer man einen
Untersuchungsgegenstand beobachtet. Die Erhebung der Basis ist nur intellektuell möglich. Dies gilt auch für das
automatische Webmonitoring . Allerdings ist die Basis im automatischen Webmonitoring mehr als eine kategorisierte Ansammlung von Informationsquellen. Der Spider benötigt diese Informationen, um sie auszuwerten und anschließend zum Aufbau des Suchbaums zu verarbeiten. Sie dient als elementare Grundlage für alle weiteren Aktionen des Spiders und ist somit auch ein Qualitätskriterium für die Resultate die man durch den Spider erhält. Der Algorithmus zur automatischen Erhebung von Informationsquellen untergliedert sich in zwei Schritte:

1. Extraktion von Informationen aus der Basis und Analyse der extrahierten Informationen.
2. Start des Spiders auf der Grundlage der aus der Basis extrahierten Informationen.

Der erste Schritt kann als Vorbereitung auf die eigentliche Erhebung von Informationsquellen betrachtet werden. Dieser Schritt unterteilt sich dabei in zwei Teilschritte. Im ersten Teilschritt erfolgt die Analyse der Webseiten aus der Basis.

Aus den HTML-Websites werden die Rohtext-Dateien extrahiert. Daraus folgt ein Stemming der Terme mit Extraktion der Stoppwörter. Das Stemming wird eingesetzt, um morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückzuführen. Somit erhält man dann einen Pool von Termen, die für den Untersuchungsgegenstand relevant sein könnten. Die Prüfung der Relevanz der Terme erfolgt in einem zweiten Teilschritt. Hierbei geht es um eine statistische Auswertung der Termansammlung. Wenn man die gesamte Basis durch den ersten Teilschritt bearbeitet hat, erhält man eine große Anzahl von Termen, denen eine Beziehung zum Untersuchungsgegenstand unterstellt wird. Doch man kann davon ausgehen, dass gewisse Terme häufiger vorkommen als andere Terme. Somit ist eine Zählung der Häufigkeiten aller enthaltener Terme notwendig, um eine Gewichtung der Terme vorzunehmen. Terme, die sehr selten vorkommen werden ersatzlos aus dem Pool gelöscht. Aus dieser Analyse heraus bildet sich ein Muster, welches den Untersuchungsgegenstand mittels verschiedener Terme charakterisiert. Dieses Muster ist vergleichbar mit einem kleinen Thesaurus.

Doch ein Thesaurus muss noch modifiziert werden um ihn effektiv einsetzen zu können. Ziel ist die möglichst explizite Beschreibung des Untersuchungsgegenstandes, damit der Spider einen Suchbaum erstellen kann, der möglichst geringe Abweichungen von dem Muster des Untersuchungsgegenstandes aufweist. Dieses Ziel wird durch den Pool an Termen unterstützt, der im weiteren als Merkmalpool des Suchbaums bezeichnet wird.

>>
weiter lesen