Web-Monitoring-Quellen

automatische Erhebung von Informationsquellen

Die automatische Erhebung von Informationsquellen erfolgt in Anlehnung an die Technik der Suchmaschinen. Um näher auf diese Form der Quellenerhebung einzugehen ist es sinnvoll, die Funktionsweise von Suchmaschinen in groben Zügen zu kennen. Für die Aufgabe der Quellenerhebung im automatischen Web-Monitoring ist die Funktionsweise der Spider besonders interessant. Sie bilden die Schnittstelle zwischen dem Internet und dem Web-Monitoring-System. Somit ist die Mächtigkeit und die Effizienz von Web-Monitoring-Systemen insbesondere von der Mächtigkeit und Funktionalität der Spider abhängig, die das System mit Informationen versorgen. Die Problematik der Suche nach geeigneten Informationen im Internet wird allerdings durch folgende Mängel verstärkt:

- Es existiert kein Standard, welches die Struktur von Websites vorgibt
- Informationen liegen in unstrukturierten und beliebigen Formen vor (z. B. Text, Animationen, Audio, Podcasts etc.)
- Es exitistiert keine vollständige Information, sondern nur Informationen, die von Interessierten freigesetzt werden
- Das Web unterliegt starken, dynamische VeränderungenDabei sind Spider im Grunde nur Sammler von Informationsquellen. Grundstock dafür ist eine Menge von Webseiten bzw. URLs, die als Startposition für den Spider dienen. Die vorgegebenen URLs werden besucht und auf Hyperlinks überprüft. Die gefunden Hyperlinks werden anschließend gesammelt und weiterverfolgt. Somit ergibt sich ein Weg durch das Internet, den der Spider nach Vorgabe der gefundenen Hyperlinks zurücklegt. Zwar können auf diese Weise theoretisch alle Websites des Internets indexiert werden. Tatsächlich ist es jedoch so, dass nur eine Auswahl getroffen wird und der Prozess schließlich beendet und von Anfang an begonnen wird.

Um eine effektive Arbeit der Spider zu erreichen ist also eine Basis nötig, die es dem Spider erlaubt einen definierten Weg durch das Internet zu verfolgen. Im Punkt
manuelles quantitatives Web-Monitoring wurde bereits auf die Thematik eingegangen. Es handelt sich dabei um eine kategorisierte Ansammlung von Informationsquellen aus dem Internet, die als Grundlage für das Web-Monitoring dient. Im manuellen Web-Monitoring dient die Basis als Pool aller Informationsquellen die beobachtet werden.

Im automatischen Web-Monitoring dagegen ist die Basis der Startpunkt für die Recherche der Spider. Somit hat er einen Grundstock von URLs, die der Spider der Reihe nach auf Inhalte und Links überprüft, die mit dem Untersuchungsgegenstand in Verbindung stehen. Dadurch entsteht ein Suchbaum der ausgehend von der Basis Stämme und Äste erhält die den Weg des Spider durch das Internet widerspiegeln. In der folgenden Abbildung wird dies verdeutlicht.

Spider
Im Gegensatz zur einem Spider der für eine Suchmaschine sammelt ein Spider, der für ein Web-Monitoring-System erstellt worden ist, wesentlich differenzierter. Der Spider einer Suchmaschine geht auch von einem Pool von URLs aus, die er sequentiell abarbeitet. Er besucht jede Website und sucht auf ihr nach Links, die er dann in den Index aufnimmt und weiterverfolgt. Es geht dabei vorrangig um das Ziel möglichst viele Websites in den Index zu legen, damit der Suchmaschinen-Nutzer eine breite Auswahl von Quellen für eine Recherche hat. Entscheidend ist hierbei die Ranking-Technologie der Suchanfrage für ein bestmögliches Suchergebnis.

>>
weiter lesen