Web-Monitoring-Quellen

automatische Erhebung von Informationsquellen

<< vorherige Seite

Suchmaschinen haben gegenüber den Web-Monitoring-Systemen einen entscheidenden Nachteil. Sie müssen sich auf alle denkbaren Suchanfragen von Nutzern der Suchmaschine einstellen. Somit müssen auch möglichst viele Websites indexiert werden damit möglichst alle Anfragen beantwortet werden können. Web-Monitoring-Systeme dagegen definieren vor dem Einsatz den
Untersuchungsgegenstand und damit auch die Recherche, die durchgeführt werden soll. Um den Vergleich zu verdeutlichen werden die beiden Aspekte "Recall" und "Precision" angewendet. Sie dienen "zur Bestimmung der Qualität von Antwortmengen" bei der Recherche in Datenbanken.

Recall
Der Recall beschreibt die Vollständigkeit einer Recherche. Er errechnet sich als Quotient aus der Anzahl der gefundenen relevanten Datensätze und der Gesamtzahl der relevanten Datensätze. Diese Kennzahl lässt sich bei der Recherche im Internet nur begrenzt anwenden. Die Problematik liegt in der Gesamtanzahl der relevanten Datensätze. Weder bei Suchmaschinen noch bei Web-Monitoring-Systemen kann man festlegen wieviele zu einem Untersuchungsgegenstand relevante Datensätze im Internet vorhanden sind. Dies liegt an dem enormen Datenbestand des Internets. Da Suchmaschinen meist nur einen kleinen Teil der Quellen indexieren kann niemals von einem Recall von 100% ausgegangen werden. Dies gilt auch für Web-Monitoring-Systeme. Jedoch kann hier durch eine gezielte Ausrichtung der Spider auf den Untersuchungsgegenstand der Recall gesteigert werden, weil der Bezug auf einen abgesteckten thematischen Rahmen liegt.

Precision
Die Precision lässt Aussagen über die Genauigkeit einer Recherche zu. Hierzu wird der Quotient aus der Anzahl der gefundenen relevanten Datensätze und der Gesamtheit der gefunden Datensätze gebildet. Im Gegensatz zum Recall ist hier eine realistische Berechnung möglich. Bei Suchmaschinen lässt sich durch eine gut gestellte Suchanfrage eine hohe Genauigkeit erreichen. Dennoch ist dies schwierig, da die indexierten Seiten von Suchmaschinen eine Vielzahl von Thematiken abdecken. Da in Webmonitoringsystemen der Untersuchungsgegenstand bekannt ist kann man durch eine gezielte Steuerung der Indexierung einen hohen Grad von relevanten Quellen erreichen. Somit lassen Web-Monitoring-Systeme auch eine höhere Precision als Suchmaschinen zu.

Um nun die automatische Erhebung von Informationsquellen möglichst effizient zu gestalten, muss man an der Optimierung des Suchbaums von Spidern arbeiten (vgl. obere Abbildung). Der Suchbaum resultiert aus einem vorgegebenen Algorithmus den der Spider abarbeitet. Somit entsteht ein Geflecht von Bedingungen die den Weg des Spiders und damit den Aufbau des Suchbaums bestimmen.