Web-Monitoring-Analyse

Algorithmus zur Erhebung von Quellen

>> weiter lesen

Neben der Erhebung der Quellen, liegt die Herausforderungen in der Analyse der im Internet gefundenen Quellen. Problematisch ist hier die Strukturierung der Quellen, die analysiert werden sollen. Websites sind zwar in der Regel durch den HTML-Code strukturiert, allerdings ist dies keine Garantie für eine konsistente Struktur. Websites enthalten häufig keinen reinen Text, sondern bestehen aus Tabellen, Textfragmenten, Listen, einzelnen Überschriften/Wörtern. Somit können HTML-Dokumente nicht ohne weitere, technische Spezifikationen verarbeitet werden. Geht man davon aus, dass die Quellen für das Web-Monitoring bereits durch die
Automatische Erhebung von Informationsquellen vorhanden sind, so muss dieser Pool von Quellen (Websites) für eine Weiterverarbeitung vorbereitet werden.

Spider
Diese Vorbereitung der gefundenen Quellen wird durch Wrapper erreicht. Der Wrapper dient dazu, unstrukturierte, zumeist in HTML vorliegende Daten automatisch zu extrahieren und in strukturierte Datenformate auf Basis von XML umzuwandeln. Der Fokus liegt hierbei auf der Syntaxanalyse der von dem Spider gefundenen Quellen. Es handelt sich somit um eine Vorextraktion von Informationen, die notwendig ist, damit andere Schichten des Web-Monitoring-Systems die weitere Informationsextraktion durchführen können. Das Format XML bietet dabei wesentliche Vorteile bei der Weiterverarbeitung der Dokumente.

Im Vordergrund steht dabei die Möglichkeit eines flexiblen Datenaustauschs. Sind die Daten erstmal in XML umgewandelt, wird ein flexibler Datenaustausch gewährleistet. Der Content kann dann in meist zwei verschiedenen Formaten zur Verfügung gestellt werden. Das Problem besteht jedoch darin, dass sich XML im Web noch nicht als Standard auf breiter Ebene durchgesetzt hatt. Somit ist die Anwendung des Wrapper auch in Zukunft für ein Web-Monitoring unvermeidbar.

Da der Einsatz des Wrapper einen hohen Aufwand an Rechenleistung darstellt, ist es sehr wichtig den vorangegangenen Schritt der automatischen Informationsgewinnung so effektiv wie möglich zu gestalten, damit der Wrapper möglichst wenig Ballast bearbeiten muss. Als Ballast werden dabei Informationsquellen bezeichnet, die keine dem Untersuchungsgegenstand entsprechende Informationen enthalten. Nach dem Einsatz des Wrapper erhält man eine Ansammlung von annähernd strukturierten Informationsquellen, die für eine automatische Analyse zur Verfügung stehen.

Die automatische Analyse der Informationsquellen verlangt den Einsatz von Verfahren, die Informationen möglichst selbstständig sammeln und die Informationen erweiterbar und übertragbar werden. Das Verfahren muss demnach eine Eigendynamik entwickeln, die eine umfassende Analyse des Untersuchungsgegenstands im Hinblick auf die Stellung im System erlaubt. Beispielsweise sollten Aussagen über das Image eines Produkts auf einem definierten Marktsegment analysierbar sein. Zur Erreichung dieser Funktionalität ist der Einsatz von Instrumenten des Text-Mining erforderlich. Dabei wird Text-Mining als Oberbegriff für sämtliche Methoden gesehen, mit denen sich zwar bisher unbekannte aber potentielle und nützliche Informationen finden lassen, . Diese lassen sich oftmals in großen Textsammlungen finden.

Wichtiger Schritt für die Vorbereitung auf eine Bearbeitung mit Text-Mining Instrumenten ist die einheitliche Strukturierung der Informationsquellen. Diese Strukturierung wird von den Instrumenten des Text-Mining abgegrenzt da der Wrapper nur eine Strukturierung von Daten vornimmt, nicht aber Informationen aus diesen Daten extrahiert.

Der durch den Wrapper strukturierte Pool von Informationsquellen im XML-Format dient als Ausgangspunkt für die automatische Analyse mittels der Text-Mining Instrumente. In dem thematischen Bereich des Web-Monitorings, werden zwei grundlegende Instrumente zur Verarbeitung freier Texte zum Zwecke der Filterung von Informationen genannt.