Wie bereits erwähnt, müssen die Daten für das Information-Retrieval-System zunächst einmal aus dem Internet (World Wide Web) beschafft werden, bevor sie ausgewertet werden. Dafür ist das Webcrawler-System zuständig (siehe Abbildung). Die Aufgabe des Webcrawler-Systems ist es, die für die Suchmaschine noch unbekannten Dokumente herunterzuladen und sie auf Aktualität zu überprüfen.
Dokumentenindex (Document Index): Der Dokumentenindex enthält Informationen zu den Dokumenten in der Datenbank. Damit ein Dokument identifiziert werden kann, wird jedem Dokument eine sogenannte DocID (Document identification) zugeteilt. Die Dokumente sind nach DocID geordnet und beinhalten weitere relevante Informationen, wie z.B. statistische Daten:
Der Dokumentenindex wird auch als URL-Datenbank einer Suchmaschine bezeichnet. Die URLs werden selbständig erfasst und hinzugefügt oder sie gelangen durch die manuelle Anmeldung der Webautoren in den Dokumentenindex.
Scheduler: Der Scheduler dient der Verwaltung im Webcrawler-System. Seine Aufgabe ist es, die Crawler zu koordinieren und ihnen Aufgaben zuzuweisen. Die Information hierfür bekommt er aus dem Dokumentenindex. Der Scheduler hat im Wesentlichen das Bestreben, den Datenbestand zu pflegen und zu erweitern. Um effektiv zu arbeiten und die gewaltige Zahl der Millionen von Webseiten zu bewerkstelligen, verteilt der Scheduler die Arbeit auf viele verschiedene Crawler. Ist ein Crawler überlastet, wird der Auftrag an einen anderen Crawler übergeben.
Crawler: Crawler werden unter anderem auch als Spider, Webwanderer oder Robots bezeichnet. Als einzige Komponente arbeiten die Crawler außerhalb des Systems. Die Crawler unterliegen den Befehlen der Scheduler. Sie bekommen den Auftrag vom Scheduler bestimmte URLs zu besuchen, um dort entweder eine neue Ressource zu downloaden oder eine bereits bestehende Ressource auf Existenz und Aktualität zu prüfen. Wie in der oberen Abbildung zu sehen ist, beziehen die Crawler ihre Informationen aus dem Internet bzw. von Web- und DNS-Servern. Heute betreibt Google, tausende von Servern weltweit, auf denen hunderte Crawler-Prozesse laufen. Mit der multimedialen Entwicklung wurden auch spezialisierte Webcrawler entwickelt, die z.B. nur Flash-Animationen und PDF-Dateien abfragen.
Storeserver: Als nächstes Element im Webcrawler-System ist der Storeserver dafür verantwortlich, die vom Crawler gelieferten Daten zu sichern. Dabei erfüllt er drei Aufgaben:
Es kann natürlich auch zur Ablehnung einer Ressource kommen. Gründe dafür können z.B., nicht erkennbare Dokumenttypen (Audio- und Videoressourcen) oder inhaltlich identische Ressourcen (Dublettenerkennung) sein.
Repository: Nach überstandener Prüfung durch die bisher genannten Komponenten, wird die Ressource als lokale Kopie gespeichert. Im Repository sind überwiegend Seiten mit HTML-Code enthalten. Alle relevanten Dokumente sind im Repository gespeichert und werden nun zur Datenanalyse und -verwaltung übergeben.