Webcrawler
Aus Geoinformation HSR
Version vom 22. August 2006, 10:56 Uhr von Stefan (Diskussion | Beiträge)
- Webcrawler
- Programm, das durch rekursives Anfordern von Dokumenten, die auf Hyperlinks innerhalb dieser Dokumente basieren, automatisch das Web (bzw. ein Dateiverzeichnis-Baum) durchläuft.
Definitionen:
- Bevorzugter Begriff: Webcrawler.
- Überbegriff: Crawler
- Synonyme: Spider, Web-Bot (Bot), Robot, Page Locator, Wanderer...
Typen von Crawlern:
- Webcrawler, z.B. GoogleBot
- Desktop Crawler, z.B. Copernikus, Google Desktop, oder svizzer
- Spezial-Crawler, z.B. zur Verbesserung oder als Antispam-Tool für Wikipedia
Hinweise:
- Geometa.info setzt einen Webcrawler ein namens GeometaBot.
- Es gab eine Diplomarbeit an der HSR mit Publikation zum Thema "'Versus' - Comparing Methods for Near-Uniform URL Sampling", http://versus.integis.ch/
- For crawlers, the web is a graph!