Webcrawler
Aus Geoinformation HSR
Version vom 13. August 2009, 11:31 Uhr von Stefan (Diskussion | Beiträge)
- Webcrawler
- Programm, das durch rekursives Anfordern von Dokumenten, die auf Hyperlinks innerhalb dieser Dokumente basieren, automatisch das Web (bzw. ein Dateiverzeichnis-Baum) durchläuft.
Siehe auch GeometaBot.
Definitionen:
- Bevorzugter Begriff: Webcrawler.
- Überbegriff: Crawler
- Synonyme: Spider, Web-Bot (Bot), Robot, Page Locator, Wanderer...
Typen von Crawlern:
- Webcrawler, z.B. GoogleBot
- Desktop Crawler, z.B. Copernikus, Google Desktop, oder svizzer
- Spezial-Crawler, z.B. zur Verbesserung oder als Antispam-Tool für Wikipedia
Hinweise:
- Geometa.info setzt einen Webcrawler ein namens GeometaBot, der u.a. auch nach Diensten und Geo-Metadaten sucht (über Harvesting Protokolle).
- Es gab eine Diplomarbeit an der HSR mit Publikation zum Thema "'Versus' - Comparing Methods for Near-Uniform URL Sampling", http://versus.integis.ch/
- For crawlers, the web is a graph!