PostgreSQL FTS - Tipps und Tricks: Unterschied zwischen den Versionen
Aus Geoinformation HSR
Stefan (Diskussion | Beiträge) K |
Stefan (Diskussion | Beiträge) K |
||
Zeile 2: | Zeile 2: | ||
* [[PostgreSQL]], [[PostgreSQL - Tipps und Tricks]] | * [[PostgreSQL]], [[PostgreSQL - Tipps und Tricks]] | ||
* http://delicious.com/sfkeller/fulltext | * http://delicious.com/sfkeller/fulltext | ||
+ | |||
== Allgemeines == | == Allgemeines == |
Version vom 29. April 2013, 11:04 Uhr
Siehe auch:
Inhaltsverzeichnis
Allgemeines
Zur Konfiguration von Full Text Search (FTS).
Wenn man...
- (allgemeine) englische Texte durchsuchen will, muss man nichts umkonfigurieren (ausser den Index).
- fachspezifische Texte hat, dann ist ein sep. Thesaurus zu konfigurieren (.syn + .thes laden).
- (allgemeine) deutsche Texte hat, dann kann man für's Erste den Stemmer umkonfigurieren (plus Index).
- ...
Die effiziente Textsuche kann verschiedene Ziele verfolgen:
- Suche in deutschen (ev. auch gemischten de+en Dokumenten) allgemein.
- Suche in fach- oder branchen-spezifische Texten.
- Exakte Suche oder unscharfe Suche.
Als unscharfe Suche kommen in PG in Frage:
- soundex, metaphone, dmetaphone (built-in Fn.) und Levenshtein (Modul fuzzystrmatch).
- Trigramm (zusammen mit dem speziellen GiST/kNN-Index).
Datenquellen für Dictionaries
Freie Text-Corpora (Corpus):
- Wikipedia/Wikinews: http://en.wikipedia.org/wiki/Wikipedia:Database_download and http://dumps.wikimedia.org/
- Project Gutenberg: http://www.gutenberg.org/
- DBPedia: http://dbpedia.org/About
- And...: Stackoverflow, Shakespeare, Library of US Congress?
Tipps und Tricks
Einlesen von externen Dateien/Verzeichnissen
tbd.
Konvertieren von Wikipedia/Wikinews nach SQL Dump
tbd.
Performance-Benchmark
tbd.