PostgreSQL FTS - Tipps und Tricks: Unterschied zwischen den Versionen
Aus Geoinformation HSR
Stefan (Diskussion | Beiträge) K |
Stefan (Diskussion | Beiträge) K (→Tipps / FAQ) |
||
Zeile 33: | Zeile 33: | ||
"Mixed-language text or unknown-language text search is supported by full-text search, but only if you use the simple dictionary, in which case you don’t get stemming." [http://blog.2ndquadrant.com/text-search-strategies-in-postgresql/?utm_source=rss&utm_medium=rss&utm_campaign=text-search-strategies-in-postgresql] => is this statement correct? | "Mixed-language text or unknown-language text search is supported by full-text search, but only if you use the simple dictionary, in which case you don’t get stemming." [http://blog.2ndquadrant.com/text-search-strategies-in-postgresql/?utm_source=rss&utm_medium=rss&utm_campaign=text-search-strategies-in-postgresql] => is this statement correct? | ||
− | |||
== Einlesen von externen Dateien/Verzeichnissen == | == Einlesen von externen Dateien/Verzeichnissen == |
Version vom 27. August 2013, 13:32 Uhr
Siehe auch:
Inhaltsverzeichnis
Allgemeines
Zur Konfiguration von Full Text Search (FTS).
Wenn man...
- (allgemeine) englische Texte durchsuchen will, muss man nichts umkonfigurieren (ausser den Index).
- fachspezifische Texte hat, dann ist ein sep. Thesaurus zu konfigurieren (.syn + .thes laden).
- (allgemeine) deutsche Texte hat, dann kann man für's Erste den Stemmer umkonfigurieren (plus Index).
- ...
Die effiziente Textsuche kann verschiedene Ziele verfolgen:
- Suche in deutschen (ev. auch gemischten de+en Dokumenten) allgemein.
- Suche in fach- oder branchen-spezifische Texten.
- Exakte Suche oder unscharfe Suche.
Als unscharfe Suche kommen in PG in Frage:
- soundex, metaphone, dmetaphone (built-in Fn.) und Levenshtein (Modul fuzzystrmatch).
- Trigramm (zusammen mit dem speziellen GiST/kNN-Index).
Datenquellen für Dictionaries
Freie Text-Corpora (Corpus):
- Wikipedia/Wikinews: http://en.wikipedia.org/wiki/Wikipedia:Database_download and http://dumps.wikimedia.org/
- Project Gutenberg: http://www.gutenberg.org/
- DBPedia: http://dbpedia.org/About
- And...: Stackoverflow, Shakespeare, Library of US Congress?
Tipps / FAQ
"Mixed-language text or unknown-language text search is supported by full-text search, but only if you use the simple dictionary, in which case you don’t get stemming." [1] => is this statement correct?
Einlesen von externen Dateien/Verzeichnissen
tbd.
Konvertieren von Wikipedia/Wikinews nach SQL Dump
tbd.
Performance-Benchmark
tbd.