PostgreSQL FTS - Tipps und Tricks: Unterschied zwischen den Versionen
Aus Geoinformation HSR
Stefan (Diskussion | Beiträge) K |
Stefan (Diskussion | Beiträge) K |
||
(5 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt) | |||
Zeile 2: | Zeile 2: | ||
* [[PostgreSQL]], [[PostgreSQL - Tipps und Tricks]] | * [[PostgreSQL]], [[PostgreSQL - Tipps und Tricks]] | ||
* http://delicious.com/sfkeller/fulltext | * http://delicious.com/sfkeller/fulltext | ||
+ | * http://www.postgresql.org/docs/current/interactive/textsearch.html | ||
+ | * http://wiki.postgresql.org/wiki/PGCon2013_Unconference_Future_of_Full-Text_Search | ||
+ | * http://azakirov.blogspot.ch/2015/12/dictionaries-and-postgresql-fts.html | ||
== Allgemeines == | == Allgemeines == | ||
Zeile 29: | Zeile 32: | ||
* And...: Stackoverflow, Shakespeare, Library of US Congress? | * And...: Stackoverflow, Shakespeare, Library of US Congress? | ||
− | == Tipps | + | == Tipps / FAQ == |
− | === Einlesen von externen Dateien/Verzeichnissen | + | "Mixed-language text or unknown-language text search is supported by full-text search, but only if you use the simple dictionary, in which case you don’t get stemming." [http://blog.2ndquadrant.com/text-search-strategies-in-postgresql/?utm_source=rss&utm_medium=rss&utm_campaign=text-search-strategies-in-postgresql] => is this statement correct? |
+ | |||
+ | == Einlesen von externen Dateien/Verzeichnissen == | ||
tbd. | tbd. | ||
− | + | == Konvertieren von Wikipedia/Wikinews nach SQL Dump == | |
tbd. | tbd. | ||
− | + | == Performance-Benchmark == | |
tbd. | tbd. | ||
[[Kategorie:PostgreSQL]] | [[Kategorie:PostgreSQL]] |
Aktuelle Version vom 7. Dezember 2015, 22:46 Uhr
Siehe auch:
- PostgreSQL, PostgreSQL - Tipps und Tricks
- http://delicious.com/sfkeller/fulltext
- http://www.postgresql.org/docs/current/interactive/textsearch.html
- http://wiki.postgresql.org/wiki/PGCon2013_Unconference_Future_of_Full-Text_Search
- http://azakirov.blogspot.ch/2015/12/dictionaries-and-postgresql-fts.html
Inhaltsverzeichnis
Allgemeines
Zur Konfiguration von Full Text Search (FTS).
Wenn man...
- (allgemeine) englische Texte durchsuchen will, muss man nichts umkonfigurieren (ausser den Index).
- fachspezifische Texte hat, dann ist ein sep. Thesaurus zu konfigurieren (.syn + .thes laden).
- (allgemeine) deutsche Texte hat, dann kann man für's Erste den Stemmer umkonfigurieren (plus Index).
- ...
Die effiziente Textsuche kann verschiedene Ziele verfolgen:
- Suche in deutschen (ev. auch gemischten de+en Dokumenten) allgemein.
- Suche in fach- oder branchen-spezifische Texten.
- Exakte Suche oder unscharfe Suche.
Als unscharfe Suche kommen in PG in Frage:
- soundex, metaphone, dmetaphone (built-in Fn.) und Levenshtein (Modul fuzzystrmatch).
- Trigramm (zusammen mit dem speziellen GiST/kNN-Index).
Datenquellen für Dictionaries
Freie Text-Corpora (Corpus):
- Wikipedia/Wikinews: http://en.wikipedia.org/wiki/Wikipedia:Database_download and http://dumps.wikimedia.org/
- Project Gutenberg: http://www.gutenberg.org/
- DBPedia: http://dbpedia.org/About
- And...: Stackoverflow, Shakespeare, Library of US Congress?
Tipps / FAQ
"Mixed-language text or unknown-language text search is supported by full-text search, but only if you use the simple dictionary, in which case you don’t get stemming." [1] => is this statement correct?
Einlesen von externen Dateien/Verzeichnissen
tbd.
Konvertieren von Wikipedia/Wikinews nach SQL Dump
tbd.
Performance-Benchmark
tbd.