bevor ich die Anfrage bei Xobor einstelle, habe ich mir zunächst ein einfaches Beispiel gesucht und hier im Forum getestet.
1. Test mit der Suche nach einem Begriff Amsterdam, allgemeine Beobachtungen
- Die Suche schaut in die Beitragstitel und in die Beitragstexte.
- Groß-/Klein-Schreibung wird nicht differenziert: AMSTERDAM und amsterdam werden gefunden (das ist gut).
- Verlängerte Begriffe wie Amsterdamer werden auch gefunden (das ist gut).
- Falsch geschriebene Begriffe wie Amterdam (ohne s) werden nicht gefunden (wäre eine schöne Erweiterung). Das würde aber die Performance der Suche sicher belasten.
2. Ich konnte aber nicht erkennen, wie bei diesem Beispiel die Relevanz ermitteilt wird.
Weiterhin Suche nach Amsterdam, sortiert nach Relevanz absteigend.
- Möglicherweise spielt es eine Rolle, ob der Suchbegriff im Titel und im Text gefunden wird.
- Möglicherweise wird auch berücksichtigt, ob der Suchbegriff im Themen-Titel und im Beitrags-Titel existiert.
- Wenn der Suchbegriff sowohl im Titel und im Text gefunden wird, wird eine Relevanz von 100% angezeigt
- Wenn der Suchbegriff nur im Titel gefunden wird, wird eine Relevanz von 68% bzw. 64% angezeigt.
- Auf der zweiten Ergebnis-Seite springt die Relevanz aber wieder auf 100%, obwohl der Suchbegriff nur im Titel gefunden wird. Das sieht nach einem Fehler aus.
3. Wie wirkt sich die Sortierung der Ergebnisse aus?
Man kann in den Suchoptionen links die Ergebnisse sortieren nach Datum und Relevanz, jeweils auf- und absteigend.
Das Sortieren nach der angezeigten Relevanz scheint nicht richtig zu funktionieren.
Wir bleiben bei der Suche nach Amsterdam, Sortierung nach Relevanz aufsteigend.
Nun werden nur Relevanzwerte von 100% angezeigt, obwohl wir oben auch Werte von 64% oder 68% fanden. Das sieht auch nach einem Fehler aus.
4. Weitere Testfälle mit zwei oder mehr Begriffen
- Die Suche nach zwei Begriffen (z.B. Amsterdam UND 1893) scheint zu funktionieren.
- Bislang findet die Suche aber nicht Begriffe, die in Text oder Titel UND im Benutzernamen existieren. - - Beispiel Amsterdam UND Benutzername kablech wird nicht gefunden.
- - Bespiel Amsterdam UND realer Vorname Karl (zum Benutzername kablech) wird gefunden
- Die Suche ist nur erfolgreich, wenn der Benutzername auch als Signatur oder als Zitat im Text auftaucht.
Es wäre eine hilfreiche Erweiterung, wenn die Suche auch den Benutzernamen einschließen könnte.
Wir hatten schon mehrfach den Fall, dass wir uns an einem Beitrag erinnern konnten, der vom Benutzer XYZ geschrieben wurde. Wir konnten den Beitrag aber nicht mit der Suche finden, weil der Benutzer nur seinen Vornamen in der Autosignatur eingetragen hattte oder gar keine Autosignatur bzw. gar keinen Namen schrieb.
Die Berechnung der Relevanz funktioniert wohl ähnlich wie die Sortierung nach "besten" Treffern auf ebay oder Amazon. Was genau heisst da "bester" Treffer? Das ist sehr schwammig und deutet in der Regel auf eine sog. Heuristik hin, die verschiedenste Faktoren bei der Suche irgendwie gewichtet. Von dieser Heuristik will man meistens gar nicht so genau wissen, wie sie funktioniert bzw. was die konkreten Faktoren sind - was man eher möchte, ist eine bessere Kontrolle der Heuristik, d.h. dass man die Bewertung der Relevanz besser in die gewünschte Richtung steuern kann - z.B. durch Suchoptionen wie:
* Begriff kommt in Titel vor ja/nein * Begriff kommt im Gruppentitel vor ja/nein * Begriff kommt im Text vor ja/nein * Einschränkung auf Benutzernamen * Einschränkung auf Zeitraum * Einschränkung auf neueste Themen als relevanteste * usw.
Es gibt ja gar keine einzige Suchoption und entsprechend mau ist manchmal die Trefferquote bzw. die Relevanz. Mir scheint auch, dass die Such-Seite noch irgendwie unfertig aussieht. Kann es sein, dass das nur ein vorgefertigtes Standardtemplate ist, dass noch angepasst werden müsste? Mir kommt der dort angezeigte Text "Template-Rechteeinstellungen" jedenfalls komisch vor. Die Seite hört auch mitten im Text auf: "Findet alle Inhalte mit Beitrag aber auch z.B.". Da ist noch irgendetwas unfertig an der Suchseite.
zu 4.: nach meinen Tests hat die Signatur keine Auswirkung auf das Suchergebnis.
Für die Suche nach Inhalten / Beiträgen eines bestimmten Benutzers wie in Deinem Beispiel von kablech bietet sich eigentlich die Suche über das Benutzerprofil eines Users (dort dann "Mehr / Beiträge von ... suchen") an. Dort kann zwar nach diversen Kriterien gefiltert und sortiert werden - aber leider nicht nach einem Suchbegriff!
der Blick in der Benutzerprofil hilft auch nur begrenzt, weil dort maximal ca. 20 Beiträge angezeigt werden. Bei unseren Vielschreibern sind dort nur die letzten Tage enthalten.
Edit: Der Hinweis von Martin ist gut: Man muss rechts im Profil auf "Mehr" klicken, dann auf Beiträge von "Benutzername" klicken, und dann kommen tatsächlich alle Beiträge.
eine weitere eingeschränkte Möglichkeit bietet die Nutzung der bekannten Suchmaschinen wie z. B. Google mit der Einschränkung auf das Forum. Das geht z. B. bei Google mit der Eingabe von:
forumsuche site:maetrix.net
Man findet dann aber diesen Thread hier bspw. nicht (obwohl der Suchbegriff ja passen würde), da er nicht ohne Login sichtbar ist.
Geht also nur bei öffentlichem Inhalt, der ohne vorheriges Login aufrufbar ist.
die Gesamtliste welche dann zuerst erscheint ist aber begrenzt, bei dir werden 399 Seiten angezeigt, aber nach Seite 50 kommt nichts mehr. In den einzelnen Rubriken sind die älteren Beiträge aber zu finden.
Allerdings verstehe ich nicht die Gesamtanzahl der Beiträge, bei dir z.B:
Gesamt 7961 Forum 5810 Sonstiges 1891 Diese werden aber nicht angezeigt.
Bei mir ist es ähnlich.
Hat das eventuell mit dem damaligen Umzug des Forums zu tun ?
gestern hat der Entwickler von Xobor auf die Anfrage geantwortet.
Er schaut sich die merkwürdigen Relevanzwerte an und versucht, dies zu korrigieren. Dieses Thema hat natürlich keine hohe Priorität, da gibt es deutlich wichtigere Themen, bei denen die Funktionsweise von Kernfunktionen sichergestellt werden muss.
Der Entwickler hat uns auch geschrieben, wie die Berechnung der Relevanzwerte erfolgt. Dazu greift die Foren-Software auf verfügbare Bibliotheken / Funktionsmodule zurück. Möglicherweise passiert beim Datenaustausch mit diesen Bibliotheken etwas ungewolltes.
Achtung: die folgenden Zeilen sind jetzt nur für Leute mit IT-Affinität und auch nur in Englisch verfügbar:
"Dazu kann ich auch nur aus der Dokumentation unserer Suche zitieren - wir verwenden dort die Standard-Einstellung, das ist eine Kombination aus BM25 und LCS."
Sphinx ships with a number of built-in rankers suited for different purposes. A number of them uses two factors, phrase proximity (aka LCS) and BM25. Phrase proximity works on the keyword positions, while BM25 works on the keyword frequencies. Basically, the better the degree of the phrase match between the document body and the query, the higher is the phrase proximity (it maxes out when the document contains the entire query as a verbatim quote). And BM25 is higher when the document contains more rare words. We'll save the detailed discussion for later.
heute schrieb der XOBOR-Entwickler, dass ein kleines Update der Foren-Suche eingespielt wurde. Die angezeigten Relevanzwerte sollten jetzt deutlich sinnvoller sein.
Soweit ich es beim Testen feststellen konnte, funktioniert die Sortierung nach dem Relevanzwert jetzt auch auf Folgeseiten, d.h. die Relevanzwerte steigen nun ab oder auf, je nach der Einstellung in den Sortier-Kriterien. Als Standard-Sortierung ist eingestellt "Datum (absteigend)". Das erscheint sinnvoll. Das Umschalten der Sortier-Option funktioniert nun auch.
Bei der Ermittlung der Relevanzwerte konnte ich keine Veränderung feststellen, d.h. die Suche läuft weiterhin nur über dem Beitragstitel und den Beitragstext. Die Signatur und der Benutzername wird nicht einbezogen. Oder habe ich dazu noch etwas übersehen ?
Testet doch bitte auch, ob euch noch etwas auffällt.