Retrieval
Retrieval ist das Finden relevanter Dokumente aus einer Wissensbasis.
Retrieval (Information Retrieval) bezeichnet das Finden relevanter Dokumente oder Textpassagen aus einer größeren Sammlung auf Basis einer Suchanfrage. Im Kontext von Machine Learning und RAG-Systemen ist damit meist die semantische Suche in einer Wissensbasis gemeint.
Klassisches Retrieval basiert auf Keyword-Matching - Verfahren wie TF-IDF oder BM25 bewerten Dokumente danach, wie gut ihre Begriffe zur Suchanfrage passen. Semantisches Retrieval geht einen Schritt weiter: Texte werden als Vektoren in einem hochdimensionalen Raum dargestellt (Embeddings), sodass auch inhaltlich verwandte Dokumente gefunden werden, die keine gemeinsamen Schlüsselwörter haben.
Moderne Retrieval-Systeme kombinieren häufig beide Ansätze. Hybrid Search nutzt Keyword- und semantische Suche parallel und fusioniert die Ergebnisse. Ein nachgeschalteter Reranker - oft selbst ein neuronales Netz - sortiert die Ergebnisse nach Relevanz um. Diese mehrstufige Pipeline verbessert die Treffergenauigkeit deutlich.
Die Qualität des Retrievals ist für nachgelagerte Anwendungen entscheidend. In RAG-Systemen bestimmt sie, ob das Sprachmodell die richtigen Informationen erhält. Relevante Metriken sind Precision (Anteil relevanter Ergebnisse), Recall (Anteil gefundener relevanter Dokumente) und MRR (Mean Reciprocal Rank).