Wissensbasis
Wer eine Frage stellt, braucht einen Ort, an dem die Antwort liegt. Eine Wissensbasis ist dieser Ort: eine Sammlung von Informationen, die so organisiert ist, dass ein System, ein Modell oder ein Mensch gezielt darauf zugreifen kann. Die Bandbreite reicht von einer simplen FAQ-Datenbank bis zu einem verteilten Dokumentenarchiv mit Millionen von Einträgen.
Was eine Wissensbasis leistet
Eine Wissensbasis trennt das Wissen von der Logik, die es nutzt. Ein System, das Fragen beantwortet, muss nicht alles selbst wissen. Es reicht, wenn es weiß, wo es nachschlagen kann. Dieses Prinzip gilt für Expertensysteme aus den 1980er-Jahren genauso wie für moderne RAG-Architekturen.
Beispiel: Ein Kundensupport-System speichert 2.000 Produktdokumentationen in einer Wissensbasis. Bei einer Anfrage durchsucht es nicht das gesamte Archiv sequenziell, sondern identifiziert die drei relevantesten Dokumente und generiert daraus eine Antwort.
Beispiel: Ein internes Wiki eines Unternehmens enthält Prozessbeschreibungen, Organigramme und Richtlinien. Ein Sprachmodell greift bei Mitarbeiterfragen auf diese Wissensbasis zu, statt aus seinem Trainingsstand zu antworten.
Der entscheidende Unterschied zu einer beliebigen Datensammlung: Eine Wissensbasis ist für den Abruf optimiert. Die Inhalte sind indexiert, klassifiziert oder in Vektoren überführt, damit Suchanfragen schnell zu präzisen Ergebnissen führen.
Strukturierte und unstrukturierte Wissensbestände
Wissensbestände lassen sich grob in zwei Kategorien einteilen:
Strukturierte Wissensbasis: Daten liegen in definierten Schemata vor. Relationale Datenbanken, Ontologien oder Knowledge Graphs gehören dazu. Abfragen erfolgen über formale Sprachen wie SQL oder SPARQL. Die Stärke liegt in der Präzision: Wer die richtige Frage stellt, bekommt eine exakte Antwort.
Beispiel: Eine medizinische Wissensbasis speichert Wechselwirkungen zwischen 12.000 Wirkstoffen als Relationen in einem Knowledge Graph. Die Abfrage "Welche Medikamente interagieren mit Metformin?" liefert eine vollständige, maschinenlesbare Liste.
Unstrukturierte Wissensbasis: Dokumente, E-Mails, Protokolle, Handbücher. Der Inhalt ist in natürlicher Sprache verfasst und nicht in Felder aufgeteilt. Die Suche erfordert andere Methoden: Volltextsuche, Embedding-basierte Retrieval-Verfahren oder hybride Ansätze.
Beispiel: Eine Anwaltskanzlei digitalisiert 40 Jahre Mandantenkorrespondenz. Die Briefe haben kein einheitliches Schema. Über Embedding-Vektoren wird jeder Brief in einen numerischen Raum überführt, sodass ähnliche Fälle per Vektornähe auffindbar werden.
In der Praxis existieren beide Formen häufig nebeneinander. Ein Produktkatalog (strukturiert) ergänzt ein Archiv aus Kundenbewertungen (unstrukturiert). Systeme, die beide Quellen abfragen können, liefern vollständigere Antworten.
Vom Dokument zum abrufbaren Wissen
Rohdokumente müssen aufbereitet werden, bevor sie Teil einer Wissensbasis werden. Dieser Prozess umfasst mehrere Schritte, die je nach Anwendungsfall variieren.
Im ersten Schritt wird das Dokument in handhabbare Einheiten zerlegt. Diesen Vorgang nennt man Chunking. Ein 200-seitiges Handbuch wird beispielsweise in Abschnitte von je 500 bis 1.000 Zeichen aufgeteilt. Die Größe der Chunks beeinflusst die Qualität der späteren Suche erheblich: Zu große Chunks verwischen den Kontext, zu kleine verlieren ihn.
Beispiel: Ein technisches Handbuch wird auf Absatzebene in Chunks zerlegt. Jeder Chunk erhält zusätzlich den Kapiteltitel als Metadatum, damit bei der Suche der übergeordnete Kontext erhalten bleibt.
Im zweiten Schritt wird jeder Chunk in einen Vektor umgewandelt. Ein Embedding-Modell wie sentence-transformers oder text-embedding-3 erzeugt für jeden Textabschnitt einen numerischen Vektor mit typischerweise 768 bis 3.072 Dimensionen. Texte mit ähnlicher Bedeutung liegen im Vektorraum nahe beieinander.
Im dritten Schritt werden die Vektoren in einem Index gespeichert. Spezialisierte Datenbanken wie FAISS, Pinecone oder Weaviate ermöglichen schnelle Nächste-Nachbar-Suchen über Millionen von Vektoren. Die Abfragezeit liegt typischerweise im einstelligen Millisekundenbereich.
Abruf: Wie eine Wissensbasis Fragen beantwortet
Der Abruf aus einer Wissensbasis folgt einem Grundmuster: Eine Anfrage wird in dieselbe Repräsentation überführt wie die gespeicherten Inhalte, und das System sucht die ähnlichsten Treffer.
Bei einer vektorbasierten Wissensbasis bedeutet das: Die Frage wird durch dasselbe Embedding-Modell geschickt, das auch die Dokumente verarbeitet hat. Der resultierende Vektor wird mit allen gespeicherten Vektoren verglichen. Die k nächsten Nachbarn (typischerweise k = 3 bis 10) werden als relevante Kontexte zurückgegeben.
Beispiel: Ein Nutzer fragt: "Wie setze ich das Passwort zurück?" Das Embedding-Modell erzeugt einen Vektor für diese Frage. Die Vektordatenbank findet die drei nächsten Nachbarn: einen Abschnitt aus dem IT-Handbuch, einen FAQ-Eintrag und eine Schritt-für-Schritt-Anleitung. Alle drei werden als Kontext an das Sprachmodell übergeben.
Hybride Retrieval-Verfahren kombinieren Vektorsuche mit klassischer Schlüsselwortsuche (BM25). Die Vektorsuche findet semantisch verwandte Inhalte, auch wenn die Wortwahl abweicht. Die Schlüsselwortsuche findet exakte Begriffe, die beim Embedding verloren gehen können, etwa Produktnummern oder Eigennamen.
Beispiel: Die Frage "Fehlermeldung E-4712" wird per Schlüsselwortsuche exakt gefunden. Die Frage "Das Gerät startet nicht mehr" wird per Vektorsuche semantisch dem Abschnitt "Fehlerbehebung bei Boot-Problemen" zugeordnet.
Wissensbasis in RAG-Systemen
Retrieval-Augmented Generation verbindet eine Wissensbasis mit einem generativen Sprachmodell. Statt sich ausschließlich auf das während des Trainings kodierte Wissen zu verlassen, erhält das Modell bei jeder Anfrage zusätzliche Kontextdokumente aus der Wissensbasis.
Das Verfahren adressiert ein zentrales Problem großer Sprachmodelle: Ihr Wissen ist auf den Trainingsstand fixiert. Eine Wissensbasis kann täglich aktualisiert werden, das Modelltraining nicht. RAG ermöglicht es, aktuelle, unternehmensspezifische oder vertrauliche Informationen einzubeziehen, ohne das Modell neu trainieren zu müssen.
Beispiel: Ein Versicherungsunternehmen aktualisiert seine Tarifbedingungen quartalsweise. Die neuen Dokumente werden in die Wissensbasis aufgenommen. Das Sprachmodell beantwortet Kundenanfragen auf Basis der aktuellen Tarife, obwohl sein Trainingsstand 18 Monate alt ist.
Die Qualität eines RAG-Systems hängt direkt von der Qualität der Wissensbasis ab. Verrauschte, redundante oder widersprüchliche Dokumente führen zu verrauschten, redundanten oder widersprüchlichen Antworten. Die Aufbereitung der Wissensbasis ist daher mindestens so wichtig wie die Wahl des Sprachmodells.
Fachliche Einordnung: RAG hat sich seit 2023 als Standardarchitektur für wissensgestützte KI-Anwendungen etabliert. Die Forschung konzentriert sich aktuell auf Multi-Step-Retrieval (iteratives Nachfragen bei komplexen Fragen), Self-RAG (das Modell entscheidet, ob es Retrieval braucht) und Agentic RAG (autonome Agenten steuern den Retrieval-Prozess). Die Grundidee bleibt: Externes Wissen zur Laufzeit bereitstellen statt alles ins Modell zu packen.
Qualität einer Wissensbasis bewerten
Die Qualität einer Wissensbasis lässt sich nicht an ihrer Größe ablesen. Entscheidend sind Relevanz, Aktualität, Konsistenz und Abrufbarkeit der enthaltenen Informationen.
Relevanz: Enthält die Wissensbasis die Informationen, die tatsächlich abgefragt werden? Eine Wissensbasis mit 100.000 Dokumenten, von denen 80 % veraltet sind, ist weniger nützlich als eine mit 5.000 aktuellen, kuratierten Einträgen.
Beispiel: Ein E-Commerce-Unternehmen pflegt eine Wissensbasis mit Produktbeschreibungen. Nach einer Sortimentsbereinigung werden 30 % der Einträge entfernt. Die Antwortqualität des Support-Chatbots steigt, weil das Retrieval-System weniger irrelevante Treffer zurückmischt.
Konsistenz: Widersprechen sich Einträge? Wenn ein Dokument von 2023 etwas anderes aussagt als eines von 2025, muss die Wissensbasis einen Mechanismus zur Versionierung oder Priorisierung bieten. Ohne diesen Mechanismus hängt die Antwortqualität davon ab, welches Dokument zufällig im Retrieval auftaucht.
Abrufbarkeit: Findet das Retrieval-System die richtige Information? Die beste Wissensbasis nützt nichts, wenn die Suchanfragen systematisch an den relevanten Dokumenten vorbeigehen. Metriken wie Precision@k und Recall@k messen, wie zuverlässig die Top-k-Ergebnisse die tatsächlich relevanten Dokumente enthalten.
Pflege und Lebenszyklus
Eine Wissensbasis ist kein statisches Artefakt. Sie verändert sich mit dem Wissen, das sie abbildet. Die Pflege umfasst drei wiederkehrende Aufgaben: Aktualisierung, Bereinigung und Überprüfung.
Aktualisierung: Neue Dokumente müssen aufgenommen, veraltete ersetzt werden. Bei einer vektorbasierten Wissensbasis bedeutet das: neue Chunks erzeugen, Embeddings berechnen, Vektoren indexieren. Automatisierte Pipelines, die Änderungen in Quelldokumenten erkennen und die Wissensbasis aktualisieren, reduzieren den manuellen Aufwand.
Beispiel: Ein Softwareunternehmen verknüpft seine Wissensbasis mit dem Git-Repository der Dokumentation. Bei jedem Merge in den Hauptbranch werden geänderte Dateien automatisch neu in Chunks zerlegt, eingebettet und indexiert.
Bereinigung: Dokumente, die nicht mehr gültig sind, müssen entfernt oder archiviert werden. Verwaiste Einträge (Dokumente ohne Abrufe über einen definierten Zeitraum) sind Kandidaten für eine Überprüfung.
Beispiel: Eine Wissensbasis für den technischen Support protokolliert, welche Chunks in den letzten 90 Tagen abgerufen wurden. 12 % der Einträge hatten null Abrufe. Eine manuelle Prüfung ergibt, dass 8 % davon obsolet sind und entfernt werden können.
Grenzen und typische Fehlerquellen
Eine Wissensbasis löst nicht jedes Problem. Es gibt systematische Grenzen, die bei der Planung und im Betrieb berücksichtigt werden müssen.
Wissenslücken: Eine Wissensbasis kann nur enthalten, was eingespeist wurde. Wenn ein relevantes Thema fehlt, liefert das System entweder keine Antwort oder eine falsche. Regelmäßige Gap-Analysen (Vergleich der häufigsten Anfragen mit den verfügbaren Inhalten) helfen, Lücken zu identifizieren.
Beispiel: Ein Chatbot für ein Telekommunikationsunternehmen kann Fragen zum Festnetz beantworten, scheitert aber an Mobilfunk-Fragen, weil die entsprechenden Dokumente nie in die Wissensbasis aufgenommen wurden.
Qualitätsdrift: Über die Zeit verändern sich Fakten. Ohne systematische Aktualisierung enthält die Wissensbasis nach zwei Jahren einen signifikanten Anteil veralteter Informationen. Das ist besonders kritisch in Bereichen mit hoher Änderungsfrequenz: Recht, Medizin, Technologie.
Retrieval-Fehler: Selbst bei guter Wissensbasis kann das Retrieval-System die falsche Information liefern. Mehrdeutige Begriffe, fehlende Synonyme im Embedding-Modell oder zu grobe Chunk-Grenzen führen dazu, dass relevante Dokumente nicht gefunden oder irrelevante bevorzugt werden.
Beispiel: Die Anfrage "Apple Probleme" liefert aus einer heterogenen Wissensbasis Dokumente über den Obsthandel statt über die Marke Apple, weil das Embedding-Modell den Kontext nicht zuverlässig unterscheidet.
Fachliche Einordnung: Die Forschung arbeitet an mehreren Fronten an diesen Grenzen. Kontextuelle Embeddings (die den Kontext der Anfrage berücksichtigen), hierarchisches Chunking (das Dokumentstrukturen respektiert) und aktive Wissensbasis-Wartung (automatische Erkennung veralteter Inhalte) sind aktuelle Forschungsthemen. Eine perfekte Wissensbasis existiert nicht. Der praktische Ansatz ist iterative Verbesserung auf Basis gemessener Retrieval-Qualität.