Embeddings und Vektoren
Embeddings sind das mathematische Fundament, das es KI ermöglicht, Bedeutung zu verstehen und ähnliche Inhalte zu finden. Diese Seite erklärt, wie Embeddings funktionieren und warum sie für Funktionen wie RAG und semantische Suche wichtig sind.
Was sind Embeddings?
Abschnitt betitelt „Was sind Embeddings?“Ein Embedding ist eine Art, Text (oder andere Daten) als Liste von Zahlen darzustellen, die als Vektor bezeichnet wird. Diese Zahlen erfassen die Bedeutung des Textes in einer Form, die Computer verarbeiten und vergleichen können.
flowchart LR
A["📝 Text<br/>'Die Genehmigung<br/>wurde erteilt'"] --> B["🧠 Embedding<br/>Modell"]
B --> C["📊 Vektor<br/>[0.23, -0.45, 0.12, ...]<br/><i>768 Dimensionen</i>"]
style A fill:#8178C3,color:#fff
style B fill:#A49FCE,color:#fff
style C fill:#7E9871,color:#fff
Warum Zahlen?
Abschnitt betitelt „Warum Zahlen?“Computer sind hervorragend im Vergleichen von Zahlen, haben aber Schwierigkeiten, Bedeutung direkt zu vergleichen. Embeddings überbrücken diese Lücke:
| Textvergleich | Numerischer Vergleich |
|---|---|
| ”Auto” vs “Fahrzeug” - Gleiche Bedeutung? | Vektoren sind sehr nah |
| ”Bank” (Finanz) vs “Bank” (Sitzgelegenheit) | Vektoren sind weit auseinander |
| ”Antrag abgelehnt” vs “Gesuch zurückgewiesen” | Vektoren sind ähnlich |
Der Vektorraum
Abschnitt betitelt „Der Vektorraum“Stellen Sie sich Embeddings als Koordinaten in einem hochdimensionalen Raum vor. Texte mit ähnlichen Bedeutungen landen nahe beieinander in diesem Raum.
"Genehmigungsantrag" • / "Baugenehmigung" • / \/ /\ / • "Bauzulassung" / / "Wettervorhersage" • (weit weg - unverwandtes Thema)flowchart TB
subgraph CLUSTER1["🏛️ Genehmigungen"]
A["Baugenehmigung"]
B["Genehmigungsantrag"]
C["Bauzulassung"]
end
subgraph CLUSTER2["🌤️ Wetter"]
D["Wettervorhersage"]
E["Temperatur"]
end
A <--> B
B <--> C
A <--> C
D <--> E
style CLUSTER1 fill:#D4E5CF,stroke:#7E9871
style CLUSTER2 fill:#F5DDD2,stroke:#D56B3E
style A fill:#A5C49A
style B fill:#A5C49A
style C fill:#A5C49A
style D fill:#E69B7A
style E fill:#E69B7A
Ähnliche Begriffe befinden sich nahe beieinander im Vektorraum
Wie Embeddings erstellt werden
Abschnitt betitelt „Wie Embeddings erstellt werden“Embedding-Modelle sind KI-Modelle, die speziell trainiert wurden, um Text in bedeutungsvolle Vektoren umzuwandeln:
Der Prozess
Abschnitt betitelt „Der Prozess“- Eingabetext: Beliebiger Text, von einem einzelnen Wort bis zu einem ganzen Dokument
- Modellverarbeitung: Das Embedding-Modell analysiert den Text
- Vektorausgabe: Eine Liste von Zahlen fester Länge (z.B. 768 oder 1536 Dimensionen)
"Baugenehmigung erforderlich" ↓[Embedding-Modell] ↓[0.234, -0.567, 0.891, ..., 0.123] (768 Zahlen)Was die Zahlen darstellen
Abschnitt betitelt „Was die Zahlen darstellen“Jede Dimension im Vektor erfasst einen Aspekt der Bedeutung:
- Einige Dimensionen könnten sich auf das Thema beziehen (rechtlich, technisch, umgangssprachlich)
- Andere könnten die Stimmung erfassen (positiv, negativ)
- Wieder andere könnten die Domäne kodieren (medizinisch, rechtlich, administrativ)
Keine einzelne Dimension hat eine klare, menschlich interpretierbare Bedeutung. Die Bedeutung ergibt sich aus der Kombination aller Dimensionen.
Semantische Ähnlichkeit
Abschnitt betitelt „Semantische Ähnlichkeit“Die Stärke von Embeddings liegt im Vergleichen. Ähnliche Texte produzieren ähnliche Vektoren.
Ähnlichkeit messen
Abschnitt betitelt „Ähnlichkeit messen“Das gebräuchlichste Maß ist die Kosinus-Ähnlichkeit, die berechnet, wie sehr zwei Vektoren in dieselbe Richtung zeigen:
| Ähnlichkeitswert | Interpretation |
|---|---|
| 0,95 - 1,0 | Nahezu identische Bedeutung |
| 0,80 - 0,95 | Sehr ähnlich, verwandt |
| 0,60 - 0,80 | Etwas verwandt |
| 0,40 - 0,60 | Lose verwandt |
| Unter 0,40 | Verschiedene Themen |
Beispielvergleiche
Abschnitt betitelt „Beispielvergleiche“Anfrage: "Wie beantrage ich eine Baugenehmigung?"
Dokument A: "Verfahren für Baugenehmigungsanträge"Ähnlichkeit: 0,92 ✓ Sehr relevant
Dokument B: "Anforderungen für Bauzulassungen"Ähnlichkeit: 0,78 ✓ Verwandt
Dokument C: "Öffnungszeiten des Parks"Ähnlichkeit: 0,23 ✗ Nicht relevantflowchart LR
Q["🔍 Anfrage<br/>'Baugenehmigung<br/>beantragen'"]
Q --> |"0.92 ✓"| A["📄 Dok A<br/>Baugenehmigungsverfahren"]
Q --> |"0.78 ✓"| B["📄 Dok B<br/>Bauzulassungsanforderungen"]
Q --> |"0.23 ✗"| C["📄 Dok C<br/>Öffnungszeiten Park"]
style Q fill:#8178C3,color:#fff
style A fill:#7E9871,color:#fff
style B fill:#A5C49A,color:#000
style C fill:#E69B7A,color:#000
Embeddings in RAG
Abschnitt betitelt „Embeddings in RAG“Embeddings sind die Kerntechnologie, die RAG funktionieren lässt:
Indexierungsphase
Abschnitt betitelt „Indexierungsphase“Wenn Dokumente zu einem RAG-System hinzugefügt werden:
- Dokumente werden in Chunks aufgeteilt
- Jeder Chunk wird mit einem Embedding-Modell in einen Vektor umgewandelt
- Vektoren werden in einer Vektordatenbank mit Verweisen auf den Originaltext gespeichert
Abfragephase
Abschnitt betitelt „Abfragephase“Wenn Sie eine Frage stellen:
- Ihre Frage wird mit demselben Modell in einen Vektor umgewandelt
- Die Vektordatenbank findet Chunks mit den ähnlichsten Vektoren
- Diese Chunks werden abgerufen und der KI bereitgestellt
Semantische Suche vs. Stichwortsuche
Abschnitt betitelt „Semantische Suche vs. Stichwortsuche“Embeddings ermöglichen semantische Suche, die Inhalte nach Bedeutung findet, nicht nach exakten Wörtern:
Stichwortsuche
Abschnitt betitelt „Stichwortsuche“Suche: "Baugenehmigung"
✓ "Baugenehmigungsantragsformular"✓ "Baugenehmigungsanforderungen"✗ "Bauzulassungsrichtlinien" (andere Wörter)✗ "Wie bekomme ich die Erlaubnis für Renovierungen" (keine exakte Übereinstimmung)Semantische Suche
Abschnitt betitelt „Semantische Suche“Suche: "Baugenehmigung"
✓ "Baugenehmigungsantragsformular" (0,95)✓ "Baugenehmigungsanforderungen" (0,93)✓ "Bauzulassungsrichtlinien" (0,82)✓ "Wie bekomme ich die Erlaubnis für Renovierungen" (0,76)| Merkmal | Stichwortsuche | Semantische Suche |
|---|---|---|
| Treffer | Exakte Wörter | Ähnliche Bedeutungen |
| Synonyme | Verpasst sie | Findet sie |
| Tippfehler | Probleme | Toleranter |
| Kontext | Ignoriert ihn | Berücksichtigt ihn |
| Geschwindigkeit | Sehr schnell | Schnell |
Praktische Überlegungen
Abschnitt betitelt „Praktische Überlegungen“Auswahl des Embedding-Modells
Abschnitt betitelt „Auswahl des Embedding-Modells“Verschiedene Embedding-Modelle haben unterschiedliche Stärken:
| Modelltyp | Stärken | Überlegungen |
|---|---|---|
| Allzweck | Breite Abdeckung | Kann Domänenspezifika übersehen |
| Mehrsprachig | Deutsch + Englisch | Etwas geringere Präzision |
| Domänenspezifisch | Spezialisiertes Vokabular | Auf diese Domäne beschränkt |
Sprachüberlegungen
Abschnitt betitelt „Sprachüberlegungen“Für die deutsche öffentliche Verwaltung:
- Moderne Embedding-Modelle verarbeiten Deutsch gut
- Zusammengesetzte Wörter werden im Allgemeinen verstanden
- Technische/rechtliche Terminologie kann domänenspezifische Modelle erfordern
- Mehrsprachige Modelle können in deutschen und englischen Dokumenten suchen
Auswirkung der Chunk-Größe
Abschnitt betitelt „Auswirkung der Chunk-Größe“Wie Dokumente aufgeteilt werden, beeinflusst die Embedding-Qualität:
Kleinere Chunks (100-300 Wörter):
- Präziserer Abruf
- Kann Kontext verlieren
- Besser für spezifische Fakten
Größere Chunks (500-1000 Wörter):
- Mehr Kontext erhalten
- Kann irrelevante Inhalte einschließen
- Besser für komplexe Themen
Einschränkungen verstehen
Abschnitt betitelt „Einschränkungen verstehen“Was Embeddings nicht können
Abschnitt betitelt „Was Embeddings nicht können“Exakte Übereinstimmung: Embeddings können exakte Begriffe übersehen, die eine Stichwortsuche finden würde
Negation: “Nicht genehmigt” und “genehmigt” können ähnliche Embeddings haben
Aktuelles Wissen: Embeddings wissen nur, was in den Trainingsdaten des Modells war
Logisches Schlussfolgern: Embeddings repräsentieren Bedeutung, keine logischen Beziehungen
Qualitätsfaktoren
Abschnitt betitelt „Qualitätsfaktoren“Embedding-Qualität hängt ab von:
- Modellqualität: Bessere Modelle produzieren bessere Embeddings
- Textqualität: Klarer, gut geschriebener Text wird besser eingebettet
- Trainingsdaten: Modelle, die auf ähnlichen Inhalten trainiert wurden, funktionieren besser
Wichtige Erkenntnisse
Abschnitt betitelt „Wichtige Erkenntnisse“- Embeddings wandeln Text in numerische Vektoren um, die Bedeutung erfassen
- Ähnliche Bedeutungen produzieren ähnliche Vektoren und ermöglichen semantischen Vergleich
- Embeddings treiben RAG an, indem sie relevante Inhalte basierend auf Bedeutung finden
- Semantische Suche findet verwandte Inhalte auch ohne exakte Wortübereinstimmung
- Sprache und Domäne beeinflussen die Embedding-Qualität
- Das Verständnis von Embeddings hilft Ihnen, RAG- und Suchfunktionen zu optimieren