Routen
Routen definieren, wie Anfragen von Admin Bud-E an die konfigurierten Provider weitergeleitet werden. Sie können Prioritätsketten pro Typ (LLM, VLM, TTS, ASR) festlegen. Bei Fehlern (429/5xx) wechselt Admin Bud-E automatisch zum nächsten Provider in der Kette (Failover).
Was sind Routen?
Routen bestimmen:
- Welcher Provider für welchen Request-Typ verwendet wird
- In welcher Reihenfolge Provider ausprobiert werden (Priorität)
- Was bei Fehlern passiert (automatisches Failover)
Request-Typen
Admin Bud-E unterscheidet vier Request-Typen:
| Typ | Beschreibung | Beispiele |
|---|---|---|
| LLM | Large Language Models (nur Text) | Chat, Zusammenfassungen, Fragen beantworten |
| VLM | Vision-Language Models (Bild + Text) | Bilderkennung, Bildanalyse, OCR |
| TTS | Text-to-Speech (Text → Audio) | Vorlesefunktion, Audio-Antworten |
| ASR | Automatic Speech Recognition (Audio → Text) | Spracheingabe, Transkription |
Routen konfigurieren
- Öffnen Sie das Admin-Dashboard
- Navigieren Sie zu Routes
- Wählen Sie einen Request-Typ
- Definieren Sie die Prioritätskette
Prioritäten festlegen
Die Priorität bestimmt die Reihenfolge, in der Provider ausprobiert werden:
- Priority 1: Erster Versuch (bevorzugter Provider)
- Priority 2: Zweiter Versuch (Fallback)
- Priority 3: Dritter Versuch (zusätzlicher Fallback)
- usw.
Best Practice
Setzen Sie den zuverlässigsten und leistungsstärksten Provider auf Priority 1.
Beispiel-Konfigurationen
LLM-Route (Text-Modelle)
Szenario: Haupt-Provider ist Vertex AI, Fallback auf Together AI
Priority 1: vertex (gemini-1.5-pro)
Priority 2: together (meta-llama-3.1-70b)
Priority 3: mistral (mistral-large-latest)Ablauf:
- Anfrage geht zuerst an Vertex AI
- Bei Fehler (z.B. 429 Rate Limit) → Together AI
- Bei erneutem Fehler → Mistral AI
- Wenn alle fehlschlagen → Fehler an Client
VLM-Route (Vision-Modelle)
Szenario: Nur Vertex AI bietet VLM-Fähigkeiten
Priority 1: vertex (gemini-1.5-flash)Modellauswahl
Flash-Modelle sind schneller und günstiger für Bildanalysen.
TTS-Route (Sprachausgabe)
Szenario: Vertex AI für deutsche Stimmen
Priority 1: vertex (de-DE-Neural2-C)
Priority 2: vertex (de-DE-Neural2-B)Stimmen-Optionen:
Neural2-C: Weibliche StimmeNeural2-B: Männliche StimmeNeural2-D: Weitere weibliche Stimme
ASR-Route (Spracherkennung)
Szenario: Chirp-Modell von Vertex AI
Priority 1: vertex (chirp)Failover-Strategie
Automatisches Failover
Admin Bud-E wechselt automatisch zum nächsten Provider bei:
- HTTP 429: Rate Limit erreicht
- HTTP 500-599: Server-Fehler
- Timeout: Anfrage dauert zu lange
- Netzwerkfehler: Verbindung fehlgeschlagen
Keine Failover bei
- HTTP 400: Ungültige Anfrage (Client-Fehler)
- HTTP 401/403: Authentifizierungsfehler
- HTTP 404: Endpunkt nicht gefunden
Failover-Timing
Anfrage → Provider 1 (max 30s)
↓ Fehler
Failover → Provider 2 (max 30s)
↓ Fehler
Failover → Provider 3 (max 30s)
↓ Fehler
Rückgabe: Fehler an ClientErweiterte Konfiguration
Modell-spezifisches Routing
Sie können verschiedene Modelle desselben Providers in der Kette verwenden:
Priority 1: vertex (gemini-1.5-pro)
Priority 2: vertex (gemini-1.5-flash)Vorteil: Bei Rate Limits auf Pro-Modell wechseln Sie zu Flash (günstigerer Alternative).
Provider-Diversifizierung
Nutzen Sie verschiedene Provider für Ausfallsicherheit:
Priority 1: vertex (gemini-1.5-flash)
Priority 2: together (meta-llama-3.1-70b)
Priority 3: anthropic (claude-3-haiku)Vorteil: Unabhängigkeit von einem einzelnen Anbieter.
Kosten-optimiertes Routing
Ordnen Sie Provider nach Kosten:
Priority 1: together (llama-3.1-8b) # Günstig
Priority 2: mistral (mistral-small) # Mittel
Priority 3: vertex (gemini-1.5-pro) # PremiumNachteil: Qualitätsunterschiede zwischen Modellen.
Routing-Muster
Muster 1: Hochverfügbarkeit
Ziel: Maximale Verfügbarkeit, Kosten zweitrangig
LLM:
Priority 1: vertex (gemini-1.5-pro)
Priority 2: anthropic (claude-3-sonnet)
Priority 3: openai (gpt-4)
VLM:
Priority 1: vertex (gemini-1.5-flash)
Priority 2: anthropic (claude-3-sonnet)
TTS:
Priority 1: vertex (de-DE-Neural2-C)
Priority 2: openai (tts-1)
ASR:
Priority 1: vertex (chirp)
Priority 2: openai (whisper-1)Muster 2: Kostenoptimiert
Ziel: Minimale Kosten, akzeptable Qualität
LLM:
Priority 1: together (llama-3.1-8b)
Priority 2: mistral (mistral-small)
Priority 3: vertex (gemini-1.5-flash)
VLM:
Priority 1: vertex (gemini-1.5-flash)
TTS:
Priority 1: vertex (de-DE-Standard-B)
ASR:
Priority 1: vertex (default)Muster 3: EU-Compliance
Ziel: Alle Daten in der EU verarbeiten
LLM:
Priority 1: vertex (gemini-1.5-pro, region: europe-west4)
Priority 2: mistral (mistral-large, region: eu-west-1)
VLM:
Priority 1: vertex (gemini-1.5-flash, region: europe-west4)
TTS:
Priority 1: vertex (de-DE-Neural2-C, region: europe-west4)
ASR:
Priority 1: vertex (chirp, region: europe-west4)Debugging
Route wird nicht verwendet
Problem: Trotz Konfiguration wird Route nicht genutzt.
Checkliste:
- ✅ Provider-Name in Route stimmt mit Provider-Config überein
- ✅ Provider ist aktiv und hat gültigen API-Key
- ✅ Modellname ist korrekt geschrieben
- ✅ Region (falls angegeben) ist verfügbar
Failover funktioniert nicht
Problem: Bei Fehler wird nicht zum nächsten Provider gewechselt.
Ursachen:
- Client-Fehler (400-499) lösen kein Failover aus
- Alle Provider in der Kette sind ausgefallen
- Timeout ist zu kurz eingestellt
Unerwartete Kosten
Problem: Kosten sind höher als erwartet.
Prüfen Sie:
- Werden teure Premium-Modelle als Priority 1 verwendet?
- Gibt es viele Failover auf teurere Alternativen?
- Sind Preise in Pricing korrekt hinterlegt?
Usage Reports nutzen
Unter Usage können Sie detailliert sehen, welcher Provider/Modell verwendet wurde.
Best Practices
1. Mindestens zwei Provider pro Typ
Konfigurieren Sie immer mindestens einen Fallback:
Priority 1: vertex (primary)
Priority 2: together (fallback)2. Ähnliche Qualität in der Kette
Vermeiden Sie große Qualitätssprünge:
❌ Schlecht:
Priority 1: gpt-4 (hochwertig)
Priority 2: llama-3.1-8b (basic)
✅ Gut:
Priority 1: gpt-4 (hochwertig)
Priority 2: claude-3-sonnet (hochwertig)3. Region-Awareness
Bei EU-Compliance: Nur EU-Regionen in der Kette:
Priority 1: vertex (europe-west4)
Priority 2: mistral (eu-west-1)
# Kein: openai (us-east-1)4. Monitoring einrichten
Überwachen Sie:
- Failover-Rate (wie oft wird gewechselt?)
- Provider-Verfügbarkeit
- Durchschnittliche Response-Zeiten
- Kostenverteilung pro Provider
5. Regelmäßige Überprüfung
Prüfen Sie monatlich:
- Sind alle Provider noch aktuell?
- Gibt es neue, bessere Modelle?
- Haben sich Preise geändert?
- Funktioniert Failover wie erwartet?
Nächste Schritte
Nach der Routen-Konfiguration:
- Preise festlegen - Modellpreise hinterlegen
- Nutzer anlegen - Erste Nutzer erstellen
- Erste Anfrage testen - Routing überprüfen