Routen

Routen definieren, wie Anfragen von Admin Bud-E an die konfigurierten Provider weitergeleitet werden. Sie können Prioritätsketten pro Typ (LLM, VLM, TTS, ASR) festlegen. Bei Fehlern (429/5xx) wechselt Admin Bud-E automatisch zum nächsten Provider in der Kette (Failover).

Was sind Routen?

Routen bestimmen:

Welcher Provider für welchen Request-Typ verwendet wird
In welcher Reihenfolge Provider ausprobiert werden (Priorität)
Was bei Fehlern passiert (automatisches Failover)

Request-Typen

Admin Bud-E unterscheidet vier Request-Typen:

Typ	Beschreibung	Beispiele
LLM	Large Language Models (nur Text)	Chat, Zusammenfassungen, Fragen beantworten
VLM	Vision-Language Models (Bild + Text)	Bilderkennung, Bildanalyse, OCR
TTS	Text-to-Speech (Text → Audio)	Vorlesefunktion, Audio-Antworten
ASR	Automatic Speech Recognition (Audio → Text)	Spracheingabe, Transkription

Routen konfigurieren

Öffnen Sie das Admin-Dashboard
Navigieren Sie zu Routes
Wählen Sie einen Request-Typ
Definieren Sie die Prioritätskette

Prioritäten festlegen

Die Priorität bestimmt die Reihenfolge, in der Provider ausprobiert werden:

Priority 1: Erster Versuch (bevorzugter Provider)
Priority 2: Zweiter Versuch (Fallback)
Priority 3: Dritter Versuch (zusätzlicher Fallback)
usw.

Best Practice

Setzen Sie den zuverlässigsten und leistungsstärksten Provider auf Priority 1.

Beispiel-Konfigurationen

LLM-Route (Text-Modelle)

Szenario: Haupt-Provider ist Vertex AI, Fallback auf Together AI

Priority 1: vertex (gemini-1.5-pro)
Priority 2: together (meta-llama-3.1-70b)
Priority 3: mistral (mistral-large-latest)

Ablauf:

Anfrage geht zuerst an Vertex AI
Bei Fehler (z.B. 429 Rate Limit) → Together AI
Bei erneutem Fehler → Mistral AI
Wenn alle fehlschlagen → Fehler an Client

VLM-Route (Vision-Modelle)

Szenario: Nur Vertex AI bietet VLM-Fähigkeiten

Priority 1: vertex (gemini-1.5-flash)

Modellauswahl

Flash-Modelle sind schneller und günstiger für Bildanalysen.

TTS-Route (Sprachausgabe)

Szenario: Vertex AI für deutsche Stimmen

Priority 1: vertex (de-DE-Neural2-C)
Priority 2: vertex (de-DE-Neural2-B)

Stimmen-Optionen:

Neural2-C: Weibliche Stimme
Neural2-B: Männliche Stimme
Neural2-D: Weitere weibliche Stimme

ASR-Route (Spracherkennung)

Szenario: Chirp-Modell von Vertex AI

Priority 1: vertex (chirp)

Failover-Strategie

Automatisches Failover

Admin Bud-E wechselt automatisch zum nächsten Provider bei:

HTTP 429: Rate Limit erreicht
HTTP 500-599: Server-Fehler
Timeout: Anfrage dauert zu lange
Netzwerkfehler: Verbindung fehlgeschlagen

Keine Failover bei

HTTP 400: Ungültige Anfrage (Client-Fehler)
HTTP 401/403: Authentifizierungsfehler
HTTP 404: Endpunkt nicht gefunden

Failover-Timing

Anfrage → Provider 1 (max 30s)
  ↓ Fehler
Failover → Provider 2 (max 30s)
  ↓ Fehler
Failover → Provider 3 (max 30s)
  ↓ Fehler
Rückgabe: Fehler an Client

Erweiterte Konfiguration

Modell-spezifisches Routing

Sie können verschiedene Modelle desselben Providers in der Kette verwenden:

Priority 1: vertex (gemini-1.5-pro)
Priority 2: vertex (gemini-1.5-flash)

Vorteil: Bei Rate Limits auf Pro-Modell wechseln Sie zu Flash (günstigerer Alternative).

Provider-Diversifizierung

Nutzen Sie verschiedene Provider für Ausfallsicherheit:

Priority 1: vertex (gemini-1.5-flash)
Priority 2: together (meta-llama-3.1-70b)
Priority 3: anthropic (claude-3-haiku)

Vorteil: Unabhängigkeit von einem einzelnen Anbieter.

Kosten-optimiertes Routing

Ordnen Sie Provider nach Kosten:

Priority 1: together (llama-3.1-8b)    # Günstig
Priority 2: mistral (mistral-small)     # Mittel
Priority 3: vertex (gemini-1.5-pro)     # Premium

Nachteil: Qualitätsunterschiede zwischen Modellen.

Routing-Muster

Muster 1: Hochverfügbarkeit

Ziel: Maximale Verfügbarkeit, Kosten zweitrangig

LLM:
  Priority 1: vertex (gemini-1.5-pro)
  Priority 2: anthropic (claude-3-sonnet)
  Priority 3: openai (gpt-4)

VLM:
  Priority 1: vertex (gemini-1.5-flash)
  Priority 2: anthropic (claude-3-sonnet)

TTS:
  Priority 1: vertex (de-DE-Neural2-C)
  Priority 2: openai (tts-1)

ASR:
  Priority 1: vertex (chirp)
  Priority 2: openai (whisper-1)

Muster 2: Kostenoptimiert

Ziel: Minimale Kosten, akzeptable Qualität

LLM:
  Priority 1: together (llama-3.1-8b)
  Priority 2: mistral (mistral-small)
  Priority 3: vertex (gemini-1.5-flash)

VLM:
  Priority 1: vertex (gemini-1.5-flash)

TTS:
  Priority 1: vertex (de-DE-Standard-B)

ASR:
  Priority 1: vertex (default)

Muster 3: EU-Compliance

Ziel: Alle Daten in der EU verarbeiten

LLM:
  Priority 1: vertex (gemini-1.5-pro, region: europe-west4)
  Priority 2: mistral (mistral-large, region: eu-west-1)

VLM:
  Priority 1: vertex (gemini-1.5-flash, region: europe-west4)

TTS:
  Priority 1: vertex (de-DE-Neural2-C, region: europe-west4)

ASR:
  Priority 1: vertex (chirp, region: europe-west4)

Debugging

Route wird nicht verwendet

Problem: Trotz Konfiguration wird Route nicht genutzt.

Checkliste:

✅ Provider-Name in Route stimmt mit Provider-Config überein
✅ Provider ist aktiv und hat gültigen API-Key
✅ Modellname ist korrekt geschrieben
✅ Region (falls angegeben) ist verfügbar

Failover funktioniert nicht

Problem: Bei Fehler wird nicht zum nächsten Provider gewechselt.

Ursachen:

Client-Fehler (400-499) lösen kein Failover aus
Alle Provider in der Kette sind ausgefallen
Timeout ist zu kurz eingestellt

Unerwartete Kosten

Problem: Kosten sind höher als erwartet.

Prüfen Sie:

Werden teure Premium-Modelle als Priority 1 verwendet?
Gibt es viele Failover auf teurere Alternativen?
Sind Preise in Pricing korrekt hinterlegt?

Usage Reports nutzen

Unter Usage können Sie detailliert sehen, welcher Provider/Modell verwendet wurde.

Best Practices

1. Mindestens zwei Provider pro Typ

Konfigurieren Sie immer mindestens einen Fallback:

Priority 1: vertex (primary)
Priority 2: together (fallback)

2. Ähnliche Qualität in der Kette

Vermeiden Sie große Qualitätssprünge:

❌ Schlecht:
Priority 1: gpt-4 (hochwertig)
Priority 2: llama-3.1-8b (basic)

✅ Gut:
Priority 1: gpt-4 (hochwertig)
Priority 2: claude-3-sonnet (hochwertig)

3. Region-Awareness

Bei EU-Compliance: Nur EU-Regionen in der Kette:

Priority 1: vertex (europe-west4)
Priority 2: mistral (eu-west-1)
# Kein: openai (us-east-1)

4. Monitoring einrichten

Überwachen Sie:

Failover-Rate (wie oft wird gewechselt?)
Provider-Verfügbarkeit
Durchschnittliche Response-Zeiten
Kostenverteilung pro Provider

5. Regelmäßige Überprüfung

Prüfen Sie monatlich:

Sind alle Provider noch aktuell?
Gibt es neue, bessere Modelle?
Haben sich Preise geändert?
Funktioniert Failover wie erwartet?

Nächste Schritte

Nach der Routen-Konfiguration:

Preise festlegen - Modellpreise hinterlegen
Nutzer anlegen - Erste Nutzer erstellen
Erste Anfrage testen - Routing überprüfen

Routen ​

Was sind Routen? ​

Request-Typen ​

Routen konfigurieren ​

Prioritäten festlegen ​

Beispiel-Konfigurationen ​

LLM-Route (Text-Modelle) ​

VLM-Route (Vision-Modelle) ​

TTS-Route (Sprachausgabe) ​

ASR-Route (Spracherkennung) ​

Failover-Strategie ​

Automatisches Failover ​

Failover-Timing ​

Erweiterte Konfiguration ​

Modell-spezifisches Routing ​

Provider-Diversifizierung ​

Kosten-optimiertes Routing ​

Routing-Muster ​

Muster 1: Hochverfügbarkeit ​

Muster 2: Kostenoptimiert ​

Muster 3: EU-Compliance ​

Debugging ​

Route wird nicht verwendet ​

Failover funktioniert nicht ​

Unerwartete Kosten ​

Best Practices ​

1. Mindestens zwei Provider pro Typ ​

2. Ähnliche Qualität in der Kette ​

3. Region-Awareness ​

4. Monitoring einrichten ​

5. Regelmäßige Überprüfung ​

Nächste Schritte ​