Skip to content

Routen

Routen definieren, wie Anfragen von Admin Bud-E an die konfigurierten Provider weitergeleitet werden. Sie können Prioritätsketten pro Typ (LLM, VLM, TTS, ASR) festlegen. Bei Fehlern (429/5xx) wechselt Admin Bud-E automatisch zum nächsten Provider in der Kette (Failover).

Was sind Routen?

Routen bestimmen:

  1. Welcher Provider für welchen Request-Typ verwendet wird
  2. In welcher Reihenfolge Provider ausprobiert werden (Priorität)
  3. Was bei Fehlern passiert (automatisches Failover)

Request-Typen

Admin Bud-E unterscheidet vier Request-Typen:

TypBeschreibungBeispiele
LLMLarge Language Models (nur Text)Chat, Zusammenfassungen, Fragen beantworten
VLMVision-Language Models (Bild + Text)Bilderkennung, Bildanalyse, OCR
TTSText-to-Speech (Text → Audio)Vorlesefunktion, Audio-Antworten
ASRAutomatic Speech Recognition (Audio → Text)Spracheingabe, Transkription

Routen konfigurieren

  1. Öffnen Sie das Admin-Dashboard
  2. Navigieren Sie zu Routes
  3. Wählen Sie einen Request-Typ
  4. Definieren Sie die Prioritätskette

Prioritäten festlegen

Die Priorität bestimmt die Reihenfolge, in der Provider ausprobiert werden:

  • Priority 1: Erster Versuch (bevorzugter Provider)
  • Priority 2: Zweiter Versuch (Fallback)
  • Priority 3: Dritter Versuch (zusätzlicher Fallback)
  • usw.

Best Practice

Setzen Sie den zuverlässigsten und leistungsstärksten Provider auf Priority 1.

Beispiel-Konfigurationen

LLM-Route (Text-Modelle)

Szenario: Haupt-Provider ist Vertex AI, Fallback auf Together AI

Priority 1: vertex (gemini-1.5-pro)
Priority 2: together (meta-llama-3.1-70b)
Priority 3: mistral (mistral-large-latest)

Ablauf:

  1. Anfrage geht zuerst an Vertex AI
  2. Bei Fehler (z.B. 429 Rate Limit) → Together AI
  3. Bei erneutem Fehler → Mistral AI
  4. Wenn alle fehlschlagen → Fehler an Client

VLM-Route (Vision-Modelle)

Szenario: Nur Vertex AI bietet VLM-Fähigkeiten

Priority 1: vertex (gemini-1.5-flash)

Modellauswahl

Flash-Modelle sind schneller und günstiger für Bildanalysen.

TTS-Route (Sprachausgabe)

Szenario: Vertex AI für deutsche Stimmen

Priority 1: vertex (de-DE-Neural2-C)
Priority 2: vertex (de-DE-Neural2-B)

Stimmen-Optionen:

  • Neural2-C: Weibliche Stimme
  • Neural2-B: Männliche Stimme
  • Neural2-D: Weitere weibliche Stimme

ASR-Route (Spracherkennung)

Szenario: Chirp-Modell von Vertex AI

Priority 1: vertex (chirp)

Failover-Strategie

Automatisches Failover

Admin Bud-E wechselt automatisch zum nächsten Provider bei:

  • HTTP 429: Rate Limit erreicht
  • HTTP 500-599: Server-Fehler
  • Timeout: Anfrage dauert zu lange
  • Netzwerkfehler: Verbindung fehlgeschlagen

Keine Failover bei

  • HTTP 400: Ungültige Anfrage (Client-Fehler)
  • HTTP 401/403: Authentifizierungsfehler
  • HTTP 404: Endpunkt nicht gefunden

Failover-Timing

Anfrage → Provider 1 (max 30s)
  ↓ Fehler
Failover → Provider 2 (max 30s)
  ↓ Fehler
Failover → Provider 3 (max 30s)
  ↓ Fehler
Rückgabe: Fehler an Client

Erweiterte Konfiguration

Modell-spezifisches Routing

Sie können verschiedene Modelle desselben Providers in der Kette verwenden:

Priority 1: vertex (gemini-1.5-pro)
Priority 2: vertex (gemini-1.5-flash)

Vorteil: Bei Rate Limits auf Pro-Modell wechseln Sie zu Flash (günstigerer Alternative).

Provider-Diversifizierung

Nutzen Sie verschiedene Provider für Ausfallsicherheit:

Priority 1: vertex (gemini-1.5-flash)
Priority 2: together (meta-llama-3.1-70b)
Priority 3: anthropic (claude-3-haiku)

Vorteil: Unabhängigkeit von einem einzelnen Anbieter.

Kosten-optimiertes Routing

Ordnen Sie Provider nach Kosten:

Priority 1: together (llama-3.1-8b)    # Günstig
Priority 2: mistral (mistral-small)     # Mittel
Priority 3: vertex (gemini-1.5-pro)     # Premium

Nachteil: Qualitätsunterschiede zwischen Modellen.

Routing-Muster

Muster 1: Hochverfügbarkeit

Ziel: Maximale Verfügbarkeit, Kosten zweitrangig

LLM:
  Priority 1: vertex (gemini-1.5-pro)
  Priority 2: anthropic (claude-3-sonnet)
  Priority 3: openai (gpt-4)

VLM:
  Priority 1: vertex (gemini-1.5-flash)
  Priority 2: anthropic (claude-3-sonnet)

TTS:
  Priority 1: vertex (de-DE-Neural2-C)
  Priority 2: openai (tts-1)

ASR:
  Priority 1: vertex (chirp)
  Priority 2: openai (whisper-1)

Muster 2: Kostenoptimiert

Ziel: Minimale Kosten, akzeptable Qualität

LLM:
  Priority 1: together (llama-3.1-8b)
  Priority 2: mistral (mistral-small)
  Priority 3: vertex (gemini-1.5-flash)

VLM:
  Priority 1: vertex (gemini-1.5-flash)

TTS:
  Priority 1: vertex (de-DE-Standard-B)

ASR:
  Priority 1: vertex (default)

Muster 3: EU-Compliance

Ziel: Alle Daten in der EU verarbeiten

LLM:
  Priority 1: vertex (gemini-1.5-pro, region: europe-west4)
  Priority 2: mistral (mistral-large, region: eu-west-1)

VLM:
  Priority 1: vertex (gemini-1.5-flash, region: europe-west4)

TTS:
  Priority 1: vertex (de-DE-Neural2-C, region: europe-west4)

ASR:
  Priority 1: vertex (chirp, region: europe-west4)

Debugging

Route wird nicht verwendet

Problem: Trotz Konfiguration wird Route nicht genutzt.

Checkliste:

  • ✅ Provider-Name in Route stimmt mit Provider-Config überein
  • ✅ Provider ist aktiv und hat gültigen API-Key
  • ✅ Modellname ist korrekt geschrieben
  • ✅ Region (falls angegeben) ist verfügbar

Failover funktioniert nicht

Problem: Bei Fehler wird nicht zum nächsten Provider gewechselt.

Ursachen:

  • Client-Fehler (400-499) lösen kein Failover aus
  • Alle Provider in der Kette sind ausgefallen
  • Timeout ist zu kurz eingestellt

Unerwartete Kosten

Problem: Kosten sind höher als erwartet.

Prüfen Sie:

  • Werden teure Premium-Modelle als Priority 1 verwendet?
  • Gibt es viele Failover auf teurere Alternativen?
  • Sind Preise in Pricing korrekt hinterlegt?

Usage Reports nutzen

Unter Usage können Sie detailliert sehen, welcher Provider/Modell verwendet wurde.

Best Practices

1. Mindestens zwei Provider pro Typ

Konfigurieren Sie immer mindestens einen Fallback:

Priority 1: vertex (primary)
Priority 2: together (fallback)

2. Ähnliche Qualität in der Kette

Vermeiden Sie große Qualitätssprünge:

❌ Schlecht:
Priority 1: gpt-4 (hochwertig)
Priority 2: llama-3.1-8b (basic)

✅ Gut:
Priority 1: gpt-4 (hochwertig)
Priority 2: claude-3-sonnet (hochwertig)

3. Region-Awareness

Bei EU-Compliance: Nur EU-Regionen in der Kette:

Priority 1: vertex (europe-west4)
Priority 2: mistral (eu-west-1)
# Kein: openai (us-east-1)

4. Monitoring einrichten

Überwachen Sie:

  • Failover-Rate (wie oft wird gewechselt?)
  • Provider-Verfügbarkeit
  • Durchschnittliche Response-Zeiten
  • Kostenverteilung pro Provider

5. Regelmäßige Überprüfung

Prüfen Sie monatlich:

  • Sind alle Provider noch aktuell?
  • Gibt es neue, bessere Modelle?
  • Haben sich Preise geändert?
  • Funktioniert Failover wie erwartet?

Nächste Schritte

Nach der Routen-Konfiguration:

  1. Preise festlegen - Modellpreise hinterlegen
  2. Nutzer anlegen - Erste Nutzer erstellen
  3. Erste Anfrage testen - Routing überprüfen