Skip to content

Einführung — was die Middleware macht

Admin Bud-E ist die von LAION e. V. entwickelte Open-Source-Middleware und Nutzerverwaltung für KI-Assistenten. Sie sitzt zwischen dem Browser-Frontend (z. B. School Bud-E) und verschiedenen KI-Anbietern (Google Vertex AI, Mistral, Together u. a.).

Funktionsweise

Das Frontend läuft vollständig im Browser; Gesprächsverläufe werden lokal auf dem Gerät der Nutzenden gespeichert (keine Chat-Speicherung auf dem Server). Die Middleware nimmt die API-Anfragen entgegen, leitet sie an die konfigurierten Anbieter weiter, misst die Nutzung und verwaltet Credits pro Nutzer und Projekt.

Der Ablauf:

  1. Empfängt API-Anfragen vom Frontend
  2. Leitet sie an konfigurierte Anbieter weiter
  3. Misst die Nutzung
  4. Verwaltet Credit-Guthaben pro Nutzer/Projekt

Hauptvorteile

Lehrkräfte, Schülerinnen und Mitarbeiter müssen sich nicht bei externen Diensten registrieren und keine unterschiedlichen Schlüssel verwalten. Stattdessen vergibt die Administration einen einzigen „Universal-API-Key" pro Nutzer (oder Klasse/Gruppe).

Dieser Schlüssel:

  • Ist nicht mit personenbezogenen Daten verknüpft (keine Namen oder E-Mails nötig)
  • Dient für alle Fähigkeiten: LLM, VLM, TTS und ASR
  • Vereinfacht die Nutzung erheblich und unterstützt DSGVO-konforme Setups

Nutzungsmessung

Die Middleware rechnet in Einheiten ab, die zur jeweiligen Technik passen:

TechnologieEinheitBeschreibung
LLM/VLMTokensWörter werden in kleine Teile zerlegt
TTSZeichenJedes Zeichen zählt zur Nutzung
ASRTokens oder ZeitVom Anbieter gemeldete Tokens oder zeitbasiert (pro Stunde Audio)

So bleiben Kostentreiber transparent:

  • Längere Antworten verbrauchen mehr Tokens
  • Häufiges Vorlesen erhöht die Zeichenmenge
  • ASR ist bei Abrechnung pro Stunde meist günstig

Auch Nicht-Spezialistinnen können die beiden Haupthebel — Antwortlänge und TTS-Anteil — sicher steuern.

OpenAI-kompatibler Proxy

Für eine einfache Anbindung bringt Admin Bud-E einen kleinen OpenAI-kompatiblen Proxy für Google Vertex AI mit. Dadurch können Clients im gewohnten OpenAI-API-Format (POST /v1/chat/completions, Authorization: Bearer …) mit Gemini-Modellen sprechen, während die Middleware die Anfragen im Hintergrund zu Vertex übersetzt.

Begriffserklärung

  • LLM — Large Language Model: versteht und erzeugt Text
  • VLM — Vision-Language Model: versteht Bilder und Text zusammen
  • TTS — Text-to-Speech: liest geschriebenen Text als natürliche Sprache vor
  • ASR — Automatic Speech Recognition: wandelt Sprache in Text um (Transkription)

Weitere Informationen