Einführung — was die Middleware macht

Admin Bud-E ist die von LAION e. V. entwickelte Open-Source-Middleware und Nutzerverwaltung für KI-Assistenten. Sie sitzt zwischen dem Browser-Frontend (z. B. School Bud-E) und verschiedenen KI-Anbietern (Google Vertex AI, Mistral, Together u. a.).

Funktionsweise

Das Frontend läuft vollständig im Browser; Gesprächsverläufe werden lokal auf dem Gerät der Nutzenden gespeichert (keine Chat-Speicherung auf dem Server). Die Middleware nimmt die API-Anfragen entgegen, leitet sie an die konfigurierten Anbieter weiter, misst die Nutzung und verwaltet Credits pro Nutzer und Projekt.

Der Ablauf:

Empfängt API-Anfragen vom Frontend
Leitet sie an konfigurierte Anbieter weiter
Misst die Nutzung
Verwaltet Credit-Guthaben pro Nutzer/Projekt

Hauptvorteile

Lehrkräfte, Schülerinnen und Mitarbeiter müssen sich nicht bei externen Diensten registrieren und keine unterschiedlichen Schlüssel verwalten. Stattdessen vergibt die Administration einen einzigen „Universal-API-Key" pro Nutzer (oder Klasse/Gruppe).

Dieser Schlüssel:

Ist nicht mit personenbezogenen Daten verknüpft (keine Namen oder E-Mails nötig)
Dient für alle Fähigkeiten: LLM, VLM, TTS und ASR
Vereinfacht die Nutzung erheblich und unterstützt DSGVO-konforme Setups

Nutzungsmessung

Die Middleware rechnet in Einheiten ab, die zur jeweiligen Technik passen:

Technologie	Einheit	Beschreibung
LLM/VLM	Tokens	Wörter werden in kleine Teile zerlegt
TTS	Zeichen	Jedes Zeichen zählt zur Nutzung
ASR	Tokens oder Zeit	Vom Anbieter gemeldete Tokens oder zeitbasiert (pro Stunde Audio)

So bleiben Kostentreiber transparent:

Längere Antworten verbrauchen mehr Tokens
Häufiges Vorlesen erhöht die Zeichenmenge
ASR ist bei Abrechnung pro Stunde meist günstig

Auch Nicht-Spezialistinnen können die beiden Haupthebel — Antwortlänge und TTS-Anteil — sicher steuern.

OpenAI-kompatibler Proxy

Für eine einfache Anbindung bringt Admin Bud-E einen kleinen OpenAI-kompatiblen Proxy für Google Vertex AI mit. Dadurch können Clients im gewohnten OpenAI-API-Format (POST /v1/chat/completions, Authorization: Bearer …) mit Gemini-Modellen sprechen, während die Middleware die Anfragen im Hintergrund zu Vertex übersetzt.

Begriffserklärung

LLM — Large Language Model: versteht und erzeugt Text
VLM — Vision-Language Model: versteht Bilder und Text zusammen
TTS — Text-to-Speech: liest geschriebenen Text als natürliche Sprache vor
ASR — Automatic Speech Recognition: wandelt Sprache in Text um (Transkription)

Einführung — was die Middleware macht ​

Funktionsweise ​

Hauptvorteile ​

Nutzungsmessung ​

OpenAI-kompatibler Proxy ​

Begriffserklärung ​