Einführung — was die Middleware macht
Admin Bud-E ist die von LAION e. V. entwickelte Open-Source-Middleware und Nutzerverwaltung für KI-Assistenten. Sie sitzt zwischen dem Browser-Frontend (z. B. School Bud-E) und verschiedenen KI-Anbietern (Google Vertex AI, Mistral, Together u. a.).
Funktionsweise
Das Frontend läuft vollständig im Browser; Gesprächsverläufe werden lokal auf dem Gerät der Nutzenden gespeichert (keine Chat-Speicherung auf dem Server). Die Middleware nimmt die API-Anfragen entgegen, leitet sie an die konfigurierten Anbieter weiter, misst die Nutzung und verwaltet Credits pro Nutzer und Projekt.
Der Ablauf:
- Empfängt API-Anfragen vom Frontend
- Leitet sie an konfigurierte Anbieter weiter
- Misst die Nutzung
- Verwaltet Credit-Guthaben pro Nutzer/Projekt
Hauptvorteile
Lehrkräfte, Schülerinnen und Mitarbeiter müssen sich nicht bei externen Diensten registrieren und keine unterschiedlichen Schlüssel verwalten. Stattdessen vergibt die Administration einen einzigen „Universal-API-Key" pro Nutzer (oder Klasse/Gruppe).
Dieser Schlüssel:
- Ist nicht mit personenbezogenen Daten verknüpft (keine Namen oder E-Mails nötig)
- Dient für alle Fähigkeiten: LLM, VLM, TTS und ASR
- Vereinfacht die Nutzung erheblich und unterstützt DSGVO-konforme Setups
Nutzungsmessung
Die Middleware rechnet in Einheiten ab, die zur jeweiligen Technik passen:
| Technologie | Einheit | Beschreibung |
|---|---|---|
| LLM/VLM | Tokens | Wörter werden in kleine Teile zerlegt |
| TTS | Zeichen | Jedes Zeichen zählt zur Nutzung |
| ASR | Tokens oder Zeit | Vom Anbieter gemeldete Tokens oder zeitbasiert (pro Stunde Audio) |
So bleiben Kostentreiber transparent:
- Längere Antworten verbrauchen mehr Tokens
- Häufiges Vorlesen erhöht die Zeichenmenge
- ASR ist bei Abrechnung pro Stunde meist günstig
Auch Nicht-Spezialistinnen können die beiden Haupthebel — Antwortlänge und TTS-Anteil — sicher steuern.
OpenAI-kompatibler Proxy
Für eine einfache Anbindung bringt Admin Bud-E einen kleinen OpenAI-kompatiblen Proxy für Google Vertex AI mit. Dadurch können Clients im gewohnten OpenAI-API-Format (POST /v1/chat/completions, Authorization: Bearer …) mit Gemini-Modellen sprechen, während die Middleware die Anfragen im Hintergrund zu Vertex übersetzt.
Begriffserklärung
- LLM — Large Language Model: versteht und erzeugt Text
- VLM — Vision-Language Model: versteht Bilder und Text zusammen
- TTS — Text-to-Speech: liest geschriebenen Text als natürliche Sprache vor
- ASR — Automatic Speech Recognition: wandelt Sprache in Text um (Transkription)