Glossar Voice-AI

Begriffe, die im Voice-AI-Gespräch ständig fallen — kurz erklärt.

16 Definitionen für Entscheider und IT-Verantwortliche im DACH-Mittelstand. Jeder Begriff hat einen stabilen Anker — direkt verlinkbar im Lastenheft, in der DSFA oder in der Vertragsdiskussion.

Inhaltsverzeichnis

KI-Telefonassistent
Voice-Agent
IVR (Interactive Voice Response)
Spracherkennung (STT, Speech-to-Text)
Sprach-Synthese (TTS, Text-to-Speech)
Latenz (Voice-to-Voice)
RAG (Retrieval-Augmented Generation)
Fallback-Logik
Auftragsverarbeitungs-Vertrag (AVV)
Unter-Auftragsverarbeiter (Sub-Processor)
Standardvertragsklauseln (SCCs)
EU AI Act Art. 50 (Transparenzpflicht)
BFSG (Barrierefreiheitsstärkungsgesetz)
DSFA (Datenschutz-Folgenabschätzung)
Barge-In
Telefonie-Bridge

KI-Telefonassistent: Kurz: Software-Agent, der eingehende Telefonanrufe in natürlicher Sprache entgegennimmt, versteht, beantwortet oder strukturiert weiterleitet.
Ein KI-Telefonassistent kombiniert Spracherkennung (STT), ein Sprach-Modell (LLM) für Verstehen und Antworten, eine Sprach-Synthese (TTS) für die Ausgabe sowie eine Telefonie-Bridge. Im Unterschied zu klassischen Sprach-Bots (IVR) folgt er keinem starren Menü, sondern reagiert auf freie Formulierungen. Synonyme: Voice-Agent, KI-Anrufannahme, Sprach-Bot.
Voice-Agent: Kurz: Englischer Sammelbegriff für autonome KI-Systeme, die per Stimme mit Menschen kommunizieren — am Telefon, im Browser oder in einer App.
Im DACH-B2B-Kontext meist gleichbedeutend mit KI-Telefonassistent, wenn der Use-Case Telefonie ist. Voice-Agents grenzen sich von Chat-Bots durch das Echtzeit-Audio-Interface ab und von klassischen Voice-Bots durch die Fähigkeit, multi-turn-Dialoge ohne festes Skript zu führen.
IVR (Interactive Voice Response): Kurz: Klassisches Sprach-Menü mit Tasten-Eingabe oder festen Sprach-Befehlen. Vor-KI-Generation der Telefon-Automation.
IVR-Systeme arbeiten mit baumartigen Menüs ("Für Reservierungen drücken Sie die 1"). Sie skalieren billig, kollabieren aber bei freier Sprache. KI-Telefonassistenten ersetzen IVR-Bäume zunehmend, weil Anrufer keine Tasten mehr drücken müssen.
Spracherkennung (STT, Speech-to-Text): Kurz: Wandelt gesprochene Sprache in Text um. Erste Stufe jeder Voice-AI-Pipeline.
Aktuelle neuronale STT-Modelle erreichen für klar gesprochenes Deutsch deutlich niedrigere Wortfehlerraten als ältere Engines, brechen aber bei Dialekten, Eigennamen und Hintergrund-Lärm spürbar ein. Für Produktiv-Setups in Hotels und Praxen ist eine Auswahl der STT-Engine mit Blick auf süddeutsche und österreichische Färbungen relevant.
Sprach-Synthese (TTS, Text-to-Speech): Kurz: Wandelt Text in gesprochene Sprache. Letzte Stufe jeder Voice-AI-Pipeline.
Moderne neurale TTS-Engines (z. B. ElevenLabs) klingen so natürlich, dass Anrufer den maschinellen Charakter erst auf Nachfrage erkennen. Genau deshalb verlangt Art. 50 EU AI Act den expliziten Hinweis zu Gesprächsbeginn.
Latenz (Voice-to-Voice): Kurz: Zeit zwischen Ende der Anrufer-Äußerung und Beginn der Agenten-Antwort.
Latenz unter 700 ms wirkt natürlich, über 1.500 ms fühlt sich kaputt an. Sie ergibt sich aus STT-Dauer, LLM-Time-to-First-Token, TTS-Streaming-Beginn und der Netzwerk-Round-Trips. Reduktion erfolgt durch Streaming-STT, kürzere System-Prompts und TTS mit niedriger Pre-Roll.
RAG (Retrieval-Augmented Generation): Kurz: Architektur, bei der ein LLM zur Laufzeit auf eine externe Wissensbasis zugreift, statt nur auf Trainingswissen.
Für Voice-Agents im Mittelstand ist RAG die Standard-Methode, um auf hotel- oder kanzlei-spezifische Inhalte zuzugreifen (Speisekarte, Öffnungszeiten, Mandanten-FAQ) ohne das Sprach-Modell neu zu trainieren.
Fallback-Logik: Kurz: Regelwerk, das definiert, was passiert, wenn der Voice-Agent eine Anfrage nicht zuverlässig beantworten kann.
Übliche Optionen: Übergabe an Mensch, Mailbox mit Rückrufhinweis, höfliche Ablehnung mit Verweis auf Kontakt-Kanal. Eine sauber konfigurierte Fallback-Logik ist der Unterschied zwischen einem nutzbaren und einem unerträglichen Voice-Agent.
Auftragsverarbeitungs-Vertrag (AVV): Kurz: Schriftlicher Vertrag nach Art. 28 DSGVO, der die Verarbeitung personenbezogener Daten im Auftrag regelt.
Pflicht, sobald ein Dienstleister personenbezogene Daten im Auftrag des Verantwortlichen verarbeitet — bei Voice-Agents immer der Fall. Der AVV regelt Zweck, Weisungsbefugnis, technisch-organisatorische Maßnahmen, Unter-Auftragsverarbeiter und Lösch-Pflichten.
Quelle: Art. 28 DSGVO
Unter-Auftragsverarbeiter (Sub-Processor): Kurz: Dritter Dienstleister, den ein Auftragsverarbeiter zur Erfüllung seines Auftrags einsetzt.
Beispiel Podschi: VAPI, OpenAI, ElevenLabs sind Sub-Processors. Nach Art. 28 Abs. 2–4 DSGVO ist die Einbindung von Unter-Auftragsverarbeitern vom Verantwortlichen zu autorisieren; üblich sind allgemeine Genehmigung mit Vorab-Information und Widerspruchsrecht. Eine öffentlich gepflegte Liste ist Best Practice und in vielen DPA-Vorlagen vertraglich vereinbart, aber keine generelle gesetzliche Pflicht.
Standardvertragsklauseln (SCCs): Kurz: EU-Mustertext (Durchführungsbeschluss 2021/914), einer von mehreren möglichen Mechanismen für Datentransfers in Drittländer ohne Angemessenheitsbeschluss.
Wenn für ein Drittland kein Angemessenheitsbeschluss vorliegt (z. B. USA außerhalb des Data Privacy Framework), sind SCCs der gängige Mechanismus — kombiniert mit einer dokumentierten Transfer Impact Assessment (TIA). Für DPF-zertifizierte US-Empfänger kann der Angemessenheitsbeschluss als Grundlage ausreichen. Für Voice-AI-Stacks mit US-Anbietern (OpenAI, VAPI, ElevenLabs) sind SCCs in der Praxis Standard-Bestandteil des AVV.
Quelle: Durchführungsbeschluss EU 2021/914
EU AI Act Art. 50 (Transparenzpflicht): Kurz: Vorschrift, die verlangt, dass natürliche Personen, die direkt mit einem KI-System interagieren, darüber informiert werden — sofern das nicht offensichtlich ist.
Für Voice-Agents bedeutet das in der Regel einen klaren Hinweis zu Gesprächsbeginn, dass der Anrufer mit einem KI-System spricht. Die Transparenz-Pflichten nach Art. 50 sind ab 02.08.2026 anwendbar und bußgeldbewehrt.
Quelle: Verordnung (EU) 2024/1689
BFSG (Barrierefreiheitsstärkungsgesetz): Kurz: Deutsches Gesetz zur Umsetzung der EU-Richtlinie 2019/882 (European Accessibility Act), anwendbar seit 28.06.2025.
Verpflichtet bestimmte verbraucherorientierte Produkte und Dienstleistungen (u. a. E-Commerce-Angebote, Bankdienstleistungen, Telekommunikation, Personenbeförderung) zu Barrierefreiheit. Reine B2B-Angebote ohne Verbraucher-Bezug fallen typischerweise nicht in den Anwendungsbereich; bei gemischten Angeboten entscheidet der konkrete Vertriebs-Kontext. WCAG 2.1 AA dient als anerkannter technischer Maßstab.
Quelle: Bundesfachstelle Barrierefreiheit
DSFA (Datenschutz-Folgenabschätzung): Kurz: Strukturierte Risiko-Bewertung nach Art. 35 DSGVO, verpflichtend bei voraussichtlich hohem Risiko für Betroffene.
Für Voice-AI in sensitiven Kontexten (Gesundheit, Recht, Bonität) typischerweise erforderlich. Podschi liefert für jeden Pilot eine DSFA-Vorlage mit, die der Kunde als Verantwortlicher fertigstellt.
Barge-In: Kurz: Fähigkeit des Voice-Agents, dem Anrufer das Reden während der eigenen Antwort zu erlauben (Unterbrechen).
Ohne Barge-In wirkt der Agent sturer als ein Anrufbeantworter. Mit Barge-In klingt das Gespräch deutlich natürlicher, erhöht aber technisch die Anforderungen an STT-Echo-Cancellation und Pause-Detection.
Telefonie-Bridge: Kurz: Komponente, die den Voice-Agent mit dem öffentlichen Telefonnetz oder einer Telefonanlage verbindet.
Realisiert über SIP-Trunks (für klassische Telefonanlagen) oder Cloud-Provider wie Twilio, Telnyx oder direkt VAPI. Für Hotellerie meist Anbindung an die bestehende PMS-Telefonie ohne Rufnummern-Wechsel.

Verwandt

Begriffe, die im Voice-AI-Gespräch ständig fallen — kurz erklärt.

Weiterlesen.