voice

Voice-Action-Layer

auch bekannt als: Sprach-Aktions-Schicht, Voice-First

Ein Voice-Action-Layer ist eine Software-Schicht, die gesprochene Sprache nicht nur in Text umwandelt, sondern direkt in strukturierte Geschäftsaktionen übersetzt (z.B. Kunde anlegen, Rechnung erstellen).

Klassische Speech-to-Text-Systeme (z.B. Diktiergerät, Whisper) wandeln Audio in Text um. Das Ergebnis ist eine Datei mit Wörtern, die jemand abtippen oder verarbeiten muss.

Ein Voice-Action-Layer geht einen Schritt weiter: er verbindet Spracherkennung mit Natural-Language-Understanding (NLU) und einer Action-Mapping-Schicht. Statt nur "Stundenrapport für Müller AG, drei Stunden" als Text zu speichern, erkennt der Layer die Entitäten (Kunde "Müller AG", Aktion "Stundenrapport", Anzahl "3 Stunden") und führt direkt eine Datenbank-Aktion aus.

Technisch besteht ein Voice-Action-Layer aus drei Komponenten: 1. Audio-Verstehen (heute meist multimodal, ohne separates Speech-to-Text-Stadium) 2. NLU mit domänen-spezifischem Vokabular (z.B. Schweizer Handwerks-Begriffe) 3. Action-Router, der erkannte Intents in API-Calls übersetzt

Für Handwerker bedeutet das: kein "diktieren und später abtippen", sondern "sprechen und es ist erledigt", das spart spürbar Bürozeit im Alltag.

Verwandte Begriffe