Wake Word Erkennung: So funktioniert es
“Hey Alexa”, “Hey Siri”, “Ok Google”—Wake Words sind der magische Schalter der einen KI-Assistenten aktiviert. Aber wie funktioniert das technisch? Warum versteht Alexa nur “Alexa” und nicht beliebige Wörter? Und wie lässt sich auf einem Windows-PC ein eigenes Wake Word einrichten?
Kurz erklärt: Ein Wake Word ist ein speziell trainiertes Erkennungsmodell das dauerhaft im Hintergrund läuft und nur auf ein bestimmtes Klangmuster reagiert—ohne den gesamten Audiostrom zu übertragen. Erst nach dem Wake Word schaltet sich die vollständige Spracherkennung ein.
Das Zweiphasen-Prinzip
Moderne Sprachassistenten arbeiten in zwei klar getrennten Phasen. Dieses Prinzip ist der Schlüssel sowohl für Datenschutz als auch für Energieeffizienz.
Always-On Detector (lokal)
Ein kleines, stark optimiertes Modell (oft nur 1–5 MB) läuft dauerhaft auf dem Gerät. Es analysiert Audiofragmente von 20–40 Millisekunden und entscheidet: Ist das Wake Word dabei? Der gesamte Audiostrom verlässt das Gerät in dieser Phase nicht.
Vollständige Spracherkennung (aktiv)
Erst nach erkanntem Wake Word wird das Mikrofon für den eigentlichen Befehl aktiv. Diese Phase nutzt entweder Cloud-APIs (Alexa, Google) oder lokale Modelle (Jarvis) für die vollständige Transkription und Befehlsverarbeitung.
Lokale vs. Cloud-Wake-Word-Erkennung
🔒 Lokal (Jarvis, Vosk)
- Läuft vollständig auf deinem PC
- Kein Audio verlässt das Gerät
- Funktioniert offline
- DSGVO-konform ohne Einschränkungen
- Anpassbares Wake Word möglich
- Etwas höhere CPU-Last
☁ Cloud (Alexa, Google)
- Detector lokal, Verarbeitung in der Cloud
- Befehle gehen an externe Server
- Internetverbindung Pflicht
- Datenschutz abhängig vom Anbieter
- Wake Word fest vorgegeben
- Häufig präziser bei Hintergrundgeräuschen
Die Technologie dahinter
Wake-Word-Modelle basieren auf neuronalen Netzen, die auf tausenden Aufnahmen des Zielwortes trainiert wurden. Dabei lernt das Modell nicht die exakte Aussprache, sondern akustische Muster—deshalb erkennt Alexa “Alexa” auch in verschiedenen Akzenten und Lautstärken.
Vosk / PocketSphinx
Open-Source-Bibliotheken für lokale Spracherkennung. Jarvis nutzt diese für die Wake-Word-Phase ohne Cloud-Abhängigkeit.
MFCC-Features
Mel Frequency Cepstral Coefficients: Das Audiospektrum wird in 13–40 mathematische Merkmale umgewandelt die das Modell verarbeitet.
RNN / Transformer
Moderne Wake-Word-Modelle nutzen rekurrente oder Transformer-Netze für höhere Genauigkeit auch bei Umgebungsgeräuschen.
False-Positive-Rate
Gute Modelle erkennen das Wake Word zuverlässig, reagieren aber selten auf ähnliche Wörter. Das Gleichgewicht zwischen Sensitivität und Präzision ist die Kernherausforderung.
Warum Alexa „Alexa“ als Wake Word gewählt hat
Das Wake Word “Alexa” wurde bewusst gewählt: Es enthält den betonten Vokal “a” an zwei Stellen und das harte “x”—eine Kombination die in natürlicher Sprache selten vorkommt und damit False-Positives minimiert.
Auch “Ok Google” und “Hey Siri” folgen diesem Prinzip: markante, seltene Silbenkombinationen die sich akustisch klar von Alltagswörtern unterscheiden.
Eigenes Wake Word in Jarvis einrichten
Jarvis lässt sich mit einem eigenen Wake Word konfigurieren. Dafür sind diese Schritte notwendig:
Wake-Word-Modul aktivieren
Im Jarvis-Konfigurator das Wake-Word-Modul aktivieren. Du wählst dein Aktivierungswort—Standard ist “Jarvis”, aber jedes Wort mit klarer Aussprache funktioniert.
Vosk-Modell (automatisch installiert)
setup.bat installiert das deutsche Vosk-Sprachmodell automatisch. Es läuft vollständig lokal—kein Internet, kein Cloud-Account nötig.
Mikrofon-Test
Beim ersten Start führt Jarvis einen Mikrofon-Test durch. Gutes Signal-Rausch-Verhältnis verbessert die Erkennungsrate deutlich.
Sensitivität anpassen
In der .env-Datei lässt sich die Wake-Word-Sensitivität feinjustieren: höhere Werte = mehr Erkennungen, aber mehr False-Positives.
Tipps für zuverlässige Wake-Word-Erkennung
- Ruhige Umgebung: Hintergrundgeräusche (TV, Musik) erhöhen False-Positives und senken die Erkennungsrate.
- Mikrofon-Qualität: Ein USB-Mikrofon oder Headset ist zuverlässiger als das eingebaute Laptop-Mikrofon.
- Wake-Word-Wahl: Wörter mit 2–3 Silben und klaren Vokalen (“Jarvis”, “Computer”) werden besser erkannt als kurze Wörter.
- Deutliche Aussprache: Beim ersten Sprechen des Wake Words deutlich und in normalem Tempo sprechen—das Modell passt sich an.
- Windows-Audiotreiber: Aktuelle Audiotreiber und das richtige Standardmikrofon in Windows-Einstellungen sind Pflicht.
Wake Word auf deinem Windows-PC
Registriere dich kostenlos, aktiviere das Wake-Word-Modul und sprich deinen persönlichen Assistenten in 5 Minuten an.
Jetzt kostenlos starten