Tutorial · Sprachsteuerung · Windows

Wake Word Erkennung: So funktioniert es

📅 8. Mai 2026 ⏰ 7 Min. Lesezeit 🏠 GetJarvis Redaktion

“Hey Alexa”, “Hey Siri”, “Ok Google”—Wake Words sind der magische Schalter der einen KI-Assistenten aktiviert. Aber wie funktioniert das technisch? Warum versteht Alexa nur “Alexa” und nicht beliebige Wörter? Und wie lässt sich auf einem Windows-PC ein eigenes Wake Word einrichten?

Kurz erklärt: Ein Wake Word ist ein speziell trainiertes Erkennungsmodell das dauerhaft im Hintergrund läuft und nur auf ein bestimmtes Klangmuster reagiert—ohne den gesamten Audiostrom zu übertragen. Erst nach dem Wake Word schaltet sich die vollständige Spracherkennung ein.

Das Zweiphasen-Prinzip

Moderne Sprachassistenten arbeiten in zwei klar getrennten Phasen. Dieses Prinzip ist der Schlüssel sowohl für Datenschutz als auch für Energieeffizienz.

Always-On Detector (lokal)

Ein kleines, stark optimiertes Modell (oft nur 1–5 MB) läuft dauerhaft auf dem Gerät. Es analysiert Audiofragmente von 20–40 Millisekunden und entscheidet: Ist das Wake Word dabei? Der gesamte Audiostrom verlässt das Gerät in dieser Phase nicht.

Vollständige Spracherkennung (aktiv)

Erst nach erkanntem Wake Word wird das Mikrofon für den eigentlichen Befehl aktiv. Diese Phase nutzt entweder Cloud-APIs (Alexa, Google) oder lokale Modelle (Jarvis) für die vollständige Transkription und Befehlsverarbeitung.

Lokale vs. Cloud-Wake-Word-Erkennung

🔒 Lokal (Jarvis, Vosk)

Läuft vollständig auf deinem PC
Kein Audio verlässt das Gerät
Funktioniert offline
DSGVO-konform ohne Einschränkungen
Anpassbares Wake Word möglich
Etwas höhere CPU-Last

☁ Cloud (Alexa, Google)

Detector lokal, Verarbeitung in der Cloud
Befehle gehen an externe Server
Internetverbindung Pflicht
Datenschutz abhängig vom Anbieter
Wake Word fest vorgegeben
Häufig präziser bei Hintergrundgeräuschen

Die Technologie dahinter

Wake-Word-Modelle basieren auf neuronalen Netzen, die auf tausenden Aufnahmen des Zielwortes trainiert wurden. Dabei lernt das Modell nicht die exakte Aussprache, sondern akustische Muster—deshalb erkennt Alexa “Alexa” auch in verschiedenen Akzenten und Lautstärken.

🎔

Vosk / PocketSphinx

Open-Source-Bibliotheken für lokale Spracherkennung. Jarvis nutzt diese für die Wake-Word-Phase ohne Cloud-Abhängigkeit.

🎤

MFCC-Features

Mel Frequency Cepstral Coefficients: Das Audiospektrum wird in 13–40 mathematische Merkmale umgewandelt die das Modell verarbeitet.

⚙

RNN / Transformer

Moderne Wake-Word-Modelle nutzen rekurrente oder Transformer-Netze für höhere Genauigkeit auch bei Umgebungsgeräuschen.

📈

False-Positive-Rate

Gute Modelle erkennen das Wake Word zuverlässig, reagieren aber selten auf ähnliche Wörter. Das Gleichgewicht zwischen Sensitivität und Präzision ist die Kernherausforderung.

Warum Alexa „Alexa“ als Wake Word gewählt hat

Das Wake Word “Alexa” wurde bewusst gewählt: Es enthält den betonten Vokal “a” an zwei Stellen und das harte “x”—eine Kombination die in natürlicher Sprache selten vorkommt und damit False-Positives minimiert.

Auch “Ok Google” und “Hey Siri” folgen diesem Prinzip: markante, seltene Silbenkombinationen die sich akustisch klar von Alltagswörtern unterscheiden.

Eigenes Wake Word in Jarvis einrichten

Jarvis lässt sich mit einem eigenen Wake Word konfigurieren. Dafür sind diese Schritte notwendig:

Wake-Word-Modul aktivieren

Im Jarvis-Konfigurator das Wake-Word-Modul aktivieren. Du wählst dein Aktivierungswort—Standard ist “Jarvis”, aber jedes Wort mit klarer Aussprache funktioniert.

Vosk-Modell (automatisch installiert)

setup.bat installiert das deutsche Vosk-Sprachmodell automatisch. Es läuft vollständig lokal—kein Internet, kein Cloud-Account nötig.

Mikrofon-Test

Beim ersten Start führt Jarvis einen Mikrofon-Test durch. Gutes Signal-Rausch-Verhältnis verbessert die Erkennungsrate deutlich.

Sensitivität anpassen

In der .env-Datei lässt sich die Wake-Word-Sensitivität feinjustieren: höhere Werte = mehr Erkennungen, aber mehr False-Positives.

Tipps für zuverlässige Wake-Word-Erkennung

Ruhige Umgebung: Hintergrundgeräusche (TV, Musik) erhöhen False-Positives und senken die Erkennungsrate.
Mikrofon-Qualität: Ein USB-Mikrofon oder Headset ist zuverlässiger als das eingebaute Laptop-Mikrofon.
Wake-Word-Wahl: Wörter mit 2–3 Silben und klaren Vokalen (“Jarvis”, “Computer”) werden besser erkannt als kurze Wörter.
Deutliche Aussprache: Beim ersten Sprechen des Wake Words deutlich und in normalem Tempo sprechen—das Modell passt sich an.
Windows-Audiotreiber: Aktuelle Audiotreiber und das richtige Standardmikrofon in Windows-Einstellungen sind Pflicht.

Wake Word auf deinem Windows-PC

Registriere dich kostenlos, aktiviere das Wake-Word-Modul und sprich deinen persönlichen Assistenten in 5 Minuten an.

Jetzt kostenlos starten