Sprich mit mir, ChatGPT! Die brandneue Sprachausgabe im Fokus
- juliabitschi40
- 5. Juni 2024
- 3 Min. Lesezeit

Hallo liebe Community!
In unserem heutigen ChatGPT-Einmaleins werfen wir einen genaueren Blick auf die neue Sprachausgabe von ChatGPT. Diese Funktion ist weit mehr als nur ein nettes Extra – sie bringt ChatGPT auf ein neues Interaktionsniveau und macht Sprachassistenten wie Alexa oder Siri teilweise überflüssig. Auch der wieder aktivierte Internetzugang von ChatGPT spielt dabei eine wichtige Rolle und dürfte Teil einer klaren Strategie von OpenAI sein. Die Kombination aus natürlicher Sprachausgabe und Internetanbindung markiert einen echten Innovationssprung im Bereich der KI-Assistenten.
Doch wie können wir dieses neue Feature optimal nutzen?
Welche Einstellungsmöglichkeiten stehen zur Verfügung, und wie schlagen sich die fünf verfügbaren Stimmen in der Praxis?Also: Kaffee oder Espresso schnappen – los geht’s!
Wo finde ich die Sprachausgabe für ChatGPT?
Seit Ende November steht „Chat GPT Voice“ kostenlos für alle Nutzer zur Verfügung.Es ist sehr wahrscheinlich, dass die Sprachausgabe inzwischen auch auf dem iPad verfügbar ist, zumindest für Nutzer:innen mit aktuellster App‑Version.Wenn du auf deinem iPad noch keinen Zugriff hast, könnte es an einem der folgenden Faktoren liegen:
· Die App‑Version ist veraltet → Update prüfen.
· Regionale Rollout‑Beschränkung oder Dein Gerät ist aus technischen Gründen noch nicht freigeschaltet.
· Einstellung oder Beta‑Features sind noch nicht aktiviert.
Schritt-für-Schritt-Anleitung zur Aktivierung:
a) Öffne das Einstellungsmenü der ChatGPT-App. Unter dem Punkt „Neues“ oder „Beta Features“ findest du die Option „Speech“, sofern sie für dich bereits freigeschaltet ist.
b) Unter „Speech“ kannst du sowohl die Stimme („Voice“) als auch die bevorzugte Sprache („Main Language“) auswählen.
Auswahl und Anpassung der Stimmen
Es gibt fünf verschiedene Stimmen zur Auswahl, die sich für unterschiedliche Zwecke und Stimmungen eignen.Jede Stimme besitzt eigene Merkmale in Tonhöhe, Betonung und Akzent.
Stimmenauswahl und Anwendungsgebiete
a) Sky:Weibliche StimmeWarm und neutralModerate TonlageLangsame AusspracheMonotone BetonungStarker AkzentPerfekte Pausen in der Aussprache
Geeignet für sachliche Texte, Beschreibungen, Nachrichten oder Zusammenfassungen.
b) Ember:Männliche StimmeJunge und lebhafte TonalitätSchnelle AusspracheDeutliche Betonung
Ideal für Werbung, unterhaltsame Inhalte oder motivierende Texte.
c) Breeze:Männliche StimmeQuirlig und jugendlichHohe TonlageSchnelle AussprachePodcast-ähnliche Stimme
Perfekt für Social-Media-Inhalte, Podcasts oder kurze Videoformate.
d) Juniper:Weibliche StimmeJung und lebhaftHohe TonlageSchnelle AusspracheVerbesserte Betonung im Vergleich zu Sky
Optimal für Hörbücher und erzählerische Formate geeignet.
e) Cove:Männliche StimmeNeutral und warmMäßige bis niedrige TonlageLangsame AusspracheLeichte Betonung
Universell einsetzbar – besonders für erklärende oder informative Texte.
Neben der Standardsprache Englisch unterstützt ChatGPT zwar bis zu über 50 Sprachen, aber nicht jede Sprache wird gleich gut unterstützt (z. B. Akzent, Aussprache, regionale Variation).
Stärken und Schwächen der neuen Sprachausgabe Stärken:
Sehr natürlich wirkende Sprachwiedergabe mit realistischen Pausen, Betonungen und flüssigem Sprachrhythmus.
Gute Kontextverständnis bei Satzzeichen und längeren Texten.
Verschiedene Stimmen für unterschiedliche Einsatzgebiete – von sachlich bis lebhaft.
Die Spracherkennung funktioniert inzwischen in mehreren Sprachen zuverlässig.
Der gesprochene Text wird parallel im Chatfenster angezeigt – ideal zum Mitlesen.
Schwächen:
Emotionale Inhalte (z. B. traurige Themen) werden nicht authentisch wiedergegeben.
Hohe Serverauslastung kann zu kurzen Aussetzern oder Artefakten führen.
Unklare Aussprache kann Fehlinterpretationen verursachen, z. B. „Chatchipiti“ statt ChatGPT.
Ein versehentliches Tippen auf den Bildschirm kann das Gespräch beenden – ein echter UX-Mangel.
Die Sprachausgabe lässt sich derzeit nicht per Sprache stoppen.
Alle Stimmen haben noch einen spürbaren amerikanischen Akzent, da sie noch nicht vollständig lokalisiert sind.
Bonus: Custom Instructions in Kürze erklärt
In diesem Zusammenhang lohnt sich auch ein Blick auf die „Custom Instructions“ – sie sind nun vollständig in Deutschland verfügbar. CIs sind individuelle Anweisungen, mit denen du ChatGPT persönliche Präferenzen, Rollen oder Ziele vorgibst.Der Vorteil: Du musst diese Angaben nicht bei jedem neuen Chat wiederholen – das spart Zeit und macht die Nutzung komfortabler. Nutzerinnen und Nutzer können bis zu zwei Eingabefelder mit insgesamt 1500 Zeichen befüllen – etwa für gewünschte Tonalität oder Antwortformate.
Mehr Informationen findest du im Blog von Duffner PR unter www.duffner-pr.de oder im kommenden LinkedIn-Artikel.
Fazit
Die neue Sprachausgabe von ChatGPT ist ein klarer Meilenstein: Sie macht die KI greifbarer, natürlicher und interaktiver. Zwar gibt es noch kleinere Schwächen bei Emotion und Akzent, doch das Nutzererlebnis ist schon jetzt beeindruckend.




Kommentare