Die Stimme des Google Assistant könnte in Zukunft genau wie ein echter Mensch klingen. Das belegen Sprachsamples einer neuen Software, die auf ein neurales Netzwerk setzt. Tacotron 2 – so der Name – liest eingegebenen Text vor und passt die Betonung korrekt an.
Stimmbeispiele von Tacotron 2 finden sich auf Googles Projektseite, wobei die Entwickler darauf hinweisen, dass die Software nicht speziell auf die Sätze trainiert wurde. So ist der Algorithmus etwa in der Lage, auch kompliziertes Fachvokabular natürlich wiederzugeben. Die englische Phrase “Basilar membrane and otolaryngology are not auto-correlations” (“Basilarmembran und Ohrenheilkunde sind keine Autokorrelationen”) dürfte dabei sogar so manchem Muttersprachler Probleme bereiten.
Aussprache und Betonung passt sich individuellen Sätzen an
Tacotron 2 kann die richtige Aussprache aus der Satzstellung ableiten, auch wenn die Schreibweise gleich ist. Die englische Sprache ist voller solcher Fallstricke. Den Beispielsatz “Don’t desert me here in the desert!” (“Lass mich nicht hier in der Wüste zurück!”) meistert das Programm aber offenbar mühelos und erkennt, dass es sich beim ersten “desert” um ein verb handelt und beim zweiten um ein Substantiv. Das gleiche gilt für “He thought it was time to present the present” (“Er glaubte es war Zeit, das Geschenk zu überreichen”).
Kleinere Rechtschreibfehler gleicht Tacotron 2 ebenfalls aus. “Thisss isrealy awhsome.” spricht das Programm korrekt aus als stünde dort “This is really awesome.” (“Das ist wirklich großartig.”). Die Aussprache passt sich zudem an vorhandene Kommata an. “This is your personal assistant, Google Home” klingt anders als “This is your personal assistant Google Home” – so wie es auch ein Mensch betonen würde. Ist ein Wort gefettet, hebt es Tacotron 2 es mit einer stärkeren Betonung hervor.
Keine Probleme mit Zungenbrechern
Die KI hebt ihre Stimme am Ende von Fragesätzen auf die korrekte Weise, und zwar auch dann, wenn sich der Fragesatz nur durch ein Interrogativpronomen, einer angepassten Verbform und ein Fragezeichen am Ende von einem Aussagesatz unterscheidet. So etwa in “The quick brown fox jumps over the lazy dog” (“Der flinke braune Fuchs springt über den faulen Hund”) und “Does the quick brown fox jump over the lazy dog?” (“Springt der flinke braune Fuchs über den faulen Hund?”).
Zungenbrecher meistert Tacotron ohne Schwierigkeiten, so etwa “Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?”, quasi das englische Pendant zu “Fischers Fritze fischt frische Fische”. Um zu demonstrieren, wie menschlich die Aussprache ist, finden sich ganz unten auf der Seite mehrere identische Sätze: Eine Version stammt von Tacotron 2, die andere von einem Menschen. Viel Spaß beim Heraushören.