Google kann die Audiosignale einer ganzen Menschenmenge aufnehmen – und mittels künstlicher Intelligenz (KI) einzelne Stimmen herausfiltern und Personen zuordnen. Der Suchmaschinenriese hat die dazu benötigte Technik nun vorgestellt.
Was nach einer beklemmenden Zukunftsvision wie bei George Orwell klingt, ist offenbar bereits Realität: Auf seinem Forschungs-Blog erklärt Google ausführlich, welche Voraussetzungen gegeben sein müssen, um eine so komplizierte Aufgabe bewältigen zu können. Damit das sogenannte “Deep-Learning-System” die Stimmen filtern kann, muss es zum Beispiel die Gesichter der Personen sehen können. So kann die KI die Sprechweise kennenlernen – und dann im zweiten Schritt auch bei einer Vielzahl an Hintergrundgeräuschen wiederfinden.
Einteilung in Spuren
Damit dieses Vorgehen funktioniert, muss die KI von Google allerdings viele Szenerien sehen, in denen Stück für Stück mehr Geräusche hinzukommen. Auf diese Weise lernt das System, die Stimmen in verschiedene Spuren einzuteilen – und auch dann noch voneinander trennen zu können, wenn viele Geräusche und Klänge zur Überlagerung hinzukommen.
Ein YouTube-Video zeigt, wie das in der Praxis vonstattengeht: Ein Mann sitzt in einer Kantine und spricht zu der Kamera. Im Hintergrund sind sehr viele andere Stimmen zu hören. In der zweiten Hälfte des Clips hat die KI die Stimme isoliert und verstärkt; die Geräusche im Hintergrund werden auf ein flirrendes Rauschen reduziert.
Viele Optionen für Stimmenerkennung
Die Einsatzmöglichkeiten für eine solche Technologie sind vielfältig. So kann Google die KI zum Beispiel dazu benutzen, um den gesprochenen Text in Videos zu extrahieren und etwa Untertitel hinzuzufügen. Stichwort: Barrierefreiheit.
Auch Journalisten dürften sich freuen, die Interviews in großen Menschenmengen oder an lauten Orten führen und kein spezielles Richtmikrofon besitzen. Wie Caschys Blog berichtet, ist aber beispielsweise auch das US-Militär ein Kunde von Google – entsprechend ist auch ein Überwachungsszenario wie in George Orwells Roman 1984 denkbar.