Gadgets

Goog­le-KI erkennt Ein­zel­per­so­nen in Stimmengewirr

Google forscht in vielen Bereichen – so auch zur Stimmenerkennung bei Lärm.

Goog­le kann die Audio­si­gna­le einer gan­zen Men­schen­men­ge auf­neh­men – und mit­tels künst­li­cher Intel­li­genz (KI) ein­zel­ne Stim­men her­aus­fil­tern und Per­so­nen zuord­nen. Der Such­ma­schi­nen­rie­se hat die dazu benö­tig­te Tech­nik nun vorgestellt.

Was nach einer beklem­men­den Zukunfts­vi­si­on wie bei Geor­ge Orwell klingt, ist offen­bar bereits Rea­li­tät: Auf sei­nem For­schungs-Blog erklärt Goog­le aus­führ­lich, wel­che Vor­aus­set­zun­gen gege­ben sein müs­sen, um eine so kom­pli­zier­te Auf­ga­be bewäl­ti­gen zu kön­nen. Damit das soge­nann­te “Deep-Lear­ning-Sys­tem” die Stim­men fil­tern kann, muss es zum Bei­spiel die Gesich­ter der Per­so­nen sehen kön­nen. So kann die KI die Sprech­wei­se ken­nen­ler­nen – und dann im zwei­ten Schritt auch bei einer Viel­zahl an Hin­ter­grund­ge­räu­schen wiederfinden.

Ein­tei­lung in Spuren

Damit die­ses Vor­ge­hen funk­tio­niert, muss die KI von Goog­le aller­dings vie­le Sze­ne­rien sehen, in denen Stück für Stück mehr Geräu­sche hin­zu­kom­men. Auf die­se Wei­se lernt das Sys­tem, die Stim­men in ver­schie­de­ne Spu­ren ein­zu­tei­len – und auch dann noch von­ein­an­der tren­nen zu kön­nen, wenn vie­le Geräu­sche und Klän­ge zur Über­la­ge­rung hinzukommen.

Ein You­Tube-Video zeigt, wie das in der Pra­xis von­stat­ten­geht: Ein Mann sitzt in einer Kan­ti­ne und spricht zu der Kame­ra. Im Hin­ter­grund sind sehr vie­le ande­re Stim­men zu hören. In der zwei­ten Hälf­te des Clips hat die KI die Stim­me iso­liert und ver­stärkt; die Geräu­sche im Hin­ter­grund wer­den auf ein flir­ren­des Rau­schen reduziert.

Hier kli­cken, um den Inhalt von You­Tube anzuzeigen.
Erfah­re mehr in der Daten­schutz­er­klä­rung von YouTube

Vie­le Optio­nen für Stimmenerkennung

Die Ein­satz­mög­lich­kei­ten für eine sol­che Tech­no­lo­gie sind viel­fäl­tig. So kann Goog­le die KI zum Bei­spiel dazu benut­zen, um den gespro­che­nen Text in Vide­os zu extra­hie­ren und etwa Unter­ti­tel hin­zu­zu­fü­gen. Stich­wort: Barrierefreiheit.

Auch Jour­na­lis­ten dürf­ten sich freu­en, die Inter­views in gro­ßen Men­schen­men­gen oder an lau­ten Orten füh­ren und kein spe­zi­el­les Richt­mi­kro­fon besit­zen. Wie Caschys Blog berich­tet, ist aber bei­spiels­wei­se auch das US-Mili­tär ein Kun­de von Goog­le – ent­spre­chend ist auch ein Über­wa­chungs­sze­na­rio wie in Geor­ge Orwells Roman 1984 denkbar.

Time to share:  Falls dir dieser Artikel gefallen hat, freuen wir uns!