Aktuelles

Microsoft Teams nutzt künstliche Intelligenz, um die Akustik zu verbessern

Microsoft Teams nutzt künstliche Intelligenz, um die Akustik zu verbessernKI ist längst im Arbeitsalltag angekommen. So hat Microsoft in den letzten zwei Jahren einige neue Produktivitätsfunktionen in die Kommunikationsplattform Teams implementiert. Jetzt wurden die grundlegenden Funktionen noch einmal überarbeitet und dabei setzen auch die Redmonder verstärkt auf künstliche Intelligenz.

Wir alle waren schon einmal in einem Call, in dem jemand aufgrund der schlechten Raumakustik nur schwer zu verstehen war. Oder wir haben erlebt, wie sich zwei oder mehr Personen beim Versuch gleichzeitig zu sprechen, gegenseitig auf die Füße getreten sind. Was oft zu peinlichen Situationen führt: "Nein, Sie zuerst!" - "Nein, bitte sprechen Sie zuerst!". Das ist der Produktivität geführter Online-Gespräche nicht gerade zuträglich. Die neuen KI-gestützten Verbesserungen der Sprachqualität von Microsoft sollen diese alltäglichen Ärgernisse verbessern oder sogar beseitigen.

Microsoft nutzt jetzt ein maschinelles Lernmodell, um die Raumakustik zu verbessern. So sollen die Teilnehmer an einem Videocall nicht mehr klingen, als würden sie sich in einer Höhle verstecken. "Während wir mit digitaler Signalverarbeitung unser Bestes gegeben haben, um in Teams wirklich gute Arbeit zu leisten, haben wir jetzt zum ersten Mal maschinelles Lernen eingesetzt, um eine Echounterdrückung zu entwickeln, mit der man das Echo von all den verschiedenen Geräten wirklich reduzieren kann", erklärt Robert Aichner, Principal Program Manager für Intelligent Conversation and Communications Cloud bei Microsoft, in einem Interview mit The Verge.

Microsoft hat monatelang getestet und seine Akustik-Modelle in der realen Welt justiert. Damit soll sichergestellt werden, dass die Nutzer von Teams die Echounterdrückung und die Verbesserung der Gesprächsqualität auch wirklich bemerken. Rund 30.000 Stunden Sprachaufnahmen sind in das Training der KI eingeflossen. Zudem wurden durch Crowdsourcing tausende von Geräten erfasst, bei dem Teams-Nutzer dafür bezahlt wurden, ihre Stimme aufzunehmen und Audio von ihrem Gerät wiederzugeben.

"Wir simulieren auch etwa 100.000 verschiedene Räume, denn die Raumakustik spielt eine große Rolle bei der Echounterdrückung", sagt Aichner. Das Ergebnis ist eine deutliche Verbesserung der Audioqualität bei Anrufen und eine Echounterdrückung, die es auch mehreren Personen ermöglicht, gleichzeitig zu sprechen. Im folgenden Video werden die Verbesserungen erläutert.

Wenn Teams feststellt, dass es im Verlauf des Gesprächs zu unschönen Reflexionen kommt, konvertiert das Modell die aufgenommenen Audiodaten und verarbeitet sie so, dass sie so klingen, als würden die Teams-Teilnehmer in ein Mikrofon mit geringem Abstand sprechen - ohne Hall und Echo-Erscheinungen. Nun kann man sich auch bei Teams gegenseitig unterbrechen, ohne dass es zu Verzögerungen durch Echos kommt. Zusätzlich zu den bereits ausgelieferten Funktionen zur Geräuschunterdrückung, wird der Klang von Teams nun deutlich verbessert. Die gesamte Verarbeitung der entsprechenden AUdio-Daten erfolgt zudem nun lokal auf den Client-Geräten und nicht mehr in der Cloud.

Hinzugekommen sind außerdem einige Echtzeit-Bildschirmoptimierungen für Text in Videos und KI-basierte Verbesserungen bei Bandbreitenbeschränkungen während Video-Calls oder Screen-Sharing-Anrufen.

14.06.2022

RSS Newsfeed
Alle News vom TAGWORX.NET Neue Medien können Sie auch als RSS Newsfeed abonnieren, klicken Sie einfach auf das XML-Symbol und tragen Sie die Adresse in Ihren Newsreader ein!