Joint optimization of echo cancellers and multichannel noise suppression systems for stereo speech transmission

Ziel moderner Freisprecheinrichtungen ist die Sprachübertragung über große Distanzen ohne Beschränkungen für den Nutzer, sei es durch das Tragen eines Headsets oder einer Einschränkung seiner Bewegungsfreiheit. Bei der Verwendung von Freisprecheinrichtungen treten im Wesentlichen zwei Probleme auf. Zum einen kommt es durch den vergrößerten Abstand zwischen Mund und Mikrofon zu einem signifikanten Signal-to-Noise-Ratio (SNR)-Verlust, zum anderen wird das von den Freisprechlautsprechern abgestrahlte Signal von den Mikrofonen wieder aufgefangen. Dadurch hört der ferne Sprecher Teile seiner eigenen Sprache, verzögert um die Laufzeit des Systems. Dies wird als sehr störend empfunden. Der Lösung dieser beiden Probleme, insbesondere bei der ombination der beiden Teilsysteme zur Geräuschreduktion und zur Echokompensation widmet sich das durchgeführte Projekt.

In Rahmen dieses Projektes wurden die Kombinationsmöglichkeiten für Systeme zur Störgeräuschreduktion (Beamformer und/oder adaptive Nachfilter) und zur Echoreduktion (Acoustic Echo Canceller (AEC) und/oder adaptive Nachfilter) untersucht. Es konnte eine detaillierte theoretische Analyse der in der Literatur bekannten Verschaltung Echokompensator vor Beamformer vorgestellt werden, die neue Einblicke ermöglicht. Mehrere für die Praxis relevante Nebenbedingungen für die Minimum Mean Square Error (MMSE)-Lösung eines AECs vor einem Minimum Variance Distortionless Response (MVDR)-Beamformer wurden diskutiert.

Die Schätzung des Restecholeistungsdichtespektrums spielt für den robusten Entwurf von Nachfiltern eine entscheidende Rolle. Es wurden verschiedene Möglichkeiten zur Schätzung des Restecholeistungsdichtespektrums untersucht und verglichen, insbesondere im Zusammenhang mit einem System zur Störgeräuschkompensation (Beamformer) und einem Stereo-Freisprechsystem. Um dem Nutzer eines Freisprechsystems räumliche Informationen darbieten zu können, ist eine Übertragung über zwei oder mehr Kanäle notwendig. Es wurden daher sowohl Stereo-Systeme zur Störgeräuschreduktion wie auch zur Echokompensation untersucht. Das in der Literatur bekannte Stereo-Problem der Echokompensation wurde detailliert untersucht und neue Erkenntnisse bei der Verwendung endlicher Fensterfunktionen vorgestellt. Eine Fensterung des Eingangssignals ist inhärent durch die zugrunde liegende Blockverarbeitung stets gegeben. Ein Zusammenhang zwischen der gewählten Fensterfunktion und der gewählten Blocklänge auf die Kohärenz des
Lautsprechersignals konnte analysiert werden. Die Kohärenz der Lautsprecherkanäle hat direkten Einfluss auf das Konvergenzverhalten mehrkanaliger Algorithmen zur Echokompensation.

Verschiedene Optimierungskriterien für den Entwurf adaptiver Algorithmen wurden untersucht. Das überwiegend verwendete MMSE-Kriterium, also eine Minimierung eines quadratischen Fehlers, reduziert zwar die Leistung eines evtl. vorhandenen Störgeräusches bzw. Echos, diese Vorgehensweise muss jedoch nicht notwendigerweise auf Algorithmen führen, die für einen menschlichen Nutzer angenehm klingen. Ein bekanntes Beispiel für die Nachteile einer MMSE-Optimierung ist die bekannte Musical-Noise-Störung, die verbleibt. Es wurden daher psychoakustische Verfahren zur Störgeräuschreduktion und Echokompensation für den mehrkanaligen Fall erweitert und untersucht. Dabei ist das Ziel nicht, die Leistung der Störung optimal zu minimieren, sondern die (Rest-)Störung natürlich klingen zu lassen.

Für den Entwurf von Nachfiltern ist, wie auch für viele andere in der Sprachsignalverarbeitung übliche Algorithmen, eine zuverlässige Bestimmung von Gegensprechen wichtig. Viele adaptive Verfahren müssen bei einer hohen Leistung des Signals eines aktiven nahen Sprechers angehalten oder verlangsamt werden um eine Konvergenz zu einer Optimallösung zu gewährleisten. Daher wurden verschiedene Algorithmen zur Erkennung von Gegensprechen vorgestellt und verglichen. Es wurde beispielsweise der Bündelungsfaktor eines vorgeschalteten Mikrofonarrays, das Minimum-Statistics-Verfahren nach Rainer Martin oder die Kohärenz zwischen Mikrofon- und Lautsprecherkanal zur Erkennung eines aktiven nahen Sprechers ausgenutzt.

Details

Duration:	03/2003 - 02/2006
Funding:	German Research Foundation
Subsequent:	Combined optimization of echo compensation and and listening room compensation for hands-free teleconferencing