Machine Learning Based Speech Separation

home › theses & projects › Machine Learning Based Speech Separation
Machine Learning Based Speech Separation

Status
Finished
Type
Master Thesis
Announcement date
01 Jan 2022
Student
Sandro Eitzinger
Mentors
Franz Pernkopf
Research Areas
 Die Fähigkeit des menschlichen Gehirns, einen einzelnen Sprecher in einer Mischung aus Sprechern und Geräuschen zu erkennen, ist beispiellos. Einem Computer dasselbe beizubringen, ist eine schwierige Aufgabe, bei der sich die Forschung oft an der menschlichen Wahrnehmung von auditorischen Reizen inspiriert. Verschiedene Anwendungen, von Hörgeräten bis hin zu Sprachassistenten, stützen sich auf solche Modelle zur Sprachseparation. In dieser Arbeit werden die praktischen Aspekte der Sprachtrennung mit modernsten maschinellen Lernmodellen diskutiert. Der Schwerpunkt liegt dabei auf dem Separate and Diffuse Modell. Die erforderlichen Teilmodelle, d.h. ein deterministisches Separatormodell und ein auf Diffusion basierendes Vocodermodell, werden vorgestellt. Das Diffusionsmodell wird auf Mel-Spektrogramm-Darstellungen von Ein-Sprecher-Audio-Äußerungen trainiert. Anschließend wird ein neuronales convolutional Netzwerk trainiert, das die Schätzung des Separators und die verrauschte Schätzung des Diffusionsmodells abgleicht und zusammenführt. Zu diesem Zweck wurden mehrere Standarddatensätze für die Quellenseparation, darunter WSJ0-2/3mix, libri2/3mix, WHAM! und WHAMR! generiert. Ein zweistufiger Trainingsansatz war erforderlich: Zunächst wurden die Diffusions- und Separatormodelle auf den Rohdatensätzen, d.h. WSJ0 und LibriSpeech, trainiert. Dann wurde das Alignment-Netzwerk mit dem Diffusionsmodell und dem Separator als vortrainierte Modelle in der maschinellen Lernpipeline trainiert. Dieser Ansatz führte zu SI-SDR-Werten von 22,9 dB und 21,0 dB für die WSJ0-2mix bzw. WSJ0-3mix-Benchmarks, die die Benchmarks der Basismodelle. Als Nächstes wurde ein Ensemble-Ansatz, d.h. die Ersetzung des Diffusionsmodells durch ein anderes deterministisches Separatormodell und die Zusammenführung der beiden Schätzungen implementiert und bewertet. Das diffusionsbasierte Modell lieferte zufriedenstellende Ergebnisse, wich jedoch von den in der ursprünglichen Arbeit beschriebenen Benchmarks ab. Der auf dem Ensemble basierende Ansatz führte zu schlechteren Ergebnissen. Das Ensemble-Modell zeigte zwar Potenzial, konnte aber keine zufriedenstellenden Ergebnisse liefern. Auch wenn die Ergebnisse auf dem Papier zufriedenstellend sind, wird empfohlen, einfach die die Basismodelle zu verwenden, um den Rechenaufwand und die Komplexität zu vermeiden, die durch die in dieser Arbeit diskutierte Architektur entstehen. Der Ensemble-basierte Ansatz führte zu unterdurchschnittlichen Ergebnissen von 19,7 dB bei WSJ0-2mix bzw. 13,7 dB bei WHAMR!. Das Modell zeigte zwar Potenzial, war aber nicht in der Lage, zufriedenstellende Ergebnisse zu erzielen. Insgesamt rechtfertigt die Verbesserung des Separate- und Diffuse-Modells nicht die zusätzliche Komplexität und den zusätzlichen Rechenaufwand. Daher wird empfohlen, in realen Anwendungen die Basismodell zu verwenden.