Sparse Pulsed Auditory Representations For Speech and Audio Coding

PhD Student 
Research Area

 

 Gehörmodellierung ist eine gut bekannte Methode, die Einblicke in die menschliche Wahrnehmung gewährt und für Kodierungsanwendungen die Extrahierung von jenen Signalmerkmalen ermöglicht, die für einen Zuhörer am wichtigsten sind. Diese Dissertation beschäftigt sich mit dem Ansatz der 'Kodierung in der perzeptiven Domäne' und hat ein invertierbares Gehörmodell als Grundlage, das eine gepulste Signaldarstellung des Audiosignales liefert. Bei dieser Signaldarstellung ist die Pulsanzahl zu groß, um eine Kodierung mit geringer Bitrate zu erreichen. Der Schwerpunkt dieser Arbeit ist das Ausdünnen der gepulsten Signaldarstellung, d.h. das Entfernen von perzeptueller Irrelevanz und Redundanz, um eine kompakte Signaldarstellung zu erhalten, die einerseits eine effiziente Kodierung ermöglicht und andererseits die Rekonstruktion des Signales mit transparenter Qualität zulässt. Zu diesem Zweck schlagen wir die 'Transmultiplexer'-Betrachtungsweise von Wahrnehmungsdomänen-Kodierung vor, welche zu einem neuen Maskierungsmodell führt. Dieses Modell wird erfolgreich angewendet, um eine kompakte Signaldarstellung zu erhalten. Die Experimente zeigen, dass diese vorgeschlagene Signaldarstellung einen bemerkenswert hohen Rekonstruktionsfehler maskieren kann. Wir diskutieren Ansätze zur Kodierung von gepulsten Signaldarstellungen. Weiters beschäftigen wir uns mit rechenaufwandseffizienten Implementierungsmethoden für gehörbezogene Filterbänke, die Schlüsselkomponenten in Gehörmodellen darstellen.  

 

This thesis is supervised by Gernot Kubin.