Suche in der Hochschulbibliografie

1

Artikel

Automatische Schätzung wichtiger Nachhallparameter

von H. Gölzer ; Michael Kleinschmidt

2003

Details anzeigen

2

E-Book

Robust speech recognition based on spectro-temporal processing

2003

Details anzeigen

ISBN: 3814208730

Beteiligte Personen (Uni Oldenburg): Kleinschmidt, Michael

Verlag: Oldenburg: Bibliotheks- und Informationssystem der Univ.

Umfang: Online-Ressource (PDF-Datei: VIII, 205 S., 2,9 MB).

Weitere Angaben:

Auch als gedr. Ausg. vorh ; Zugl.: Oldenburg, Univ., Diss., 2002

Schlagwörter: HochschulschriftAutomatische SpracherkennungRobustheitSignal-Rausch-AbstandPsychoakustikAkustikPsychophysikStörabstandSprachverarbeitung

Beschreibung:

In dieser Dissertation werden neuartige spektro-temporale Merkmale untersucht, die einer Verbesserung der Robustheit automatischer Spracherkennungssysteme unter ungünstigen akustischen Bedingungen dienen sollen. Ergebnisse physiologischer und psychoakustischer Arbeiten weisen auf eine wichtige Rolle spektro-temporaler Verarbeitung bei der Sprachwahrnehmung des Menschen hin. Daher werden Sigma-pi Zellen und Gabor Filter als Methoden zur Extraktion sekundärer Merkmale auf Basis einer spektro-temporalen Repräsentation evaluiert. Insbesondere die Gabor Merkmale beinhalten das Cepstrum sowie eine rein zeitliche Filterung als Spezialfälle, wobei darüber hinaus auf spektro-temporale Modulationen gezielt wird. Eine datenbasierte Methode zur Merkmalsselektion wird zur Optimierung der Merkmalssätze verwendet. Beide Typen von Merkmalen zeigen eine erhöhte Robustheit bei Experimenten mit kleinen Wortschätzen. Sigma-p Zellen erlauben zudem eine Schätzung des Sprach-zu-Rausch-Abstandes des Eingangssignals allein aufgrund kleiner spektro-temporaler Modulationen. Durch Anhängen von Gabor-basierten Merkmalen kann die Erkennungsleistung des Qualcomm-ICSI-OGI Erkenners im Aurora Experiment weiter verbessert werden. <dt.>

In this thesis, novelle spectro-temporal feature extraction techniques are evaluated for enhancing the robustness of automatic speech recognition systems (ASR) in adverse acoustical conditions. Recent physiological and psychoacoustical findings indicate that spectro-temporal processing plays an important role in human speech perception. Therefore, sigma-pi cells and Gabor filter functions are investigated as secondary feature extraction methods based on a spectro-temporal representation. Especially the Gabor features are versatile enough to include cepstral features and purely temporal filtering as special cases, while additionally aiming at combined spectro-temporal modulations. A data driven feature selection method is applied for feature set optimization. For small vocabularies, both types of features are shown to increase the robustness of ASR systems. Sigma-pi cells also allow for estimating the speech-to-noise ratio of an input signal solely based on low spectro-temporal modulation. The Gabor based Tandem feature sets increase the performance of the Qualcomm-ICSI-OGI system for the Aurora task, when concatenating the two streams. <engl.>

Notation: phy 214inf 827

Sprache: Englisch

3

Artikel

Sub-band SNR estimation using audiotry feature processing

von Michael Kleinschmidt ; Volker Hohmann

2003

Details anzeigen

4

Artikel

Computational scene analysis of cocktail-party situations based on sequential Monte Carlo methods

von Johannes Nix ; Michael Kleinschmidt ; Volker Hohmann