Auch als elektronisches Dokument verfügbar: http://scitation.aip.org/getpdf/servlet/GetPDFServlet?filetype=pdf&id=JASMAN000128000005003126000001&idtype=cvips&doi=10.1121/1.3493450&prog=normal
Acoustical Society of America The journal of the Acoustical Society of America Melville, NY : AIP, 1929 128(2010), 5, Seite 3126-3141
Ziel der vorliegenden Dissertation ist die Analyse und Verbesserung automatischer Spracherkennung (ASR). Da das menschliche auditorische System heutigen ASR-System weit überlegen ist, wurde zunächst die Erkennungsleistung von Mensch und Maschine verglichen. Aus den spezifischen Unterschieden wurden Rückschlüsse auf Signalverarbeitungsmechanismen gezogen, die zu einer Verbesserung von ASR führen. Beim Vergleich wurde insbesondere der Einfluss intrinsischer Variabilität (Änderungen der Sprachrate, des Sprachaufwands und -stils, sowie Dialekt und Akzent) evaluiert. Die Ergebnisse belegen, dass die Verarbeitung zeitlicher Merkmale in ASR Optimierungspotential birgt. Daher wurden spektro-temporale Merkmale für ASR eingesetzt, mit denen bei verändertem Sprachaufwand und variierender Sprechweise eine Verbesserung gegenüber Standardmerkmalen erzielt wurde; dies belegt die Nützlichkeit spektro-temporaler und temporaler Information für automatische Erkenner. <dt.>
The aim of this thesis is the analysis and improvement of automatic speech recognition (ASR). Since the human auditory system outperforms current ASR systems in almost all conditions, the recognition performance of man and machine was compared in a first step. Based on the differences, the signal processing mechanisms were identified that are suitable to increase the robustness of ASR. The comparison focused on the influence of intrinsic variations of speech, i.e., changes in speaking rate, effort and style, as well as dialect and accent. The results show that the processing of temporal cues in ASR bears room for improvement. Therefore, spectro-temporal features were employed for ASR, which resulted in an increase of recognition performance for varying speaking effort and speaking style compared to standard features. This documents the usefulness of spectro-temporal and temporal information for automatic recognizers. <engl.>