INTER-NOISE and NOISE-CON Congress and Conference Proceedings Washington, DC : Institute of Noise Control Engineering, 1971 2021 (2. Aug.), Artikel 2100, Seiten 2304-2312 Online-Ressource
International Conference on Immersive and 3D Audio (2021 : Online) 2021 Immersive and 3D Audio: from Architecture to Automotive (I3DA) [Piscataway, NJ] : IEEE, 2021 2021 (23. Nov.), insgesamt 8 Seiten 1 Online-Ressource
Diese Dissertation untersucht Algorithmen zum Schätzen der Tonhöhe menschlicher Sprache. Es existieren viele solcher Algorithmen, die auch in Rauschen präzise arbeiten. Die Tonhöhe ist allerdings eine menschliche Empfindung, und steht Algorithmen nicht zur Verfügung. Die Bewertung ihrer Genauigkeit ist daher schwer, und immer abhängig von der Verwendeten Wahrheit. Diese Dissertation stellt einen neuen Tonhöhen-Schätzungs-Algorithmus vor, der besonders robust gegen Rauschen ist, zeigt eine neue Tonhöhen-Wahrheit die besser passt als bestehende Wahrheiten, und endet mit einer Vergleichsstudie bestehender Algorithmen von noch nie dagewesenem Umfang. Diese Studie zeigt überraschend große versteckte Biase in bestehenden Sprach-Datenbanken und Auswertungsmethoden auf. Es gibt daher keinen besten Algorithmus, sondern die Wahl des Algorithmusses sollte unbedingt spezifisch auf die zu erwartenden Signale abgestimmt sein.
This dissertation investigates algorithms for estimating pitch in the human voice. Many such algorithms exist, and claim to be accurate even in high levels of noise. Pitch, however, is a human percept that strictly speaking only exists in the human brain, and is not directly available for testing algorithms. Evaluating algorithm accuracy is therefore difficult, and highly dependent on the choice of truth used for comparison. This dissertation introduces a new pitch estimation algorithm for the human voice that is accurate and robust to noise, proposes a new pitch ground truth that is a better fit for the task than previous truths, and evaluates existing pitch estimation algorithms in a comparison study of unprecedented scope. The results of this comparison reveal a surprising amount of hidden bias in existing speech corpora, as well as evaluation methods. Thus, the choice of algorithm should be highly dependent on the expected signals, with no one clear best choice for all applications.
Acoustical Society of America The journal of the Acoustical Society of America Melville, NY : AIP Publ., 1929 147(2020), 6, Seite 4041-4054 Online-Ressource