Diese Arbeit behandelt statistisches 'Cocktail Party Processing': Lokalisation, Verfolgen und Hervorhebung von Stimmen in Sprachlärm oder nichtstationären Störgeräuschen mit hohem Pegel. Als Strategien dienten die Verbindung binauraler und spektro-temporaler Information, die Kombination von Merkmalen über Frequenz und Zeit anhand eines probabilistischen Ansatzes, und die Behandlung von Sprache als mehrdimensionales statistisches Signal. Hierzu wurden Bayes'sche Schätzverfahren, Sequenzielle Monte Carlo Methoden, und die statistische Auswertung von Sprachdatenbanken verwendet. Drei, teilweise in Echtzeit ausführbare, on-line Algorithmen wurden entwickelt. Sie erlauben eine robuste, effiziente und exakte Lokalisation von Schallquellen selbst bei niedrigen Signal-Rausch-Abständen (SNR) und Verfolgung und Trennung von Stimmen mit Konvergenzzeiten zwischen 50 und 200 ms. Der mehrdimensionale statistische Ansatz ermöglicht es, akustische Szenen bei niedrigen SNR zu analysieren. <dt.>
This work focuses on 'statistical cocktail party processing': localization, tracking, and enhancement of voices in concurrent speech or in high levels of nonstationary noise. Key strategies are to link binaural and spectro-temporal information, to combine cues across frequency and time by a probabilistic approach, and to treat speech as a multidimensional stochastic signal, using a priori knowledge about it. To implement these, Bayesian estimation, sequential Monte Carlo methods, and statistical evaluation of speech databases are used. Three on-line algorithms are developed and tested, which run partly in real-time. They allow for a robust, efficient and exact sound localization even at low signal-to-noise ratios (SNRs), and successful tracking and separation of voices with convergence times between 50 and 200 ms. The multidimensional statistical approach allows to analyze acoustical scenes at low SNR, showing that the described strategies might help to interpret auditory processing. <engl.>