Elsevier

Signal Processing

Volume 46, Issue 1, September 1995, Pages 1-14
Signal Processing

Paper
An EM-based approach for parameter enhancement with an application to speech signals

https://doi.org/10.1016/0165-1684(95)00068-OGet rights and content

Abstract

This paper considers the estimation of signal parameters and their enhancement using an approach based on the estimation-maximation (EM) algorithm, when only noisy observation data are available. The algorithm is derived with an application to speech signals. The distribution of the excitation source for the speech signal is assumed as a mixture of two Gaussian probability distribution functions with differing variances. This mixture assumption is experimentally valid in enhancing noise-corrupted speech. We recursively estimate the signal parameters and analyze the characteristics of its excitation source in a sequential manner. In the maximum likelihood estimation scheme we utilize the EM algorithm, and employ a detection and an estimation step for the parameters. For their enhancement we use a Kalman filter for the parameters obtained from the estimation procedure. Simulation results using synthetic and real speech data confirm the improved performance of our algorithm in noisy situations, with an increase of about 3 dB in terms of output SNR compared to conventional Gaussian assumption. The proposed algorithm also may be noteworthy in that it needs no voiced/unvoiced decision logic, thanks to the use of the residual approach in the speech signal model.

Zusammenfassung

Dieser Beitrag behandelt die Schätzung von Signalparametern und ihre Verbesserung unter Verwendung eines Ansatzes, der auf dem “Schätzungs-Maximierungs- (“EM-”) Algorithmus beruht, wobei nur verrauschte Daten verfügbar sind. Der Algorithmus wird für eine Anwendung auf Sprachsignale hergeleitet. Für die Verteilung der Erregungsquelle für das Sprachsignal wird eine Mischung zweier Gauβ-Verteilungsdichtefunktionen mit unterschiedlichen Varianzen angenommen. Diese Mischungsannahme erweist sich im Experiment bei der Verbesserung verrauschter Signale als gültig. Wir schätzen die Signalparameter rekursiv und analysieren die Eigenschaften der Erregungsquelle in sequentieller Weise. Den EM-Algorithmus nutzen wir innerhalb des Maximum-Likelihood-Schätzverfahrens, und wir verwenden einen Detektions- und einen Schätzschritt für die Parameter. Zu ihrer Verbesserung verwenden wir ein Kalmanfilter für die Parameter, die wir aus der Schätzprozedur erhalten haben. Simulationsergebnisse auf der Basis künstlicher und echter Sprachdaten bestätigen die bessere Leistungsfähigkeit unseres Algorithmus in Störsituationen durch eine 3-dB-Verbesserung gegenüber dem SNR bei einer normalen Gauβ-Annahme. Bemerkenswerterweise benötigt der vorgeschlagene Algorithmus dank der Verwendung eines Restsignal-Ansatzes im Sprachmodell keine Stimmhaft/ Stimmlos-Entscheidung.

Résumé

Cet article étudie l'estimation des paramètres du signal et leur rehaussement en utilisant une approche basée sur l'algorithme d'estimation-maximisation (EM), dans le cas où seules des données d'observation bruitées sont disponibles. L'algorithme est dérivé en vue d'une application aux signaux de parole. La distribution de la source d'excitation est supposée être un mélange de deux fonctions de distribution de probabilité gaussienne avec des variances différentes. Cette hypothèse a été validée expérimentalement pour le rehaussement de la parole corrompue par du bruit. Nous estimons récursivement les paramétres du signal et analysons les charactéristiques de sa source d'excitation de manière séquentielle. Dans le cadre de l'estimation au maximum de vraisemblance nous utilisons l'algorithme EM et employons un pas de detection et d'estimation pour les paramètres. Pour le rehaussement, nous utilisons un filtre de Kalman pour les paramètres obtenus par la procedure d'estimation. Les résultats de simulation utilisant des données de parole, synthétique et réelle, confirme les meilleures performances de notre algorithme dans les situations de bruit, avec un accroissement d'environ 3 dB du rapport signal-sur-bruit de sortie par rapport à l'hypothèse gaussienne conventionnelle. L'algorithme proposé peut aussi être digne d'attention en ce qu'il ne nécessite aucune logique de décision énoncé/ non-énoncé, grâce à l'utilisation de l'approche résiduelle dans le modèle du signal de parole.

References (21)

  • A.K. Mahalanabis et al.

    Recursive decision directed estimation of reflection coefficients for seismic data deconvolution

    Automatica

    (1982)
  • B.D.O. Anderson et al.
  • A.P. Dempster et al.

    Maximum likelihood from incomplete data via the EM algorithm

    Ann. Roy. Stat. Soc. Ser. B.

    (December 1977)
  • Y. Ephraim

    A Bayesian estimation approach for speech enhancement using hidden Markov models

    IEEE Trans. Signal Process.

    (April 1992)
  • B.S. Everitt et al.
  • M. Feder et al.

    Parameter estimation of superimposed signals using the EM algorithm

    IEEE Trans. Acoust. Speech Signal Process.

    (April 1988)
  • P. Huber
  • R. Lagendijk et al.

    Identification and restoration of noisy blurred images using the expectation-maximization algorithm

    IEEE Trans. Acoust. Speech Signal Process.

    (July 1990)
  • B.-G. Lee et al.

    A sequential algorithm for robust parameter estimation and enhancement of noisy speech

  • C.-H. Lee

    On robust linear prediction of speech

    IEEE Trans. Acoust. Speech Signal Process.

    (May 1988)
There are more references available in the full text version of this article.

Cited by (27)

  • Multisensory processing for speech enhancement and magnitude-normalized spectra for speech modeling

    2008, Speech Communication
    Citation Excerpt :

    Based on the domain in which removal is done, speech enhancement algorithms may be classified under two broad categories, namely, time-domain based algorithms and spectral-domain based methods. For the former category, examples include (Paliwal and Basu, 1987; Gannot et al., 1998; Lee et al., 1995). For the latter, Quatieri (2002) provides a nice description of various algorithms including spectral subtraction, Wiener filtering, model-based processing and auditory masking.

  • Adaptive model-based speech enhancement

    2001, Speech Communication
    Citation Excerpt :

    We have published preliminary results in (Logan and Robinson, 1997a). Several other adaptive enhancement algorithms which make ML estimates of the unknown parameters have been proposed (Lee et al., 1995; Gannot, 1998; Lee et al., 1996). These approaches estimate the enhanced speech within a Kalman filter framework.

  • Iterative and sequential kaiman filter-based speech enhancement algorithms

    1998, IEEE Transactions on Speech and Audio Processing
View all citing articles on Scopus
View full text