Elsevier

Speech Communication

Volume 9, Issue 1, February 1990, Pages 15-29
Speech Communication

Phonetically-based multi-layered neural networks for vowel classification

https://doi.org/10.1016/0167-6393(90)90041-7Get rights and content

Abstract

The vowel sub-component of a speaker-independent phoneme classification system will be described. The architecture of the vowel classifier is based on an ear model followed by a set of Multi-Layered Neural Networks (MLNN). MLNNs are trained to learn how to recognize articulatory features like the place of articulation and the manner of articulation related to tongue position.

Experiments are performed on 10 English vowels showing a recognition rate higher than 95% on new speakers. When features are used for recognition, comparable results are obtained for vowels and diphthongs not used for training and pronounced by new speakers. This suggests that MLNNs suitably fed by the data computed by an ear model have good generalization capabilities over new speakers and new sounds.

Zusammenfassung

Beschrieben wird eine Klassifizierungsstufe für Vokale als Teil eines sprecherunabhängigen Phonemklassifizierungssystems. Die Architektur dieses Vokalklassifikators basiert auf einem Ohrmodell, das von einem Satz mehrschichtiger neuronaler Netze gefolgt wird. Diese neuronalen Netze werden darauf trainiert, artikulatorische Merkmale, wie z.B. den Ort der Artikulation oder die Art der Artikulation — bezogen auf die Position der Zunge — zu erkennen.

Experimente mit 10 englischen Vokalen ergeben eine Erkennungsrate von mehr als 95% für neue, dem System bisher unbekannte Sprecher. Werden phonetische Merkmale für die Erkennung herangezogen, so lassen sich vergleichbare Resultate für solche Vokale und Diphthonge erreichen, die für das Training nicht verwendet oder von neuen Sprechern geäuβert wurden. Dies legt nahe, daβ mehrschichtige neuronale Netze, auf passende Weise mit den Ausgangsdaten eines Ohrmodells angesteuert, sich bei der Erweiterung dieser Aufgabe auf neue Sprecher oder neue Laute als gut geeignet erweisen.

Résumé

Nous présentons un système de classification de phonèmes indépendant du locuteur et appliqué aux voyelles. L'architecture du classificateur de voyelles est basée surun modèle d'oreille suivi d'un ensemble de réseaux neuronaux à plusieurs couches (MLNN). Les MLNNs apprennent à reconnaître les traits articulatoires, par exemple le lieu et le mode d'articulation en relation avec la position de la langue.

Des expériences ont été effectuées sur 10 voyelles anglaises et montrent un taux de reconnaissance supérieur à 95% sur de nouveaux locuteurs. Lorsque les traits sont utilisés pour la reconnaissance, des résultats comparables sont obtenus pour des voyelles et des dihthongues qui n'ont pas été utilisées lors de l'apprentissage et prononcées par de nouveaux locuteurs. Ceci suggère que, pour des données calculées par un modèle d'oreille, les MLNNs présentent un bon pouvoir de généralisation pour de nouveaux locuteurs et de nouveaux sons.

References (24)

  • D.C. Plaut et al.

    Learning sets of filters using back propagation

    Computer Speech and Language

    (1987)
  • S. Seneff

    A joint synchrony/mean-rate model of auditory speech processing

    J. of Phonetics

    (1988)
  • Y. Bengio et al.

    Speech coding with multilayer networks

  • D.E. Rumelhart et al.

    Learning internal representation by error propagation

  • G.E. Hinton et al.

    Learning and re-learning in Boltzmann machines

  • H. Bourlard et al.

    Multilayer perceptron and automatic speech recognition

  • R.L. Watrous et al.

    Learning phonetic features using connectionist networks

  • S. Seneff

    Pitch and spectral estimation of speech based on an auditory synchrony model

  • S. Seneff

    Pitch and spectral analysis of speech based on an auditory synchrony model

  • S. Seneff

    A computational model for the peripheral auditory system: Application to speech recognition research

  • B. Delgutte

    Representation of speech-like sounds in the discharge patterns of auditory-nerve fibers

    J. Acoust. Soc. Am.

    (1980)
  • B. Delgutte et al.

    Speech coding in the auditory nerve: I. Vowel-like sounds

    J. Acoust. Soc. Am.

    (1984)
  • Cited by (10)

    • A survey of hybrid ANN/HMM models for automatic speech recognition

      2001, Neurocomputing
      Citation Excerpt :

      Neural nets were expected to carry out the recognition task (e.g. classification of phonemes or words) when discriminatively trained on acoustic features. Milestones in this respect are [120–122,42,45,3,39,23,46,118,112,24,110,10,111], among the others. Lippmann [75] wrote a comprehensive survey of the state of the art in connectionist speech recognition at the end of the Eighties.

    • Connectionist Models and their Application to Automatic Speech Recognition

      1991, Machine Intelligence and Pattern Recognition
    • Some notes on nonlinearities of speech

      2005, Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)
    View all citing articles on Scopus
    View full text