Towards large vocabulary continuous sign language recognition: from artificial to real-life tasks

Koller, Oscar Tobias Anatol; Ney, Hermann; Bowden, Richard

doi:10.18154/RWTH-2020-11447

Towards large vocabulary continuous sign language recognition: from artificial to real-life tasks = Auf dem Weg zur kontinuierlichen Gebärdenspracherkennung mit großem Vokabular: Von künstlichen zu lebensechten Daten

Koller, Oscar Tobias Anatol^RWTH*

2020

Verantwortlichkeitsangabevorgelegt von Dipl.-Ing. Oscar Anatol Tobias Koller

ImpressumAachen 2020

Umfang1 Online-Ressource (xi, 180 Seiten) : Illustrationen, Diagramme

Dissertation, RWTH Aachen University, 2020

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH* ; Bowden, Richard (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2020-09-29

Online
DOI: 10.18154/RWTH-2020-11447
URL: https://publications.rwth-aachen.de/record/807561/files/807561.pdf

Einrichtungen

Projekte

SIGNSPEAK - SCIENTIFIC UNDERSTANDING AND VISION-BASED TECHNOLOGICAL DEVELOPMENT FOR CONTINUOUS SIGN LANGUAGE RECOGNITION AND TRANSLATION (231424) (231424)

Inhaltliche Beschreibung (Schlagwörter)
computer vision (frei) ; hidden markov model (frei) ; sign language recognition (frei) ; video processing (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Gehörlose stellen eine kulturelle und sprachliche Minderheit dar, deren Zugang zu Informationen und Kommunikation aufgrund einer oral-auditiv ausgerichteten Gesellschaft stark eingeschränkt ist. Diese Arbeit behandelt kontinuierliche Gebärdenspracherkennung mit großem Vokabular, welche verspricht, Inklusion zu ermöglichen und das Kommunikationsproblem zwischen Gehörlosen und Hörenden zu lösen. Der gesamte Kommunikationsablauf verläuft hierbei bidirektional und kann von Gebärden- zu Lautsprache in ein Erkennungs-, Übersetzungs- und Syntheseproblem zerlegt werden. Die Gebärdenspracherkennung behandelt nur eines der komplexen Unterprobleme in diesem Gesamtsystem. Sie verfolgt das Ziel, die in einem Gebärdenvideo artikulierte Sequenz von Gebärden zu erkennen. Die Gebärdenübersetzung, welche nicht Teil dieser Arbeit ist, sortiert die Sequenz von Glossen um und übersetzt sie in gesprochene Sprache. Im Rahmen dieser Arbeit werden Gebärden durch Glossen transkribiert, welche semantische Beschreibungen der Gebärden widerspiegeln. Es wird vorausgesetzt, dass das Gebärdenvideo und die Glossannotation die gleiche zeitliche Reihenfolge innehaben. Automatische Gebärdenspracherkennung ist eine multidisziplinäre Aufgabe, die aus benachbarten Feldern wie beispielsweise der Spracherkennung, der Computer Vision und der Linguistik schöpft. Ursprünglich war Forschung im Bereich der Gebärdenspracherkennung sehr isoliert und ohne gegenseitigen Bezug. Einzelne Forschergruppen erstellten ihre eigenen limitierten Datensätze und arbeiteten damit. Das führte dazu, dass die Daten und die daraus resultierenden Arbeiten die Komplexität von Gebärdensprachen häufig nur ansatzweise widerspiegeln konnten. Oft umfassten die verwendeten Datensätze nicht einmal kontinuierliche Gebärdensprache, sondern isolierte, einzelne Gebärden. Üblicherweise wurden nur sehr kleine Vokabulare abgedeckt (meist weniger als 100 unterschiedliche Gebärden). Keine der bisherigen Arbeiten behandelte realistische und uneingeschränkte Gebärdensprache, wie sie bei natürlicher menschlicher Interaktion angetroffen wird. Die Auswahl von Gebärden, die Struktur der Sätze, die Geschwindigkeit des Gebärdens, die Ausdrucksweise und der Dialekt wurden stets stark kontrolliert und extern festgelegt. Diese Arbeit zielt darauf ab, Gebärdenspracherkennung in realistischere Szenarien zu überführen. Um dies zu erreichen, wurden erste realistische Gebärdensprachkorpora erstellt, die ein großes Vokabular (über 1000 Gebärden) enthalten und auf kontinuierlicher Gebärdensprache basieren. Die Korpora umfassen Aufnahmen aus dem Fernsehen, die realistische, unkontrollierte Gebärdensprache von professionellen Dolmetschern beinhalten. Diese Daten sind deutlich komplexer in der Erkennung als bisher bearbeitete Korpora und werden im Rahmen dieser Arbeit kostenfrei öffentlich zur Verfügung gestellt. Auf dieser herausfordernden Aufgabe evaluieren wir konventionelle statistische Gebärdenspracherkennungssysteme basierend auf GMM-HMMs mit manuell entwickelter Merkmalsextraktion. Daraufhin nutzen wir aktuelle Fortschritte aus dem Bereich des Deep Learning und präsentieren ein hybrides CNN-LSTM-HMM Modell, das den erzielten Erkennungsfehler halbiert. Wir analysieren die Effekte verschiedener Designentscheidungen des Erkennungssystems, um anderen Forschern wertvolle Einsichten zu ermöglichen. Schlussendlich entwickeln wir einen Lernalgorithmus, dem mehrdeutige und ungenaue Annotationen genügen, um effizient Gebärdenuntereinheiten, wie etwa artikulierte Handformen oder Mundformen, im Gebärdenmaterial zu entdecken. Möglich wird dies durch hybride Multi-Stream CNN-LSTM-HMMs.

Deaf people represent a minority that faces strong accessibility challenges due to a world focused on oral-auditory communication. This thesis deals with large vocabulary continuous sign language recognition, which has the potential to overcome accessibility issues and also communication barriers between Deaf and hearing people. The full communication pipeline is bidirectional and composed of recognition, translation and generation sub-tasks going from sign to spoken and from spoken to sign language. Sign language recognition targets one complex sub-problem in the communication direction from sign to spoken language, recognising the sequence of signs ina signed video utterance. In the scope of this thesis, signs are represented by semantic gloss descriptors which are used to transcribe a signed utterance. It is assumed that sign language video and gloss transcriptions share the same temporal order. The translation problem, which is not addressed in this work, focuses on reordering and translating the recognition output into spoken language, which could then be written or spoken out by the generation part.Automatic sign language recognition is a multi-disciplinary task that covers techniques from its numerous neighbouring fields, such as speech recognition, computer vision and linguistics. Historically, research on sign language recognition has been relatively scattered and often researchers independently captured their own small-scale data sets for experimentation. This has several disadvantages. Mostly, the data sets do not cover sufficient complexity that sign language encompass. Moreover, most previous work does not tackle continuous sign language but only isolated single signs. Besides containing only a small and very limited vocabulary (less than 100 different signs), no work has ever targeted real-life sign language. Until now, the employed data sets only comprised artificial and staged sign language footage, which was planned and recorded with the aim of enabling automatic recognition. The kind of signs to be encountered, the structure of sentences, the signing speed, the choice of expression and dialects were usually controlled and determined beforehand. This work aims at moving sign language recognition to more realistic scenarios. For this purpose we create the first real-life large vocabulary continuous sign language corpora, which are based on recordings of the broadcast channel featuring natural sign language of professional interpreters. This kind of data provides unprecedented complexity for recognition. In the scope of this thesis, we made it publicly available free of charge. A conventional GMM-HMM statistical sign language recognition system with distinct and manually engineered features is created and evaluated on the challenging task. We then leverage the recent advances in deep learning and propose modern hybrid CNN-LSTM-HMM models which are shown to halve the recognition error. We analyse theimpact of various architectural design decisions with the aim of giving guidance to researchers in the field. Finally, we develop a weakly supervised learning scheme based on hybrid multi-stream CNN-LSTM-HMMs that allows the efficient spotting of subunits such as articulated handshapes and mouth patterns in sign language footage.

OpenAccess:
PDF
(additional files)