Drucken
Univis
Search
 
FAU-Logo
Techn. Fakultät Willkommen am Institut für Informatik FAU-Logo

Sprachverarbeitung und Sprachverstehen

Sprachgruppe, Lehrstuhl für Mustererkennung, Friedrich-Alexander-Universität Erlangen-Nürnberg

Der Erlanger Lehrstuhl für Mustererkennung (LME), 1975 von Prof. Heinrich Niemann gegründet und seit 2005 von Prof. Joachim Hornegger geleitet, hat eine lange Tradition auf dem Gebiet der Sprachverarbeitung. 1993 entstand hier mit EVAR das weltweit erste anrufbare Sprachdialogsystem. Das Know-how der Sprachgruppe wurde durch die Mitarbeit in einer Vielzahl von internationalen Forschungsprojekten ausgebaut, die unter anderem von der Europäischen Union und dem Bundesministerium für Bildung und Forschung (BMBF) gefördert wurden. Die Sprachgruppe, seit 1990 von Prof. Elmar Nöth geleitet, arbeitet aktuell insbesondere an folgenden Themen: Automatische Bewertung gesprochener Sprache (pathologische Sprache, Fremdsprachenkompetenz), Erkennung des emotionalen Zustands von Sprechern, sowie Erkennung von Sprecher-Gruppen (z.B. Alterserkennung).

Bewertung gesprochener Sprache / Medizinische Anwendungen


Ein Themengebiet, das die Basis für eine ganze Reihe von Anwendungen bildet, ist die Analyse, wie gut Sätze und Phrasen von verschiedenen Personengruppen ausgesprochen werden.

In gemeinsamen Projekten mit der medizinischen Fakultät wird erstmals mit Hilfe eines automatischen Spracherkennungssystems die Auswirkungen von Tumorerkrankungen des Mundes und deren Therapie auf die Sprachfähigkeit untersucht. Damit soll ein möglichst schonendes und funktionserhaltendes Therapieverfahren für Patienten mit Mundhöhlenkrebs entwickelt werden. ähnliche Verfahren werden bei der Bewertung der Sprache von Kindern mit einer Lippen-Kiefer-Gaumen-Spalte eingesetzt. Die Sprachverständlichkeit wird anhand der Worterkennungsrate gemessen und durch ein Computerprogramm analysiert. Zusätzlich sollen einzelne gestörte Sprachlaute identifiziert werden.

In einem vom BMBF geförderten Verbundprojekt mit der Firma digital publishing, einem Marktführer bei digitaler Sprach-Lern-Software, wird die Abweichung von der Zielsprache (Englisch und Deutsch) bei der Aussprache untersucht. Dabei werden zum ersten Mal nicht nur Abweichungen in der Aussprache einzelner Laute, sondern auch Abweichung von der Zielsprache in Wortakzent, in der Satzintonation sowie im Rhythmus genauer betrachtet. Ziel ist es, dem Benutzer möglichst konkrete Hinweise auf Aussprachefehler zu geben und, darauf abgestimmt, spezielle Übungsprogramme bereitstellen zu können.

In enger Kooperation mit dem Lehrstuhl Anglistik und dem LME wurde am Ohm-Gymnasium in Erlangen ein Prototyp eines Wissenschaftspropädeutischen Seminars (W-Seminar) durchgeführt, mit dem Schülerinnen und Schüler besser auf das wissenschaftliche Arbeiten an der Universität herangeführt werden sollen. Diese nahmen weltweit mit nativen und nicht-nativen Englisch-Sprechern Kontakt auf, ließen sie Texte vorlesen und Fragen beantworten;  die Aufnahmen wurden über das Internet direkt am LME aufgezeichnet. Die Ergebnisse der Aussprache-Analysen wurden in Seminararbeiten zusammengefasst und auf einer Website präsentiert. Beim bundesweiten Wettbewerb "Schule macht Zukunft" des Nachrichtenmagazins Focus wurde der Erlanger Schülergruppe der Sonderpreis des Verbands der Elektrotechnik Elektronik Informationstechnik e. V. 2007 zuerkannt.

Sprecher-Gruppen-Erkennung

Neben der Sprach-Erkennung (was wurde gesagt) und der Sprecher-Erkennung (wer hat etwas gesagt) ist die Sprecher-Gruppen-Erkennung (welcher Gruppe kann der Sprecher zugeordnet werden) ein Gebiet, das immer mehr Beachtung findet: In der Forensik kann damit bei der Verbrechens- und Terrorismus-Bekämpfung der Sprecher zwar noch nicht bestimmt, aber Dialekten und  Altersgruppen zugeordnet und somit der Suchraum eingeschränkt werden. In Call-Center-Anwendungen kann mit damit ebenfalls versucht werden, etwa auf die Altersgruppe speziell zugeschnittene Informationen bereitstellen zu können. Unter der Leitung von Prof. Nöth wurde im Sommer 2008 an der John Hopkins Universität in Baltimore eine Sommerschule zur Altersbestimmung abgehalten, auf der mit Mitteln der Spracherkennung und der Analyse-durch-Synthese (Rekonstruktion der Sprechorgane und darauf aufbauend, der Sprache) das Alter von Sprechern, u.a. das der Königin von England, für die Sprachdaten über mehrere Jahrzehnte vorliegen, genauer bestimmt wurden.

Erkennung von Emotionen und Stress

Normalerweise beschäftigt sich die automatische Sprachverarbeitung damit, was gesagt wurde. Im letzten Jahrzehnt hat sich die Forschung aber vermehrt der Fragestellung zugewandt, wie etwas gesagt wurde. Ein Hauptaspekt ist dabei die Modellierung und automatische Erkennung emotionaler Zustände von Benutzern in der Mensch-Maschine-Kommunikation. Solche Zustände sind nicht nur prototypische Emotionen wie etwa Freude, Ärger, Trauer, oder Verzweiflung; wichtiger sind häufig Zustände wie "interessiert vs. gelangweilt" oder "zufrieden vs. frustriert". Durch eine adäquate Erkennung und Verarbeitung solcher Phänomene erwartet man sich bessere Funktionalität und höhere Akzeptanz in Anwendungen, wie sie etwa automatische Call-Center, Mensch-Maschine-Interaktion, sowie das weite Feld von Edutainment (Lernsoftware) und Entertainment (Computerspiele) darstellen; etwa bei der Erkennung von Ärger (Call-Center), Stress
 (Komplikationen im Kfz oder bei Piloten), Interesse/Freude vs. Langeweile (Edu-/Entertainment). Der Lehrstuhl hat sich seit 10 Jahren mit all diesen Aufgabenstellungen in diversen nationalen und EU-Projekten beschäftigt. Als Merkmale werden dabei akustische und linguistische Parameter verwendet; außerdem ist es möglich, weitere Parameter aus physiologische Messungen wie z.B. Hautwiderstand oder Herzfrequenz heranzuziehen.