Sprechererkennung: MediaInterface und TU Dresden mit Kooperation

Ein Treffen auf der Konferenz für Elektronische Sprachsignalverarbeitung (ESSV) im Jahr 2019 markiert den Auftakt der Zusammenarbeit zwischen MediaInterface und der Professur für Sprachtechnologie und Kognitive Systeme an der TU Dresden. Binnen kurzer Zeit entstand daraus das Projekt SEMED. Wir haben den Inhaber der Professur, Dr.-Ing. Peter Birkholz zu den Zielen und Inhalten der Kooperation befragt.

Welche Forschungsschwerpunkte verfolgt Ihr Lehrstuhl und Ihr Institut?

Unsere Professur für Sprachtechnologie und Kognitive Systeme bildet zusammen mit der Professur für Akustik und Haptik das Institut für Akustik und Sprachkommunikation. Ein Kernthema unserer Forschung ist die Verbindung der Gebiete Phonetik bzw. Sprechwissenschaft mit der Sprachtechnologie. Hier arbeiten wir u. a. an einer vollständigen Simulation der Sprachproduktion (www.vocaltractlab.de), die zu einer potentiell hochgradig natürlichen und flexiblen Art von artikulatorischer Sprachsynthese führen kann, die sich wesentlich von aktuellen Verfahren der Sprachsynthese unterscheidet.

Ein weiterer Schwerpunkt unserer Forschung ist das relativ neue Feld der „Silent Speech Interfaces“, also die Erkennung still gesprochener Sprache, vergleichbar mit ganz leisem Flüstern. Dafür erforschen wir Techniken, wie wir die Zungen- und Lippenbewegungen (statt akustische Signale) erfasst und in Text umgewandelt werden können. Dies kann zukünftig z. B. Kehlkopflosen eine neue Art von Ersatzstimme verschaffen. Darüber hinaus forschen wir zu Grundlagen der Sprachproduktion und zu maschinellen Lernverfahren.

Aus der Forschung kam ja auch die Zusammenarbeit mit MediaInterface zustande – wie schätzen Sie die Arbeit beim SEMED-Projekt und mit MI ein?

In unserem Projekt SEMED geht es ja um die Sprechererkennung, also nicht darum, was gesagt wird, sondern darum, wer etwas sagt. Am Ende steht das Ziel für uns beide, in naher Zukunft ein Gerät in einem Patientenzimmer zu platzieren, das automatisch den Arzt, den Patienten, die Pfleger und die Besucher anhand ihrer Stimme erkennt und die entsprechenden Äußerungen über SpeaKING in das KIS übertragen kann. In diesem Projekt sehen wir aus dem Blickwinkel der Grundlagenforschung noch großes Potential, da für die Entscheidung des Erkennungssystems möglichst Merkmale aus dem Sprachsignal isoliert werden müssen, die sprecher-typisch sind, aber möglichst unabhängig von den gesprochenen Lauten.

Wo liegt dabei die größte Herausforderung?

Wir fokussieren uns hier auf Merkmale, die sich möglichst nicht durch eine Verstellung der Stimme verändern, z.B. bei absichtlichen Täuschungsversuchen. Die Mitarbeiter von MediaInterface und unserer Professur bilden in diesem Projekt ein hochmotiviertes Team, mit dem die Forschung an diesem Thema viel Spaß macht.

Gab es Dinge in der Zusammenarbeit mit MediaInterface, die Sie überrascht haben?

Mich hat anfänglich überrascht, dass sich ein KMU wie MediaInterface im hart umkämpften Markt für Sprachtechnologie mit dem Produkt SpeaKING und ca. 100.000 Nutzern so gut gegen die teilweise sehr starke ausländische Konkurrenz durchsetzen konnte. Das spricht aus meiner Sicht deutlich für eine weitsichtige Planung und hohe Qualität des Produkts, was auch viele andere deutsche KMUs auszeichnet. Was mich außerdem sehr positiv überrascht hat, sind die positive Firmenkultur und die kurzen Entscheidungsprozesse.

Wie sieht denn die Zusammenarbeit zwischen Ihren Mitarbeitern und MI-Mitarbeitern genau aus?

Einer meiner Absolventen ist ja schon länger als fester Mitarbeiter im Unternehmen. Aber auch darüber hinaus gibt es einen Personalaustausch im weiteren Sinne: Einer meiner Doktoranden vom Institut hat ein paar Monate bei MediaInterface gearbeitet und ist danach an den Lehrstuhl zurückgekehrt. Ein anderer Doktorand arbeitet sowohl bei uns als auch bei MediaInterface. Dadurch entsteht ein vielseitiger Austausch untereinander und das ermöglicht einen schnellen Technologietransfer von der Uni in die Firma. Das funktioniert sehr gut.

… und das nächste Projekt ist schon in der Pipeline?

Ja, unsere Kollegen in der Entwicklung von MediaInterface haben im Zuge von SEMED auch mit unserer Software zur artikulatorischen Sprachsynthese „herumgespielt”, so ist die Projektidee ArtiS entstanden. In diesem Projekt wollen wir die Möglichkeiten der artikulatorischen Synthese – verschiedenste Synthesestimmen in hoher Qualität zu erzeugen – nutzen, um künstliche Trainingsdaten für den Spracherkenner in SpeaKING zu erzeugen. Der Hintergrund ist, dass ein automatischer Spracherkenner umso besser funktioniert, je mehr Trainingsdaten zur Verfügung stehen. Gerade für seltene „Sprechsituationen“ gibt es in der Regel zu wenige echte Trainingsdaten. Das können z. B. selten vorkommende Lautverbindungen sein, aber auch ausländische Akzente oder deutsche Dialekte, die oft nicht richtig erkannt werden. Mit der Sprachsynthese können wir den Erkenner für genau solche Situationen „nachtrainieren“.

Wie kommen Sie mit Lehre und Forschung gerade zurecht und wie sind Sie da aufgestellt?

Der Lockdown im Frühjahr 2020 war auch für uns relativ einschneidend, da Forschungsarbeiten im Labor plötzlich nicht mehr möglich waren, und so einige Projekte an der Professur ins Stocken kamen. Mit entsprechenden Vorkehrungen konnten diese Arbeiten dann aber relativ schnell wieder aufgenommen werden. Den schnellen Wechsel von Präsenzlehre zu Onlinelehre seit dem Sommersemester 2020 haben wir dank unserer motivierten Mitarbeiter auch zur großer Zufriedenheit der Studenten absolvieren können. Tatsächlich sind die Studentenzahlen in unseren Kursen gestiegen. Dennoch ist die Online-Lehre mit einem deutlich höheren Vorbereitungsaufwand verbunden und es fehlt uns sehr die direkte Interaktion mit den Studenten, sodass wir uns sehr auf ein hoffentlich baldiges Ende der Pandemie freuen.

Die Abkürzung SEMED steht für SprecherErkennung im Medizinbereich und läuft noch bis zum Juni 2022. MediaInterface verspricht sich von der Kooperation mit den jungen Wissenschaftlern von der TU Dresden einen zügigen Know-how-Transfer aus der Wissenschaft und Impulse für die Weiterentwicklung von SpeaKING und für neue Produktmodule, die das Portfolio sinnvoll ergänzen.

„Ein schneller Technologietransfer von der Uni in die Firma“