SpeaKING macht Spracherkennung zum Teil der Alltagskultur

Wir haben verstanden, wie unsere Spracherkennung noch einfacher und robuster wird

Als die erste Version von SpeaKING mit Spracherkennung auf den Markt kam, war die Technologie noch ein Nischenthema. Der Bedarf nach einer neuen Schnittstelle zwischen Mensch und Maschine war zwar groß. Die Skepsis und die Vorbehalte allerdings auch – nicht zuletzt wegen der ernüchternden Erfahrungen mit der ersten Generation von digitalen Sprachassistenten. Wir waren schon damals überzeugt, dass die Akzeptanz der Spracherkennung mit deren Weiterentwicklung steigen würde – und dass diese Weiterentwicklung zu großen Teilen eine Frage von Ressourcen und Rechenleistung ist.

Heute ist die Spracherkennung Teil unserer Alltagskultur und auf dem besten Weg, dem Touchscreen als bisher dominierende Schnittstelle des mobilen Zeitalters den Rang abzulaufen. Das gilt nicht nur für den Endverbrauchermarkt, sondern auch für den Einsatz im Rahmen der medizinischen Dokumentation im Krankenhaus und in der Arztpraxis.

Die neue Generation Ärzte erwartet, dass Spracherkennung auch in der medizinischen Dokumentation nach dem Plug-and-Play-Prinzip funktioniert: anschalten, losdiktieren, fertig.

Konsumentenwelt bei Spracherkennung setzt Standards für Geschäftswelt

Die Spracherkennung ist also raus aus der Early-Adopter-Phase und in der Breite angekommen. Dass Sprechen effizienter ist als Tippen, wird heute niemand mehr hinterfragen. Dazu kommt, dass die zur Verfügung stehenden Ressourcen im medizinischen Schreibdienst in allen Einrichtungen abnehmen. Doch mit der Nachfrage und Akzeptanz ändern sich automatisch auch die Ansprüche: Wer weiß, dass sein Smartphone auch ohne vorherige Einstellungen und initiales Training aufs Wort hört, der wünscht sich einen vergleichbaren Komfort auch für die digitalen Werkzeuge, die er im beruflichen Kontext nutzt – obwohl sich der Nutzer in einem hochkomplexen und sehr spezifischen Kontext mit extrem sensiblen Daten und ganz anderen Rahmenbedingungen bewegt. Die neue Generation Ärzte erwartet, dass Spracherkennung auch in der medizinischen Dokumentation nach dem Plug-and-Play-Prinzip funktioniert: anschalten, losdiktieren, fertig.

Wir von MediaInterface stellen uns dieser Erwartung und sind derzeit dabei, unsere Spracherkennung Schritt für Schritt zu modernisieren und immer noch weiter zu verbessern – damit ein Diktat zum Patienten tatsächlich so einfach und komfortabel erledigt werden kann wie eine sprachgesteuerte Freizeit-App. Damit das gelingt, ist angedacht, SpeaKING eine neue Oberfläche zu verpassen. Aber „unter der Motorhaube“ wurde bereits und wird auch weiterhin an vielen Stellschrauben gedreht.

SpeaKING stellt sich den Erwartungen und Herausforderungen: Wir wollen uns mit Siri & Co. messen können. Damit das gelingt, haben wir unsere Entwicklungsabteilung in den letzten Jahren gezielt um weitere Spezialisten wie Linguistiker, Mathematiker und Experten für die Analyse und Nutzung sehr großer Datenmengen (Big Data) und Künstliche Intelligenz (KI) verstärkt.

Neben dem Universitätsklinikum Dresden als einem von mehreren Entwicklungspartnern arbeiten, entwickeln und forschen wir gemeinsam mit dem Institut für Akustik und Sprachkommunikation an der TU Dresden sowie den ansässigen Fraunhofer-Instituten. Wir – und damit mittelbar auch Sie – profitieren nicht nur von der Expertise der Institute selbst und unserer gemeinsamen Forschung, sondern auch von einem schnellen Transfer wissenschaftlicher Erkenntnisse in die Praxis. Das Interesse am gemeinsamen Forschungsgegenstand hat einige Absolventen von der Universität direkt zu uns ins Unternehmen geführt.

Mit der Hauptversion 7.6 Anfang 2020 und der für das Jahresende geplanten Version 7.7 wird sich unsere Spracherkennung in vielerlei Hinsicht substanziell verbessern.

„Kostenlose“ Plattformtechnologie vs. kostenpflichtige Speziallösung

Moment mal, mag da der eine oder andere einwerfen – wäre es nicht am einfachsten, wenn unsere Ärzte statt SpeaKING gleich mittels Siri diktieren? Das steht allen kostenlos zur Verfügung und ist sowieso bei vielen Smartphone-Nutzern verbreitet. Bei dieser Argumentation werden allerdings gleich drei essentielle Punkte außer Acht gelassen.

Zum Ersten sind Lösungen wie Siri oder Alexa …

… für die Allgemeinsprachlichkeit, also den Massenmarkt entwickelt. Wer damit einen Röntgenbefund einsprechen will, wird deutlich schlechtere Ergebnisse erzielen als mit einer Lösung, die wie SpeaKING über einen jahrelang aufgebauten und zusätzlich individualisierbaren medizinischen Fachwortschatz verfügt.

Zum Zweiten deckt ein Diktat-Managementsystem wie SpeaKING …

… weit mehr als nur den Sprachinput und dessen Umwandlung in Text ab. Schließlich müssen die Texte mit Daten aus dem KIS oder AIS verbunden, editiert, freigegeben sowie in Entlassbriefe, Befunde und Berichte integriert werden. Dazu erlaubt SpeaKING auch flexible Hybridszenarien, bei denen Anwender zwischen Spracherkennung und der Einbindung von Schreibkräften – auch extern – wählen können.

Zum Dritten ist die Verwendung von Plattformlösungen …

… schon aus datenschutzrechtlichen Gründen unmöglich: Schließlich weiß kein Anwender genau, welchen Weg die von ihm gesprochenen Diktate mit persönlichen Informationen von Patienten im Zuge der Erkennung nehmen. Denn „kostenlos“ sind ja auch Siri und Co. bei genauerer Betrachtung nicht. Es sind Produkte, deren Geschäftsmodell auf der umfassenden Nutzung von Kundendaten basiert – während MediaInterface mit dem beim Kunden stehenden SpeaKING-Server eine gesetzeskonforme Lösung bietet, die einen Missbrauch von Daten ausschließt.

Kein Sprachtraining notwendig & deutliche Zeitersparnis

Künftige Anwender können SpeaKING sofort nutzen – ohne Sprachtraining. Das am besten zur Stimme des Anwenders passende Profil wird automatisch beim ersten Diktat erkannt und zugewiesen. Das manuelle Auswählen eines Profils, das gelegentlich auch zu Fehleinstellungen führte, entfällt. Auch das initiale Sprachtraining für die Nutzung ist nicht mehr erforderlich. Da es bei Anwendern mit sprachlichen Eigenheiten aber durchaus sinnvoll ist, wurde das initiale Sprachtraining weiter optimiert und ist bei Bedarf jederzeit möglich. Ab Version 7.7 soll dann auch das Einpegeln der Aufnahmelautstärke automatisch geschehen und damit auch Zeit gespart und eine konstant hohe Audioqualität abgesichert werden.

An der Strategie der fachspezifischen medizinischen Wortschätze hält MediaInterface fest. Für die neue Generation von Fachwortschätzen wurden die Datenbasis massiv verbreitert und die Trainingsmethoden optimiert. Dies sorgt für noch bessere Ergebnisse bereits bei der ersten Nutzung. Die bei unseren Kunden beliebte Möglichkeit, den Wortschatz vom Anwender oder vom Anwendungsbetreuer Schritt für Schritt um individuelles Vokabular und interne Abkürzungen zu ergänzen, bleibt erhalten.

Um schnell und automatisch auch die vorhandene individuelle und umfangreichere digitale Dokumentenhistorie der Anwender für diese Anpassungen zu nutzen, wurde das Feature SmartLearning entwickelt. Dabei werden vor der Nutzung des Systems vorhandene Arztbriefe, Befunde und anderen Dokumente in das SpeaKING-System des Kunden vor Ort eingebunden, analysiert und statistisch ausgewertet. Natürlich können auch Kunden, die bereits mit SpeaKING arbeiten, dieses Feature nutzen. Das Resultat ist in jedem Fall beeindruckend. Denn es wird nicht nur Zeit gespart, indem für Anwender das Training während der Nutzung des Systems entfällt und schneller einen optimalen Wortschatz liefert. Es werden auch bessere Erkennungsergebnisse erzielt. Das System ist damit deutlich passender für den persönlichen Kontext, in dem sich der Sprecher tatsächlich bewegt. So können alle Nutzer gute Ergebnisse erzielen: vom Radiologen, der täglich sehr viele einzelne Befunde diktiert, bis zum Psychologen, der die Spracherkennung nur gelegentlich, aber für sehr lange Dokumente nutzt.

Robustheit und Risikominimierung

Auch für Anwendungsbetreuer wird mit der neuen SpeaKING Spracherkennung vieles einfacher. Unser Ziel war es, bei gleichbleibend hohen Erkennungsraten den Ressourcenbedarf deutlich zu senken – und das ist auch gelungen. Mit einem großen Universitätsklinikum, das eine hohe Nutzerzahl und Durchdringung von SpeaKING aufweist, suchten wir Wege, die Belastung der Infrastruktur unseres Kunden zu minimieren. Neben der massiven Komprimierung der Diktate bei gleichbleibenden Erkennungsergebnissen konnten wir auch die Historisierungsstrategie optimieren.

Wie Impulse aus der Praxis die Arbeit unserer Entwicklung beeinflussen, zeigt sich noch an einem anderen Beispiel. Für einen Kunden mit einer besonders komplexen Installation haben wir ein kontinuierliches und permanentes System-Tracking entwickelt. Der Anwendungsbetreuer unseres Kunden muss keine sogenannte Trace-Versionen mehr einspielen, sondern aktiviert einfach das Tracking. Unsere Experten im Support finden somit schneller und einfacher mögliche Problem-ursachen. Diese Funktion wird dem Support der MediaInterface mit der Version 7.6 von SpeaKING zur Verfügung stehen. Neben dem technischen Tracking für die Anwendungsbetreuer werden wir die Möglichkeiten beim Reporting und Controlling der Spracherkennung verbessern. So wird die Transparenz für alle Beteiligten auch bei diesem Thema im Laufe dieses Jahres schrittweise erhöht.

Sie haben Fragen oder wünschen eine Beratung?

Experten kontaktieren

Benutzerfreundlichkeit und Zuverlässigkeit bei Spracherkennung