Wieso verstehen Diktiersysteme, was wir sagen?#

Ernst Buchberger

Genau genommen sollten wir nicht von „Verstehen“ sprechen, sondern von „Erkennen“, der Fachbegriff lautet „Spracherkennung“, auf Englisch „Speech Recognition“. Der Computer „versteht“ nicht wirklich, was gesagt wird, er ist aber in der Lage, dem in Form von Schallwellen vorliegenden Sprachsignal Wörter zuzuordnen. Auch wenn im Forschungsbereich an „verstehenden“ Computern gearbeitet wird, die die Bedeutung des Gesagten miteinbeziehen, sind die üblicherweise von Diktiersystemen angewendeten Verfahren einfacher.

Das Problem ist trotzdem komplex genug. Vom akustischen Signal her gesehen „klingen“ unterschiedliche Wörter oft sehr ähnlich. Zusätzlich werden die Wörter beim flüssigen Sprechen meist nicht durch deutliche Pausen voneinander abgegrenzt gesprochen, sodass es auch ein Problem darstellt, zu erkennen, wo ein Wort aufhört und wo das nächste beginnt. Die so genannte Einzelworterkennung, bei der die Wörter klar voneinander getrennt gesprochen werden, ist erfolgreicher als die Erkennung von zusammenhängend gesprochenen Sätzen.

Ein weiterer Unterschied ist der zwischen sprecherabhängiger und sprecherunabhängiger Erkennung. Verschiedene Menschen sprechen ein und dasselbe Wort oft sehr unterschiedlich aus. Wenn es nun möglich ist, das System auf einen bestimmten Sprecher zu trainieren (wenn also z. B. das Diktiersystem immer von derselben Person benutzt wird), ist die Erkennungsrate deutlich höher.

Bei der Spracherkennung wird meist ein statistisches Verfahren eingesetzt (Hidden Markov Model). Dabei wird das Sprachsignal mit Lautteilen verglichen, die in verschiedene Teile zerlegt und gespeichert sind, wobei Vokale aufgrund ihres Frequenzspektrums leichter erkannt werden als Konsonanten: p, t und k beispielsweise unterscheiden sich nur sehr wenig voneinander. Etwas vereinfacht gesagt gibt das akustische Modell an, mit welcher Wahrscheinlichkeit einzelne Segmente einen bestimmten Laut ergeben, und das Wortmodell, mit welcher Wahrscheinlichkeit diese Laute ein bestimmtes Wort ergeben. Unterschiedliche Wörter werden oft gleich ausgesprochen, wie etwa „mehr“ und „Meer“, man nennt dies Homophonie.

Spracherkennungsprogramme verwenden Bi- oder Trigrammstatistiken, die die Auftretenswahrscheinlichkeit von Wortfolgen aus zwei oder drei Wörtern darstellen. Diese Statistiken werden aus großen Textmengen gewonnen und bilden das so genannte Sprachmodell. Damit kann das Homophonieproblem oft gelöst werden, da z. B. „mehr Geld“ häufiger vorkommt als „Meer Geld“.

Einzelworterkenner mit eingeschränktem Wortschatz arbeiten manchmal schon hundertprozentig fehlerfrei, bei Diktiersystemen ist beim derzeitigen Stand der Technik schon eine Fehlerwahrscheinlichkeit unter 10 Prozent ein großer Erfolg. Einige Problemfälle für elektronische Worterkennung:

bis – Biss	Boot – bot
Fähre – faire	fiel – viel
frisst – Frist	Graf – Graph
Häute – heute	Ihre – Ire
isst – ist	Kain – kein

Dieser Essay stammt mit freundlicher Genehmigung des Verlags aus dem Buch:

© 2007 by Styria Verlag in der, Verlagsgruppe Styria GmbH & Co KG, Wien