Wie funktionieren sprechende Computer?#

Ernst Buchberger

Auch wenn oft das Gegenteil geglaubt wird: Deutsch wird nicht so gesprochen, wie es geschrieben wird. Sprachwissenschaftler wissen: Der Unterschied zwischen „Haken“ und „Hacken“ liegt nicht nur in der Rechtschreibung – es handelt sich dabei um zwei verschiedene A-Laute. Wie „sch“ gesprochen wird, weiß jeder, aber manchmal ist es doch anders, wie z. B. bei Verkleinerungsformen wie Häschen, Häuschen usw.

Ein Vorlesesystem muss zunächst den Wörtern ihre Aussprache, d. h., aus welchen Lauten sie zusammengesetzt sind, zuordnen. Das kann mittels Regeln oder auch durch Nachschlagen in einem Aussprachewörterbuch geschehen. Die scheinbar einfachste Möglichkeit, die Aussprache aller Wörter abzuspeichern, ist nicht zielführend: Erstens benötigt man außer der Stammform (z. B. gehen) auch abgeleitete Formen (gehe, gehst, geht, ging…), was die Wörterbücher sehr groß machen würde. Zweitens gibt es immer wieder neue Wörter, die nicht im Wörterbuch zu finden sind. Meist wird daher eine Kombination aus Wörterbuch und Regelwerk verwendet.

Sobald die Einzellaute bekannt sind, kommt der nächste Schritt: die tatsächliche Aussprache der Wörter. Es gibt zwei Möglichkeiten: automatische Erzeugung der Laute oder ihre Gewinnung durch das Zerstückeln menschlicher Sprachaufnahmen und Zusammensetzen der gewünschten Wörter aus einer Datenbank dieser Bestandteile, wobei aus Qualitätsgründen oft letztere Variante gewählt wird. In der Datenbank müssen sich natürlich aus Flexibilitätsgründen Aufnahmen von Stimmen sowohl männlicher als auch weiblicher Sprecher finden; außerdem ist durch die Aufnahme ein bestimmtes Sprechtempo vorgegeben.

Die Aussprache von Einzelwörtern reicht jedoch noch nicht; bei der Aussprache von Sätzen sind die Betonung im Satz und die Satzmelodie ebenfalls zu berücksichtigen. Dies wird durch Veränderung der so genannten Sprachgrundfrequenz und die Steuerung der Dauer der einzelnen Halbsilben erreicht. Einer der Gründe, warum frühere Syntheseprogramme oft so blechern und monoton geklungen haben, hängt mit einer schlechten Steuerung der Sprachgrundfrequenz zusammen. Heutige Sprachsyntheseprogramme erreichen oft schon sehr gute Verständlichkeit, an der Natürlichkeit wird aber noch gearbeitet.

Dieser Essay stammt mit freundlicher Genehmigung des Verlags aus dem Buch:

© 2007 by Styria Verlag in der, Verlagsgruppe Styria GmbH & Co KG, Wien