Seite - 70 - in Pflegeroboter
Bild der Seite - 70 -
Text der Seite - 70 -
70 K. Janowski et al.
4.3.1 Sprachliche Fähigkeiten
Die erste Hürde bei der natürlichsprachlichen Kommunikation ist, ein klares Audio-
signal von einer einzelnen Person zu erhalten. Dazu werden meistens mehrere Mikrofone
gleichzeitig genutzt, um den Sprecher zuerst im Raum zu lokalisieren. Anschließend
ist es möglich, die Mikrofone optimal auf diese Person auszurichten (zum Beispiel
durch Drehung des Roboterkopfes) oder Störgeräusche aus anderen Richtungen rech-
nerisch auszufiltern. Der Roboter Reeti1 hat beispielsweise zwei Mikrofone unterhalb
der Augenkameras, während bei Nao2 und Pepper3 jeweils vier über die Oberseite des
Kopfes verteilt sind. Geräte aus Amazons Echo-Reihe4, der Schnittstelle zu Alexa, ver-
wenden je nach Modell vier, sieben oder sogar acht Mikrofone.
Menschliche Sprache ist umfangreich und komplex, sodass es kaum möglich ist, den
gesamten Wortschatz und alle grammatikalisch möglichen Formulierungen in einem
Rechenmodell abzudecken. Umgangssprache oder regionale Dialekte erschweren dies
zusätzlich, und manche Nutzer halten sich schlichtweg nicht an sprachliche Gepflogen-
heiten, sei es aus Bequemlichkeit oder mangelnder Kenntnis. In der Praxis ist der
Dialog mit solchen Systemen daher oft noch auf einfach strukturierte Fragen und kon-
krete Befehle begrenzt. Aktuelle Sprachassistenten nutzen die Rechenzentren der
zugehörigen Firmen, um derartige Funktionen anzubieten (Chung et al. 2017). Durch
Zugriff auf deren umfangreiche Datensätze und hohe Rechenleistung ist es möglich,
aufwendigere maschinelle Lernverfahren zur Interpretation natürlicher Sprache einzu-
setzen, für welche kleineren Geräten wie Mobiltelefonen oder dem Amazon Echo die
nötige Hardware fehlt. Auch Roboter wie Nao und Pepper verwenden diesen Ansatz
zur Spracherkennung.5 Ein Nachteil dieser Lösung ist allerdings die Abhängigkeit von
einer stabilen Internetverbindung, was besonders in ländlichen Gegenden oft schwierig
ist. Dazu kommen massive Bedenken bezüglich Privatsphäre und Datenschutz, da der-
artige Geräte theoretisch jederzeit Tonaufnahmen an die Herstellerfirma senden kön-
nen. Falls die Verbindung nicht ausreichend gesichert ist, besteht außerdem die Gefahr
von unautorisierten Zugriffen oder Manipulation durch Außenstehende (Chung et al.
2017). Diese Nachteile können durch die Verwendung quelloffener Software oder pri-
vat eingerichteter Server umgangen werden, was allerdings mit deutlich höherem Ent-
wicklungsaufwand verbunden ist.
Damit ein sozialer Agent dem Nutzer in natürlicher Sprache antworten kann, muss zuerst
ein Text dafür erzeugt werden. Dazu kann beispielsweise ein vorgegebenes Textgerüst
mit aktuellen Informationen vervollständigt werden, was sich besonders für funktionale
1http://reeti.fr/index.php/en/detailen.
2http://doc.aldebaran.com/2-1/family/robots/microphone_robot.html.
3http://doc.aldebaran.com/2-5/family/pepper_technical/microphone_pep.html.
4https://www.amazon.de/dp/B06ZXQV6P8.
5https://developer.softbankrobotics.com/us-en/documents/top-100-questions.
zurück zum
Buch Pflegeroboter"