Page - 203 - in Künstliche Intelligenz - Technologie | Anwendung | Gesellschaft
Image of the Page - 203 -
Text of the Page - 203 -
iit-Themenband – Künstliche Intelligenz 203
Textfundus und Zero Shot Translation
Ein kritischer Faktor für die Qualität einer Übersetzung ist der Textfundus, mit dem
der selbstlernende Algorithmus trainiert wird. Traditionell wurden hier Dokumente
aus dem Umfeld der UN oder der EU herangezogen, die professionelle Übersetzer in
zahlreichen Sprachen parallel erstellen und die frei verfügbar sind. Bücher, die in
mehrere Sprachen übersetzt wurden, sind typischerweise nicht im großen Umfang
frei zugänglich. Der Anbieter DeepL gründet seinen Erfolg unter anderem darauf,
dass er aus seiner Unternehmensvorgeschichte Zugriff auf Milliarden qualitativ hoch-
wertiger Übersetzungen hat. Die großen Anbieter, die bestimmte kommerzielle
Domänen adressieren, heben sich vor allem auch durch das jeweilige domänenspezi-
fische Trainingsmaterial voneinander ab. Unter den Generalübersetzern hat z. B.
Google durch seinen Zugriff auf riesige Datenmengen in verschiedenen Sprachen
einen Vorteil gegenüber Wettbewerbern. Da diese Daten jedoch nicht zwingend
verifiziert und von guter Qualität sind, kann ein geringerer Datenumfang die gleiche
oder sogar bessere Übersetzungsqualität liefern, solange die Güte der Trainingsdaten
zuverlässig hoch ist.
Einen von vielen interessanten, im Zusammenhang mit der Auswahl des Textfundus
auftretenden Effekten beschrieb Nataly Kelly, Vice President bei Smartling: „Given
that male pronouns have been over-represented throughout history in most langua-
ges and cultures, machine translation tends to reflect this historical gender bias.”
(Errens) (Übersetzung mit DeepL: „Da männliche Pronomen in der Geschichte in den
meisten Sprachen und Kulturen überrepräsentiert waren, spiegelt die maschinelle
Übersetzung diese historische geschlechtsspezifische Ausrichtung wider.“). So kann
es etwa passieren, dass das englische „engineer“ unabhängig vom Kontext eher mit
Ingenieur als mit Ingenieurin übersetzt wird.
Wenn nur beschränkt viel Textmaterial verfügbar ist, zeigt sich eine weitere Stärke
der NMT. So können z. B. prinzipiell auch einsprachige Texte zum Lernfortschritt bei-
tragen, da hieraus auch Sprachstruktur einer einzelnen Sprache und begünstigte
Wortkombinationen entnommen werden können. Die Verbesserung der Lernpro-
zesse, insbesondere unter Einbeziehung von monolingualem Trainingsmaterial ist
derzeit denn auch ein zentraler Entwicklungspunkt. Das ist besonders für diejenigen
Sprachenpaare relevant, für die keine oder nur wenige gemeinsame, bilinguale Texte
vorliegen.
In genau diesen Fällen erweist sich die NMT der SMT durch ein weiteres Potenzial als
überlegen: Sie bietet die Möglichkeit zur sogenannten Zero-Shot-Translation. Gibt es
etwa für das Sprachenpaar Finnisch-Afrikaans nicht genügend zweisprachiges Trai-
ningsmaterial, muss mit dem SMT-Verfahren eine Zwischensprache genutzt werden,
mit der es jeweils bilinguale Texte gibt, die parallel statistisch ausgewertet werden
können („Pivot-Translation“). So muss erst vom Finnischen z. B. ins Englische und im
Künstliche Intelligenz
Technologie | Anwendung | Gesellschaft
- Title
- Künstliche Intelligenz
- Subtitle
- Technologie | Anwendung | Gesellschaft
- Editor
- Volker Wittpahl
- Publisher
- Springer Vieweg
- Date
- 2019
- Language
- German
- License
- CC BY 4.0
- ISBN
- 978-3-662-58042-4
- Size
- 16.8 x 24.0 cm
- Pages
- 286
- Keywords
- Elektrische Antriebssysteme, Intelligentes Gesamtmaschinenmanagement, Künstliche Intelligenz, Data Mining, Maschinelles Lernen, Deep Learning, artificial intelligence, data mining, machine learning, deep learning
- Category
- Technik
Table of contents
- Vorwort 7
- Inhaltsverzeichnis 15
- A Technologie 18
- B Anwendung 92
- Einleitung: KI ohne Grenzen? 95
- 5. Neue Möglichkeiten für die Servicerobotik durch KI 99
- 6. E-Governance: Digitalisierung und KI in der öffentlichen Verwaltung 122
- 7. Learning Analytics an Hochschulen 142
- 8. Perspektiven der KI in der Medizin 161
- 9. Die Rolle der KI beim automatisierten Fahren 176
- 10. Maschinelle Übersetzung 194
- C Gesellschaft 212
- Ausblick 273
- Anhang 277
- Autorinnen und Autoren 277
- Abkürzungsverzeichnis 286