Bei Anruf Fake#

Das Manipulationspotenzial durch intelligente Stimmgeneratoren ist riesig.#

Mit freundlicher Genehmigung übernommen aus der Wiener Zeitung, 30. September 2019

Von

Adrian Lobe

Manipulierte Videos, sogenannte "Deepfakes", haben in der Öffentlichkeit für Aufsehen gesorgt. So wurde das Gesicht von Michelle Obama auf den Körper einer Pornodarstellerin montiert. In einem weiteren Fake-Video bezeichnete ihr Gatte Barack US-Präsidenten Donald Trump als "Vollidioten". Eine Software imitierte dabei Lippenbewegungen und Mimik des Comedian Jordan Peele und rechnete diese in Bildvektoren um.

Computergenerierte Bilder waren bis vor ein paar Jahren nur in aufwendigen Hollywood-Produktionen möglich. Mit der Verbreitung von KI-Systemen benötigt man für die Manipulation von Ton und Bild aber keine teuren Spezialeffekte mehr, sondern bloß noch eine Software.

Mittlerweile machen sich die Technik auch Kriminelle zunutze. Kürzlich wurde bekannt, dass Betrüger den Chef eines britischen Energieunternehmens mit einer computergenerierten Stimme am Telefon austricksten und um 220.000 Euro erleichterten. Die Anrufer spiegelten mithilfe einer KI-Software die Identität des deutschen Chefs des Mutterunternehmens vor und forderten das Opfer auf, einen sechsstelligen Geldbetrag an einen ungarischen Zulieferer zu transferieren. Die Sache sei dringlich, die Summe müsse binnen einer Stunde überwiesen werden. Der gutgläubige Firmenchef schöpfte keinen Verdacht, der leichte deutsche Akzent und das Stimmmuster klangen ihm vertraut. Also wies er den Betrag an das genannte Konto an. Doch wie sich später herausstellte, landete das Geld nicht bei den ungarischen Geschäftspartnern, sondern in Mexiko. Der Firmenchef war Betrügern auf den Leim gegangen, wie das "Wall Street Journal" berichtete.

Phishing-Attacken etwa per Mail, bei der die Opfer instruiert werden, Geld an dubiose Konten zu transferieren, gibt es schon länger. Bei der jüngsten Masche handelt es sich aber um eine neue Dimension von Cyberkriminalität. Sie ist auch deshalb so bedrohlich, weil dafür kaum technisches Know-how erforderlich ist. Der Stimmgenerator soll laut Medienberichten kommerziell verfügbar gewesen sein. Das heißt, jeder kann sich im Internet eine Software herunterladen und damit Stimmen verfälschen.

Photoshop für Audio#

Forscher des chinesischen Suchmaschinenunternehmens Baidu haben unlängst ein Verfahren vorgestellt, das nur wenige Sekunden Ausgangsmaterial benötigt, um eine Stimme digital zu reproduzieren. Adobe hat ein "Photoshop für Audio" demonstriert, bei dem man Dialoge so einfach wie ein Foto bearbeiten kann. Und Google hat mit seinem Programm Duplex eine KI kreiert, die sich am Telefon wie ein Mensch anhört. Der Suchmaschinenriese hat zudem eine Sprachsoftware entwickelt, die gesprochene Sprache übersetzt und dabei die Stimmcharakteristika des Sprechers beibehält.

Das Missbrauchspotenzial ist groß. Der sogenannte Enkeltrick, bei dem sich Betrüger am Telefon als nahe Verwandte ausgeben und zumeist ältere Leute um ihre Ersparnisse bringen, könnte sich durch die Verbreitung solcher Audio-Werkzeuge nochmal verschärfen. Die Behörden sind alarmiert. Die nationale Cyberabwehr von Israel warnte im Juli vor sogenannten "voice phishing calls", betrügerischen Anrufen an Topmanager.

In den USA stellen sogenannte Robocalls ein zunehmendes Problem dar: automatisierte Spam-Anrufe, bei denen unseriöse Firmen versuchen, Abos zu verkaufen oder in betrügerischer Absicht behaupten, die Computerlizenz sei abgelaufen. Allein 2018 erhielten US-Amerikaner 26,3 Milliarden Robocalls, ein Anstieg von 46 Prozent im Vergleich zum Vorjahr. Eine regelrechte Telemarketing-Epidemie hat sich in den USA ausgebreitet. Zwar sind die Robocalls in der Vergangenheit immer ausgefeilter geworden. So läuft bei den automatisierten Anrufen nicht bloß eine synthetische Stimme vom Band ab, sondern eine täuschend ähnliche Menschenstimme, die flexibel auf Gesprächssituationen reagieren kann.

Solche Robocalls lassen sich jedoch leicht entlarven, wenn man nach einer Frage in den Hörer pfeift oder singt. Im Gegensatz zu einem Anrufer aus Fleisch und Blut antwortet das Programm dann meist: "Es tut mir leid, ich habe das nicht verstanden!" Anders bei den KI-basierten Stimmgeneratoren: Dort sind Original und Kopie kaum noch voneinander zu unterscheiden. Einzig am Duktus ließe sich der Fake erkennen. Doch wer macht schon eine Satzstrukturanalyse, wenn er am Telefon überrumpelt wird?

Cybersicherheitsexperten fordern daher, Stimmverifikations-Tools einzusetzen, um die Anrufer zu authentifizieren. Ob sich das ein Mittelständler leisten kann und ob das die Betrüger abschreckt, ist fraglich. Stimmbiometrische Authentifizierungsverfahren bieten zudem keine absolute Sicherheit: Dem BBC-Reporter Dan Simmons gelang es, durch die Stimmimitation die Kundenhotline einer Bank zu überlisten und Zugang zum Konto seines zweieiigen Zwillingsbruders zu bekommen. Nicht nur in der Politik und Wissenschaft, sondern auch in der Wirtschaft könnte sich nun rächen, dass Computerprogramme die erkenntnistheoretischen Grundlagen von wahr und falsch unterminieren.

Wiener Zeitung, 30.September 2019

Austria-Forum Beiträge in ähnlichen Gebieten