Der ChatGPT-Entwickler OpenAI hat am Karfreitag ein Programm zum Klonen von Stimmen vorgestellt. Das Modell namens „Voice Engine“ könne die Stimme eines Menschen auf Basis eines 15-sekündigen Audio-Originals duplizieren, heißt es in einem Blogeintrag von OpenAI, in dem die Ergebnisse eines Tests mit dem Programm vorgestellt werden.
Ganz neu ist diese Entwicklung allerdings nicht, schon seit Jahren bietet unter anderem die Plattform Descript das Klonen der eigenen Stimme an, allerdings war es lange nur auf Englisch und mit einigem Aufwand möglich. Ich habe es ausprobiert und musste dazu einen mehr als 30-minütigen englischen Text einlesen. Das Ergebnis fand ich recht brauchbar. Deutlich kürzer war die Zeit, die von der Plattform Heygen.com wenige Monate später für einen Stimmenklon benötigt wurde. Hier reichten bereits wenige Minuten Originaltext, um meine Stimme ziemlich gut nachzubauen.
Heygen bietet – wie mittlerweile bereits eine ganze Reihe von Plattformen, auch eine KI-gestützte Programmierung von Videoavataren an. Um Ihnen, liebe Leserinnen und Leser, kurz einmal vorzuführen, was man mit diesen Möglichkeiten machen kann, habe ich aus einem in der Redaktion aufgenommenen Video und einer kurzen Tonaufnahme einen Pirkner-Avatar gebastelt und diesen gleich in ein Multi-Sprachtalent verwandelt. Ist der Avatar nämlich erst einmal gebaut, kann man ihm alles in den Mund legen, was man möchte – und das natürlich in fast allen Sprachen dieser Welt. Ich wollte immer schon fließend Italienisch und Chinesisch sprechen.
Fachleute fürchten nicht zu Unrecht einen Missbrauch von Anwendungen, die solche Möglichkeiten von Künstlicher Intelligenz (KI) nutzen, speziell im Jahr der EU- und US-Präsidentschaftswahlen.
OpenAI gibt sich problembewusst. Man sei sich im Klaren, dass die Erzeugung von Stimmen, die denen von realen Menschen ähneln, ernsthafte Risiken berge, die in einem Wahljahr besonders zu beachten seien, erklärte das Unternehmen aus San Francisco. Man arbeite mit Partnern unter anderem aus den Bereichen Politik, Medien, Unterhaltung, Bildung und Zivilgesellschaft zusammen, ihr Feedback werde bei der Entwicklung berücksichtigt.
Aufgrund des Potenzials für den Missbrauch synthetischer Stimmen habe sich das Unternehmen für einen „vorsichtigen“ Ansatz für eine breitere Freigabe entschieden. Partner, die „Voice Engine“ testeten, hätten Regeln zugestimmt. Diese sehen demnach unter anderem die ausdrückliche Zustimmung jedes Menschen vor, dessen Stimme mit dem Programm dupliziert wird. Außerdem müsse den Hörern deutlich gemacht werden, dass die Stimmen, die sie hören, von KI generiert wurden.
Fragt sich nur, wer sich an diese Regeln auch wirklich hält. In meinem Fall musste ich meine Identität tatsächlich durch einen Stimmentest nachweisen, bevor ich den Klon zur freien Verwendung erhalten habe. KI-Plattformen wie Heygen verlangen für hochwertige Avatare und Klon-Stimmen zwar Geld, es geht in der Regel aber nur um Abomodelle im zweistelligen Eurobereich, ein Schnäppchen, wenn man bedenkt, dass die Alternative teure Studioaufnahmen mit echten Sprechern wären.
Doch zurück zu OpenAI, dem Auslöser des KI-Hypes. Das Unternehmen hatte im November 2022 zunächst mit der Einführung von ChatGPT für Furore gesorgt. Das Programm ist in der Lage, mit Hilfe von Künstlicher Intelligenz aus sehr kurzen Eingabeaufforderungen beispielsweise Essays, Gedichte oder Unterhaltungen zu generieren. ChatGPT machte die Möglichkeiten der KI damit schlagartig einem großen Publikum bewusst. Zugleich wuchsen aber die Befürchtungen über mögliche Gefahren der Technologie.
OpenAI hat auch den Bildgenerator Dall-e entwickelt und stellte vor wenigen Wochen eine KI-Anwendung zur Produktion realistischer Videos namens Sora vor. Hier eine Demo, was man mit diesem Tool machen kann. Nichts im unten laufenden Video ist echt. Die „Prompts“, sprich die Anweisungen zur Erzeugung der einzelnen Szenen sind eingeblendet.
Was das Thema KI ebenso spannend wie problematisch macht, ist für Experten zum einen die Geschwindigkeit der Entwicklung, die mittlerweile in Wochen gemessen wird. Kein wirtschaftliches und schon gar kein politisches System kann in so kurzer Zeit angemessen reagieren. Welches Gesetz man auch austüftelt, bevor es Realität wird, ist es überholt.
Der zweite Aspekt betrifft das menschliche Bewusstsein und die Wahrnehmung von Wirklichkeit. Schon bisher war die Frage sehr spannend, woher wir unser Wissen über „die Welt“ und damit die Motive für unser Handeln beziehen. Künftig wird es weniger um Fake News gehen als um das viel grundsätzlichere Problem einer Realitätsverschiebung auf allen Ebenen unserer Wahrnehmung. Deshalb fordern Fachleute auch eine stärker reflektierende Vermittlung des Themas in Schulen.
Ein Posting
Vielleicht bewirkt es wenigstens, dass die persönlichen Beziehungen wieder neue Bedeutung bekommen. Das reale Erleben von Freundschaft und Natur. Aber es wird dringend ein 11. Gebot brauchen: "Du sollst mit KI niemandem Schaden zufügen!"
Sie müssen angemeldet sein, um ein Posting zu verfassen.
Anmelden oder Registrieren