Seit der Einführung von ChatGPT sind Künstliche Intelligenz (KI) und maschinelles Lernen in aller Munde. Besonders im Bereich der KI-Stimmen versprechen zahlreiche Anbieter, dass ihre künstlichen Stimmen nicht von echten Stimmen zu unterscheiden sind. Allerdings zeigt sich bei der Nutzung von KI-Stimmen wie „Adam“, dass diese noch nicht die Fähigkeit besitzen, Betonungen und Emotionen dem Inhalt entsprechend anzupassen. Dadurch wirken KI-Stimmen oft monoton und künstlich.
KI-Stimmen und Rechtsprobleme: Die Gefahren bei der Verwendung nicht lizenzierter Materialien
Die Bezeichnung „Künstliche Intelligenz“ (KI) ist oft irreführend, da die gängigen Sprachmodelle keine echte Intelligenz aufweisen. Vielmehr werden sie durch maschinelles Lernen darauf trainiert, Stimmen anhand umfangreicher Audiomaterialien zu simulieren. Obwohl KI-Stimmen den reinen Inhalt eines Textes wiedergeben können, mangelt es ihnen an der Fähigkeit, Diktion, Betonungen und Emotionen richtig zu interpretieren und dem Text entsprechend anzupassen.
Die heutigen KI-Stimmen haben die Fähigkeit, Texte vorzulesen, jedoch fehlt ihnen die Möglichkeit, Betonungen und Emotionen dem Inhalt entsprechend anzupassen. Dadurch wirken sie monoton und künstlich. KI-Stimmen transportieren lediglich den reinen Inhalt eines Textes, können ihn jedoch nicht mit passender Betonung und Gefühlen bereichern. Das Problem liegt in der Diktion und Tonalität, also der Interpretation des gesprochenen Textes. Trotz einiger Fortschritte sind KI-Stimmen daher noch nicht mit professionellen Sprechern vergleichbar.
Das Fehlen von echtem Textverständnis ist einer der Hauptgründe, warum künstliche Intelligenz (KI) Schwierigkeiten hat. KI besitzt keine persönlichen Erfahrungen, die Einfluss auf die Interpretation eines Textes haben könnten. Dies wird anhand eines Beispiels verdeutlicht: Ein einfacher Satz wie „Wie siehst du denn aus?“ kann je nach Kontext verschiedene Emotionen erfordern. Zum Beispiel kann Empörung entstehen, wenn der Protagonist in Shorts und Adiletten zum Opernabend erscheint, oder Sorge, wenn der Darsteller blass und mit blutunterlaufenen Augen vor der Oper steht, wie Hierstetter erklärt.
Die aktuelle Künstliche Intelligenz (KI) ist nicht in der Lage, den sogenannten Subtext eines Textes darzustellen. Der Subtext bezieht sich auf die versteckte Bedeutung eines Textes, die erst durch die passende Betonung erkennbar wird. Selbst erfahrene Schauspieler und Sprecher tun sich manchmal schwer, den Subtext sofort überzeugend durch ihre Stimme zu vermitteln. In solchen Fällen ist die Unterstützung eines Regisseurs von großer Hilfe, um den Subtext angemessen zu vermitteln.
Die Umsetzung komplexer Regieanweisungen stellt eine Herausforderung für KI-Stimmen dar. Wenn Sie einer KI-Stimme beispielsweise sagen: „Sei etwas abgehoben, aber immer noch nahbar“, kann sie Schwierigkeiten haben, die richtige Balance zwischen diesen beiden Anforderungen zu finden. Darüber hinaus können KI-Stimmen den Abschluss eines Textes nicht in Echtzeit anpassen, was zu einer Diskrepanz zwischen den gewünschten und tatsächlichen Betonungen führen kann.
Obwohl sich KI-Stimmen mit hoher Geschwindigkeit weiterentwickeln, ist Hierstetter skeptisch, dass diese Herausforderungen in naher Zukunft überwunden werden können. Es ist zweifellos zu erwarten, dass es Fortschritte geben wird und die Stimmen immer natürlicher klingen werden. Dennoch bleibt das Problem von falschen Betonungen oder sogar fehlenden Betonungen bestehen, was besonders bei längeren Texten zu einem monotonen und unnatürlichen Klang führen kann.
Anbieter, die ihre Sprachmodelle mit Audiomaterial trainieren, sollten darauf achten, dass sie über die entsprechenden Verwertungsrechte verfügen. Ein aktuelles Beispiel für die möglichen Konsequenzen ist der Fall von Bev Standing, einer kanadischen Sprecherin, deren Stimme unerlaubt in zahllosen TikTok-Videos verwendet wurde. Standing hat TikTok daraufhin erfolgreich verklagt, da die Verwendung ihrer Stimme ohne Genehmigung erfolgte. Um rechtliche Probleme zu vermeiden, ist es daher wichtig, sicherzustellen, dass bei der Verwendung von KI-Stimmen die erforderlichen Rechte vorhanden sind.
bodalgo.com ist seit 15 Jahren die renommierte Online-Casting-Plattform für Unternehmen, die hochwertige Stimmen für ihre Projekte suchen. Mit einer Vielzahl von professionellen Sprechern für Werbung, E-Learning und Image-Filme bietet die Plattform eine breite Auswahl. Dank fast 60.000 abgewickelter Castings hat sich bodalgo.com als vertrauenswürdiger Partner in der Branche etabliert.
Bei der Zukunft der Plattform bodalgo.com spielt Künstliche Intelligenz (KI) in Bezug auf die Erzeugung von Stimmen keine Rolle. Jedoch setzen sie bereits heute KI erfolgreich in anderen Bereichen ein, wie beispielsweise bei der Transkription von Videos und Audios mit bodalgoScripta. Hierbei erzielt KI bereits äußerst gute Ergebnisse. Trotzdem werden KI-Stimmen noch für eine lange Zeit keine echte Konkurrenz für professionelle Sprecher darstellen.
In der Regel entscheiden sich Produktionsstudios für echte Sprecher und verzichten auf künstliche Stimmen. Es gibt jedoch bemerkenswerte Ausnahmen, wie zum Beispiel bei den neuen Folgen von Pumuckl. Hier wurde die Stimme des Synchronsprechers Maxi Schafroth mithilfe von KI so bearbeitet, dass sie dem verstorbenen Hans Clarin ähnlich klingt, der dem beliebten Kobold Pumuckl über einen Zeitraum von 30 Jahren seine Stimme lieh.
Derzeit sind KI-Stimmen noch nicht in der Lage, die Vorteile professioneller Sprecher zu bieten. Sie können Texte nicht richtig interpretieren und haben Schwierigkeiten, Betonungen und Emotionen anzupassen, was zu einem monotonen und künstlichen Klang führt. Darüber hinaus fehlt ihnen das Verständnis für den Subtext eines Textes. Trotz Fortschritten in der Entwicklung von KI-Stimmen sind sie vorerst keine ernsthafte Konkurrenz für professionelle Sprecher. Allerdings wird KI bereits erfolgreich in anderen Bereichen wie der Transkription von Videos und Audios eingesetzt.