Ich habe ein Experiment gewagt. Mit nichts weiter als den Originalbildern, dem Text und dem Audio-Tool im Google AI Studio habe ich versucht, die Geschichte vorlesen zu lassen und muss sagen, das es wirklich gut funktioniert hat, auch wenn die Stimme zum Schluss etwas nachgelassen hat. Hier schon mal das Video.

Das fertige Ergebnis: Paulinchens Geschichte, neu interpretiert.
Der Prozess
Die Erstellung war recht intuitiv. Anstatt Stunden im Tonstudio zu verbringen oder professionelle Sprecher zu buchen, nutzte ich die multimodalen Fähigkeiten von Google AI Studio. Ich habe den Reimtext direkt in das Tool geladen. Die KI generierte daraufhin eine Audio-Spur, die wie ein kurzes Hörbuch wirkt. Kein trockenes Vorlesen, sondern eine Darbietung. Anschließend habe ich die generierte Audiodatei mit den Bildern im Video-Editor Kdenlive synchronisiert, um das YouTube-Video zu erstellen.
Stimme & Qualität
„Erstaunlich menschlich.“
Das beeindruckendste an diesem Experiment ist die Nuance in der Stimme. Wir sind weit entfernt von den roboterhaften TTS-Stimmen (Text-to-Speech) der letzten Jahre.
Rhythmus & Reim
Gedichte sind für KI oft eine Herausforderung. Der feste Metrum des Struwwelpeter wurde jedoch erstaunlich gut erkannt. Die KI „weiß“, dass es sich um Reime handelt und passt die Intonation am Zeilenende entsprechend an.
Emotionale Tiefe
Natürlich ist es noch nicht perfekt. Ein menschlicher Schauspieler könnte an manchen Stellen noch dramatischer pausieren oder die Angst Paulinchens noch intensiver herausarbeiten. Aber für einen vollautomatisierten Prozess ist das Ergebnis qualitativ hochwertig und absolut hörenswert.
Lange Texte
Die Stimme hat sich zum Ende hin deutlich verändert und ist nicht gerade besser geworden. Das ist ein bekannte Effekt bei einigen TTS Modellen. Ich habe den kompletten Text in einem Stück übergeben. Hätte ich den Text in mehreren einzelnen Abschnitten in eine Stimme umwandeln lassen, währe die Qualität sicher noch besser geworden.
Fazit
Alles in allem ein gutes Ergebnis, dafür dass es nur ein einfacher erster Test war.
