24.04.2024

Die Stimme der Vernunft

Mein Voice Clone ist fertig.
Man muss ein bisschen rumprobieren und verstehen, was diese ganzen Parameter bedeuten, die man einstellen kann. Es lässt sich z.B. die Varianz in der Betonung beeinflussen.
(zu monoton, fail) (fail!) (nehm ich)
Bitteschön:
Hier kann man noch mehr einstellen.
Leider findet auch hier die ganze Magie nicht auf meiner eigenen Hardware statt. Nach ein paar anfänglichen Versuchen, selber ein Open Source Text-to-Speech-Modell zu trainieren, habe ich klein beigeben müssen und ein Cloud-basiertes Produkt genutzt. ElevenLabs erstellt aus nur einer Minute Aufnahme eurer Stimme bereits einen überzeugenden Klon. Und das auch noch völlig kostenlos. Wer monatlich bezahlt, kann auch stundenweise Audioaufnahmen hochladen und ein komplett eigenes Modell trainieren, dass dann nochmal besser und variantenreicher ist, stark abhängig vom Trainingsmaterial natürlich.
Daher habe ich mir für 100 € ein HyperX QuadCast gekauft und, da es in meiner Wohnung überall hallt wie sau, unter einer Bettdecke eine Stunde meine Stimme aufgenommen.
ElevenLabs hat auch ein schönes Interface zur Vertonung längerer Projekte, mit rudimentärer Textbearbeitung. Man kann PDFs hochladen, Text von einer Website importieren oder ganz von vorne anfangen. Man klickt dann für jeden Absatz ein paar mal auf den "regenerate" Button, solange bis einem das Ergebnis gefällt und lädt die fertige mp3-Datei herunter. Schon ganz geil.
Und Speech-to-Speech ist auch recht praktisch. Ich habe jetzt zwar dieses gute Mikrofon, aber kann auch mal eben schnell...
...und das gute Mikrofon wieder verkaufen.