Eigene Stimme mit KI klonen – kostenlos mit Voicebox

Voicebox ist eine kostenlose App, mit der Du Stimmen klonen kannst. Eine kurze Sprachaufnahme reicht der KI aus, um einer anderen Person einen beliebigen Text in den Mund zu legen.

Die generierte Stimme klingt erstaunlich echt. An dieser schnell erstellten Audiodatei als Hörprobe ist nichts echt:

Wie Du Voicebox selbst nutzt, welche KI-Modelle Du auswählen solltest und welche Vorteile das PC-Programm im Vergleich zu anderen Stimmgeneratoren hat, erfährst Du in dieser Anleitung.

Ich gehe hier davon aus, dass Du Dich an geltendes Recht hältst und Voicebox ausschließlich für erlaubte Zwecke nutzt. Sprachaufnahmen anderer Personen und daraus generierte KI-Profile solltest Du nur mit ausdrücklicher Erlaubnis verwenden!

Vorteile von Voicebox

Vielleicht hast Du schon Erfahrungen mit ähnlichen, meist kostenpflichtigen Audio-Tools gesammelt. Der Online-Dienst ElevenLabs hat sich auf das Klonen von Stimmen spezialisiert. Microsoft wiederum bietet in Azure AI das Speech Studio an, um Text in Sprache umzuwandeln.

Nicht nur im direkten Vergleich hat Voicebox einige Vorteile:

Die Software verarbeitet alle Stimmproben lokal auf Deinem Rechner. Du musst Deine Aufnahmen nirgends hochladen, und sie werden bei keinem fremden Anbieter gespeichert.
Zum Einsatz kommt Qwen3-TTS, ein modernes und leistungsfähiges Text-to-Speech-Modell. Die Technologie arbeitet vergleichsweise schnell, unterstützt viele verschiedene Sprachen und liefert Ergebnisse in hoher Qualität.
Voicebox ist Open Source und kostenlos. Die Software ist aktuell für Windows, macOS und Linux verfügbar.

Das PC-Programm ist noch so neu, dass es beim Ausprobieren zu Fehlermeldungen kommen kann. Dann hilft eventuell ein Neustart von Windows. Außerdem veröffentlicht der Entwickler regelmäßig Updates mit Verbesserungen.

Voicebox für Windows installieren und einrichten

Du findest den Download auf der offiziellen Website des Entwicklers. Jamie Pine bietet die aktuelle Version der Installationsdatei direkt auf der Startseite an.

Voicebox herunterladen

Eventuell stuft Windows 11 die Datei als unsicher ein, weil sie relativ neu und noch unbekannt ist. Dann musst Du den Download im Browser explizit zulassen. Außerdem klappt die Installation auf dem PC nur, wenn Du die Sicherheitsfunktion Smart App Control vorübergehend deaktivierst.

Wenn Du das Programm zum ersten Mal startest, solltest Du zunächst die erforderlichen KI-Modelle herunterladen. Sie sind die Voraussetzung dafür, dass Du Voicebox komplett lokal auf dem Recher betreiben kannst, also ohne Upload in irgendeine Cloud.

Klicke dafür links im Menü auf das Würfel-Icon. Auf der Seite Model Management sind dann mehrere Downloads verfügbar:

Voice Generation Models

Qwen TTS 1.7B ist das umfangreichere KI-Modell zum Umwandeln von Text in Sprache. Es generiert Audiodateien in bester Qualität, belegt aber auch fast 5 Gigabyte Speicherplatz.
Meine Empfehlung: Qwen TTS 0.6B ist halb so groß und arbeitet deutlich schneller – ohne hörbare Unterschiede beim Ergebnis.

Transcription Models

Diese KI-Modelle können ausgewählte Sprachaufnahmen transkribieren, also gesprochene Sätze in getippten Text umwandeln. Die Auswahl Whisper Small ist nach meiner Erfahrung ein guter Kompromiss aus Dateigröße und Genauigkeit.

Sobald die gewünschten Dateien vollständig heruntergeladen sind, kannst Du Voicebox endlich ausprobieren.

Angebote bei Amazon.de

TONOR USB Kondensator Mikrofon, Nierencharakteristik Computer Mikrofon, Popfilter, für Konferenz, Streaming, Podcasting, Gaming, Twitch, für Laptop, Desktop PC, mit Desktop-Ständer, TC30

jetzt nur 23,99 €

Amazon Basics Mini-USB-Kondensatormikrofon für Streaming, Gaming, Podcasting, mit Cardioid-Tonabnehmer, 5.8 x 3.4 inches, schwarz

jetzt nur 23,42 €

Razer Seiren V3 Mini - Ultrakompaktes USB-Mikrofon (14mm Supernieren Kondensatormikrofon, Tap-to-Mute-Sensor mit LED-Anzeige, integrierter Stoßdämpfer, Plug-and-Play Design) Schwarz

jetzt nur 44,48 €

Stimmprofil erstellen

Voicebox benötigt mindestens eine kurze Sprachaufnahme als Vorlage. Die Software wird diese Audiodatei analysieren und daraus dann ein Stimmprofil erstellen. Dieses Profil kannst Du dann immer wieder als Grundlage nutzen.

Wir beginnen auf dem Startbildschirm. Klicke dort oben auf den Button Create Voice, um die Eingabemaske für neue Stimmprofile zu öffnen.

Unter Clone Voice (Stimme klonen) hast Du nun mehrere Optionen:

Upload – Du kannst eine bestehende Audiodatei als Stimmprobe auswählen – möglichst zwischen 3 und 30 Sekunden lang. Das kann eine professionelle Sprachaufnahme per Mikrofon oder einfach eine spontane WhatsApp-Nachricht vom Smartphone sein. Von der Audio-Qualität hängt später natürlich das KI-generierte Ergebnis ab.

Record – Falls Du keine Sprachaufnahme parat hast, kannst Du Deine Stimme direkt in der Software aufnehmen. Voraussetzung dafür ist natürlich ein integriertes oder angeschlossenes Mikrofon.
System Audio – Diese Option zeichnet die Tonausgabe auf Deinem PC auf, zum Beispiel von einem laufenden Podcast oder Online-Video.

Weitere Angaben

Fülle die weiteren Eingabefelder aus. Sie sind selbsterklärend:

Unter Reference Text trägst Du das Transkript der Stimmprobe ein. Diese Aufgabe übernimmt Voicebox für Dich, wenn Du ein KI-Modell dafür heruntergeladen hast (s. u.). Klicke auf den Button Transcribe und korrigiere den erkannten Text bei Bedarf.
Damit Du das Stimmprofil später zuordnen kannst, hinterlegst Du rechts einen Namen und eine Beschreibung. Außerdem kannst Du ein Profilbild von Deiner Festplatte auswählen.
Wähle unbedingt noch die richtige Sprache (Language) aus, damit die KI Deine Sprachaufnahme korrekt erfasst.

Ein Klick auf Create Profile speichert das Profil in der Software. Du kannst es ab sofort nutzen, um jeden beliebigen Text von der geklonten Stimme sprechen zu lassen.

Text in Audio umwandeln – mit geklonter Stimme!

Das gerade erstellte Stimmprofil steht jetzt auf der Startseite zur Auswahl. Du kannst es anklicken und dann im Eingabefeld darunter die gewünschte Textpassage eingeben.

Mein Tipp: Mit einfachen Sätzen in natürlicher Sprache erhöhst Du die Chance, dass das Ergebnis der KI authentisch klingt. Beginne am besten mit einem kurzen Text, damit Du ein Gefühl für die Bearbeitungsdauer auf Deinem PC bekommst.

Wähle unter dem Eingabefeld unbedingt noch die gewünschte Sprache und das bevorzugte KI-Modell aus (s. o.). Der runde Button mit dem Stern startet schließlich den Vorgang.

Wenn Du eine notwendige Komponente zuvor noch nicht heruntergeladen hast, holt Voicebox das jetzt eigenständig nach.

Die Wartezeit hängt von der Textlänge, vom ausgewählten KI-Modell und von der Rechenleistung Deines PCs ab. Sobald die Audiodatei fertig ist, wird sie automatisch abgespielt.

Alle generierten Ergebnisse findest Du gesammelt rechts im Programmfenster – auch wenn Du Voicebox später wieder öffnest. Klicke jeweils auf die drei Punkte am rechten Rand, um einen Eintrag nochmal abzuspielen oder zu löschen.

Microsoft Copilot für Einsteiger

Der Bestseller zum KI-Assistenten von Microsoft – jetzt bestellen und mit Copilot loslegen:

als Taschenbuch

als E-Book

Weitere Funktionen in Voicebox

Diese weiteren Funktionen von Voicebox solltest Du kennen und ebenfalls ausprobieren:

Du kannst Dein Profil nachträglich bearbeiten und verbessern, indem Du weitere Stimmproben (Samples) hinzufügst.
Du kannst mehrere Stimmprofile erstellen und abwechselnd auswählen. Sie bleiben in der Software gespeichert.
Du kannst Dein Stimmprofil exportieren und so als Sicherheitskopie speichern. Die Datei lässt sich dann zum Beispiel auf einem anderen PC importieren und darauf ebenfalls nutzen.
Vor dem Generieren einer Audiodatei hast Du Einfluss auf den Tonfall des Sprechers. Klicke dafür links neben dem Sternchen-Button auf den Regler und beschreibe im Eingabefeld die gewünschte Stimmung.
Wechsle links im Menü zum Buch-Icon. Dahinter verbirgt sich der Modus Stories. Hier kannst Du einen Dialog mit mehreren Stimmen erstellen, zum Beispiel für einen KI-generierten Podcast oder ein Hörspiel. Unten in der Zeitleiste kannst Du Einzelteile auf mehrere Tonspuren verteilen und für das richtige Timing verschieben.

Du kannst einzelne Audiodateien oder eine komplette Story leicht exportieren (Export Audio). So lässt sich die erzeugte WAV-Datei separat speichern und dann in anderen Apps und Programmen verwenden, zum Beispiel als Tonspur für ein Videoprojekt.

Ich bin gespannt auf Deine Meinung: Wie gefällt Dir das Projekt Voicebox? Wofür nutzt Du die KI-generierten Sprachaufnahmen? Schreibe gerne einen Kommentar unter diesen Beitrag.

3 Gedanken zu „Voicebox: Eigene Stimme mit KI klonen, Text in Audio umwandeln“

Thomas Smith

25. März 2026 um 8:19 Uhr

Kann einer mir helfen? Man hört die Aufnahme nicht lg Thomas
Antworten
Lukas

27. Februar 2026 um 12:33 Uhr

Hallo, und danke für diesen Beitrag. Wollte das jetzt ausprobieren, aber bei mir lädt er das Voice Generation Model einfach nicht herunter, keines der beiden. Hast du da einen Lösungsansatz?

Vielen Dank!
Antworten
- Stefan Malter
  
  27. Februar 2026 um 12:36 Uhr
  
  Hallo Lukas! Der Download lief bei mir automatisch im Hintergrund und war auf Anhieb nicht ersichtlich. Probiere doch mal, den Task Manager von Windows zu öffnen. Da siehst Du, ob der Dienst voicebox läuft und die KI-Modelle vielleicht doch schon im Hintergrund herunterlädt. Viel Erfolg!
  Antworten