Δεκέμβριος 2024Miscellany

Από το κείμενο στην ομιλία: Ανάλυση εναλλακτικών λύσεων TTS ανοικτού κώδικα

Όλοι οι μεγάλοι πάροχοι cloud, όπως το AWS και το Azure, διαθέτουν API για τη σύνθεση κειμένου σε προφορικό λόγο. Υπάρχουν όμως και νεαρές νεοσύστατες επιχειρήσεις όπως η ElevenLabs που προσφέρουν τις καινοτόμες λύσεις τους σε αυτόν τον τομέα. Μια τρίτη επιλογή είναι το λογισμικό ανοικτού κώδικα για όσους είτε δεν θέλουν να πληρώσουν για την υπηρεσία TTS (text-to-speech) είτε χρειάζονται TTS στη συσκευή. Επίσης, λόγοι προστασίας της ιδιωτικής ζωής μπορεί να παίζουν ρόλο εδώ. Γι' αυτό το λόγο σε αυτό το άρθρο θέλω να δώσω μια επισκόπηση των σημαντικότερων εναλλακτικών λύσεων TTS ανοιχτού κώδικα.

Το Piper

Piper είναι ένα έργο του Open Home Foundation. Θέλουν να δημιουργήσουν τεχνολογία διατήρησης της ιδιωτικότητας για τα σπίτια. Οι φωνές εκπαιδεύονται χρησιμοποιώντας ένα έργο που ονομάζεται VITS το οποίο βασίζεται στο paper "Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech" των Jaehyeon Kim, Jungil Kong και Juhee Son. Το καινούργιο σε αυτή την προσέγγιση είναι ότι δεν χρησιμοποιούν ξεχωριστό vocoder για την παραγωγή της ηχητικής κυματομορφής, αλλά έχουν συσκευάσει τα πάντα μέσα σε ένα νευρωνικό δίκτυο. Ισχυρίζονται ότι αυτό βελτιώνει την ποιότητα της προφορικής φωνής. Το έργο VITS χρησιμοποιεί το PyTorch για την εκπαίδευση και την εξαγωγή συμπερασμάτων. Το Piper είναι απλό στην εγκατάσταση, απλά εκτελέστε:

pip install piper-tts

Πριν την εκτέλεση, πρέπει να κατεβάσετε το αντίστοιχο μοντέλο ONNX για τη γλώσσα και τη φωνή σας. Μπορείτε να βρείτε τις οδηγίες εδώ. Το Piper υποστηρίζει διάφορες γλώσσες. Δοκίμασα μερικές από αυτές και ακούγονται φυσικά και είναι πολύ ωραίο να τις ακούτε.

Coqui

Το Coqui ήταν ένα έργο της ομώνυμης startup που έχει πλέον εκλείψει. Δεδομένου ότι ο πηγαίος κώδικας είναι ανοιχτού κώδικα, εξακολουθεί να είναι προσβάσιμος και ανοιχτός προς χρήση. Αλλά το πώς θα εξελιχθεί το έργο στο μέλλον εξαρτάται από τη συνεισφορά της κοινότητας. Είναι επίσης εύκολο να εγκατασταθεί χρησιμοποιώντας την Python:

pip install TTS

Μπορείτε να παραθέσετε όλους τους υποστηριζόμενους συνδυασμούς γλώσσας και φωνής με την ακόλουθη εντολή:

tts --list_models

Στη συνέχεια, για να δημιουργήσετε ένα αρχείο ήχου από κείμενο πρέπει να επιλέξετε το κατάλληλο μοντέλο από την έξοδο της παραπάνω εντολής.

Για παράδειγμα:

tts --text "Text for TTS" --model_name "<model_type>/<language>/<dataset>/<model_name>" --out_path output/path/speech.wav

Αν το καθορισμένο μοντέλο δεν είναι τοπικά διαθέσιμο, θα κατεβάσει αυτόματα το μοντέλο και στη συνέχεια θα δημιουργήσει το αρχείο WAV εξόδου. Δοκίμασα το Coqui με διάφορες γλώσσες και η ποιότητα ήταν εντάξει και σε ορισμένες γλώσσες με φυσικό ήχο. Για καλύτερα αποτελέσματα χρησιμοποιήστε τα μοντέλα VITS.

Whisper Speech

Whisper Speech είναι ένα έργο ανοιχτού κώδικα που αξιοποιεί ένα άλλο μοντέλο μετατροπής ομιλίας σε κείμενο ανοιχτού κώδικα από την OpenAI, το Whisper. Το έργο Whisper Speech έχει προς το παρόν μόνο έναν περιορισμένο αριθμό γλωσσών και φωνών που υποστηρίζονται. Δεν είναι πραγματικά έτοιμο για χρήση, αλλά τα δείγματα που προσφέρονται στις σελίδες του GitHub είναι ενθαρρυντικά, αν και δεν ακούγονται 100% φυσικά. Το μέλλον θα δείξει πώς θα εξελιχθεί αυτό το έργο, αλλά οι ιδέες πίσω από αυτό είναι πολλά υποσχόμενες.

Espeak-ng

Ο συνθέτης ομιλίας espeak-ng είναι ένα έργο ανοικτού κώδικα με τη μεγαλύτερη ιστορία σε αυτόν τον κατάλογο. Υποστηρίζει μεγάλο αριθμό γλωσσών, περισσότερες από 100. Χρησιμοποιεί μια ειδική μέθοδο σύνθεσης και επομένως χρησιμοποιεί λίγους πόρους του συστήματος. Εγκαθίσταται εύκολα, για παράδειγμα στο Linux μπορείτε να το εγκαταστήσετε με έναν διαχειριστή πακέτων. Δυστυχώς, παράγει ομιλία που ακούγεται πολύ ρομποτικά.

Παρ' όλα αυτά όμως είναι κατανοητή. Έτσι, η περίπτωση χρήσης του είναι για παράδειγμα σε ορισμένα ενσωματωμένα συστήματα όπου η ομιλία με φυσικό ήχο δεν είναι τόσο σημαντική. Επίσης, όπου απαιτείται υποστήριξη για λιγότερο διαδεδομένες γλώσσες, μπορεί να είναι η μόνη διαθέσιμη επιλογή ανοιχτού κώδικα.

Συμπέρασμα

Από τις τέσσερις δοκιμασμένες εφαρμογές ανοιχτού κώδικα για μετατροπή κειμένου σε ομιλία, η αγαπημένη μου είναι σαφώς το Piper. Διαθέτει την πιο φυσικά ηχητική ομιλία. Το Whisper Speech έχει δυνατότητες, αλλά μόνο ο χρόνος θα δείξει πώς θα εξελιχθεί. Με τον κύριο υποστηρικτή του Coqui να έχει κλείσει, το μέλλον του είναι αβέβαιο και εξαρτάται από την υποστήριξη της κοινότητας. Το Espeak-ng ακούγεται σαφώς ρομποτικό, αλλά λόγω της μεγάλης υποστήριξης γλωσσών και των χαμηλών αναγκών σε πόρους μπορεί να είναι μια καλή λύση για ορισμένες εξειδικευμένες εφαρμογές.

Έτσι, με αυτά, ελπίζω να μάθατε κάτι σε αυτό το άρθρο, και χαίρομαι για κάθε σχόλιο. Απλά κάντε κλικ στο παρακάτω κουμπί επικοινωνίας.

Αναφορές

Piper: https://github.com/rhasspy/piper
Coqui: Coqui
Whisper Speech: Whisper Speech
Espeak-ng: espeak-ng

Cover image by BroneArtUlm from Pixabay

Δημοσιευμένο
22 Δεκ 2024

Το έργο αυτό διατίθεται με άδεια Creative Commons Attribution 4.0 International License.

Γράφει ο Thomas Derflinger

Είμαι ένας οραματιστής επιχειρηματίας και προγραμματιστής λογισμικού. Σε αυτό το ιστολόγιο γράφω κυρίως για τον προγραμματισμό ιστού και συναφή θέματα όπως το IoT.