Home / Blog / IT e Innovazioni / Amazon Polly, Google WaveNet: come sfruttare i sintetizzatori vocali

Amazon Polly, Google WaveNet: come sfruttare i sintetizzatori vocali

13 Maggio 2019

Convertire il testo in voce apre le porte a infinite possibilità, con Amazon Polly e altri strumenti di sintesi vocale

La voce è uno strumento di comunicazione molto potente, e Amazon Polly lo sa bene. Anche un semplice “ciao” può trasmettere molteplici informazioni, a seconda dell’intonazione e del contesto.

Le informazioni espresse in forma verbale vengono acquisite in modo naturale, motivo per cui la voce umana è indispensabile per produrre contenuti audio da ascoltare nelle situazioni in cui leggere su schermo non è la soluzione più pratica o adeguata.

Anche i dispositivi possono “leggere”

Nel 2016, insieme a Lex e Rekognition, Amazon ha lanciato il suo servizio in cloud che converte il testo in voce realistica.

Si tratta di un servizio Text-to-Speech di facile utilizzo: Amazon Polly, infatti, è una tecnologia avanzata di deep learning per la sintesi vocale, che imita la voce umana e consente di introdurre liberamente nuove categorie di parole, relative ad argomenti specifici come prodotti navali, edilizia e tanto altro.

Applicazioni pratiche per la sintesi vocale

Ad esempio, un tablet può leggere un libro agli studenti che lo utilizzano, una polsiera può ricordarti di bere mentre sei in palestra, e un’applicazione mobile può fornire risposte vocali agli utenti durante un viaggio.

È anche possibile aggiungere nuovi termini e personalizzare la pronuncia in base alle proprie esigenze. Amazon Polly consente di sviluppare rapidamente prodotti speech-enabled attraverso strumenti come eReaders, giochi, piattaforme di e-learning, giocattoli e non solo.

Vari dispositivi connessi a Internet stanno già adottando la voce sintetizzata, anche grazie alla diffusione di Alexa e alle applicazioni sempre nuove rilasciate in tutto il mondo per rendere la tecnologia più intuitiva e accessibile. L’integrazione di Polly per Alexa è stata rilasciata nel 2018.

In merito alla personalizzazione di Alexa Skills, ti consigliamo di leggere questo articolo.

https://www.youtube.com/watch?time_continue=1&v=jXPN12ReUJg

In quali lingue è disponibile Amazon Polly?

Attualmente, il servizio supporta già 29 lingue diverse, tra cui: italiano, inglese (britannico, americano, indiano, gallese, australiano), francese, spagnolo, giapponese, russo, arabo e altre ancora.

Inoltre, presto saranno disponibili voci bilingue, in grado di parlare fluentemente due lingue diverse e di alternarle all’interno di unico testo, con la stessa voce. Per il momento, Aditi è l’unica voce bilingue disponibile (inglese + hindi), ma è sensato pensare che presto l’implementazione si espanderà ad ulteriori lingue presenti nel mondo.

Quanto costa creare file audio con Polly?

I prezzi di Amazon Polly sono piuttosto convenienti: si paga a consumo, quindi in base al numero di caratteri e al “personaggio” (lo speaker del testo da convertire), solo per i personaggi che scegli.

Facciamo qualche esempio. Un articolo di 6.500 caratteri (circa tre pagine) per una rivista genera 9 minuti di registrazione, al costo di 0,03 USD (0,027 €). Quindi, 100 articoli al mese, per un anno, costeranno 32,4 €. Considerando, invece, un’opera come “Canto di Natale” di Charles Dickens (165.000 caratteri, 3 ore e 50 minuti circa di registrazione vocale) il costo è di 0,66 USD, circa 60 centesimi di euro totali. Incredibile, vero?

Dalla voce sintetizzata allo streaming, il passo è breve

Una volta convertito il testo in discorso, puoi trasmettere i tuoi contenuti anche in streaming, per supportare l’interazione in tempo reale, oppure salvarlo senza limiti di tempo e usarlo quando vuoi in un formato audio standard, come l’MP3. Iniziare è facilissimo: basta accedere alla console di Amazon Polly per generare una voce sintetizzata, partendo dal proprio testo, in pochi click.

Non solo Amazon: Google WaveNet

A far concorrenza al colosso di Bezos ci ha già pensato, ovviamente, Google con il suo WaveNet. L’applicazione Text-to-speech è in grado di convertire il testo in un linguaggio dal suono molto naturale, con oltre 100 voci per più di 20 lingue e relative varianti.

Il costo è più alto, ma la qualità maggiore: tutto dipende da cosa stai realmente cercando di ottenere dai tuoi file audio. Tutto il resto è noia.

Vuoi sviluppare soluzioni basate su sintetizzatori vocali?PARLIAMONE