Inteligência Artificial para GERAR ÁUDIO a partir de TEXTO | Amazon ou Google? | IA na Prática #3

Published: 18 April 2024
on channel: Programação Dinâmica
1,850
138

Qual o melhor serviço para gerar áudio a partir de texto? Tanto a Amazon quanto a Google oferecem serviços de "Text to Speech" em suas plataformas de serviços na nuvem - AWS e Google Cloud, respectivamente. Descubra qual dessas big techs tem um serviço mais adequado para o seu projeto neste vídeo.

Este é o terceiro vídeo da série Inteligência Artificial na Prática. No primeiro vídeo, a Kizzy ensinou a utilizar a API Whisper da OpenAI para transcrever o áudio de um vídeo do Youtube para texto. No segundo vídeo, a Kizzy demonstrou como utilizar a API gratuita da Google para fazer o processo inverso: gerar áudio a partir de texto. Apesar de ser bem interessante, o serviço gratuito deixa aquele tom "robotizado" na voz e talvez você esteja à procura de uma voz sintética que soe de forma mais natural. Pois bem, neste vídeo, a Kizzy vai além e te apresenta duas opções comerciais de geração de áudio a partir de textos: a Amazon Poly e a Google Cloud Text to Speech.

▶️ Confira a playlist IA na Prática:    • Inteligência Artificial na Prática  

Ambos os serviços tem uma taxa de uso gratuita, que você pode utilizar para testá-los. No entanto, estes serviços exigem que você cadastre um cartão de crédito, o que pode ser uma barreira para algumas pessoas.

Para as vozes padrão do Amazon Polly, o nível gratuito inclui cinco milhões de caracteres por mês para solicitações de fala ou marcas de fala nos primeiros 12 meses, começando pela primeira solicitação de fala. Para as vozes neurais, o nível gratuito inclui cinco milhões de caracteres por mês para solicitações de fala ou marcas de fala nos primeiros doze meses, começando pela primeira solicitação de fala. Para as vozes em formato longo, o nível gratuito inclui 500 mil caracteres por mês para solicitações de fala ou marcas de fala nos primeiros doze meses, começando pela primeira solicitação de fala.

Já a Google oferece US $300 em créditos para clientes novos que desejem testar o serviço de text to speech e 60 minutos* por mês para transcrever e analisar áudios sem custos.

Background "VS": https://www.freepik.com/free-vector/v..." Image by starline on Freepik

▶️ Outros conteúdos que podem te interessar:
1. O que é rede neural artificial    • O que é Rede Neural Artificial e como...  
2. Projetos Impressionantes de Ciência de Dados com os quais Você Deveria Aprender    • 3 Projetos Impressionantes de Ciência...  
3. Como EU faria para COMEÇAR na Programação em 2024    • Como EU faria para COMEÇAR na Program...  
4. Inteligência Artificial para gerar Áudio a partir de Texto com Google Text to Speech API    • Inteligência Artificial para gerar Áu...  

0:00 Introdução IA na Prática e geração de áudio
2:38 Como usar o Amazon Polly para gerar voz
5:40 Diferenças entre a voz padrão e a voz neural em inglês e português
8:13 Código em Python para transcrição de áudio
9:04 Como usar a Google Cloud para gerar voz
11:10 Comparação entre as vozes geradas na Amazon e na Google
12:27 Linguagem de Marcação de Síntese de Voz (SSML)
14:30 Limitações para textos muito longos

📚 Livro para estudar Bancos de Dados - https://amzn.to/3Hjjusc
📚 Livros recomendados de Data Science: https://amzn.to/2XZyxUr
📚 Livros de Algoritmos e Estruturas de Dados: https://amzn.to/3d5wK4m
SetUp - Equipamentos: https://amzn.to/37Cg3N2

🟣 Canal na Twitch para lives:   / pgdinamica  
🟦 Canal do Telegram para receber todos os vídeos: https://t.me/pgdinamica

🥰 Se você gosta do nosso trabalho e acha relevante a nossa atuação no Youtube, considere nos apoiar se tornando membro do canal: https://www.youtube.com/programacaodi...

✉️ E-mails:
– Propostas comerciais: [email protected]
– Demais assuntos: [email protected]

👩🏾‍💻👨🏾‍💻 Confira mais conteúdo em nosso blog:   / programacaodinamica  

🔥 Faça parte da comunidade gratuita Programação Mais Dinâmica: https://bit.ly/pgsparkle (baixe o app e entre na comunidade)

TikTok: @pgdinamica

📸 Nos siga no Instagram:   / pgdinamica  
📸 @kizzy_terra @hallpaz

🐦 Nos siga no Twitter:   / pgdinamica  
🐦 @kizzy_terra @hallpaz

Curta a Programação Dinâmica no facebook: fb.com/pgdinamica
Nosso repositório no Github: github.com/programacaodinamica
Confira os artigos no Python Café: pythoncafe.com.br

Kizzy Terra é cientista de dados, professora e pesquisadora, doutoranda em tecnologias da inteligência e design digital. É graduada em Engenharia de Computação pelo Instituto Militar de Engenharia (IME) e mestre em Matemática Aplicada pela FGV-RJ. Trabalhou como analista de dados de utilidade pública na FGV-RJ e no IPEA e foi cientista de dados sênior na Cyberlabs onde atuou em projetos de transformação digital para grandes empresas brasileiras.


Watch video Inteligência Artificial para GERAR ÁUDIO a partir de TEXTO | Amazon ou Google? | IA na Prática #3 online without registration, duration hours minute second in high quality. This video was added by user Programação Dinâmica 18 April 2024, don't forget to share it with your friends and acquaintances, it has been viewed on our site 1,850 once and liked it 138 people.