O ChatGPT finalmente lançou seu conjunto de 4 vozes avançadas nesta terça-feira.

Primeiro, elas ficarão à disposição apenas para um conjunto selecionado de usuários Plus. E, neste outono, ficará disponível para todos os usuários Plus.

Embora o ChatGPT já tivesse um modo de voz, as vozes novas e avançadas são mais rápidas e realistas.

Os modos de voz avançados do ChatGPT finalmente chegaram. A empresa Open AI começou a lançá-los a partir de terça-feira. Primeiro, eles serão disponibilizados para um pequeno grupo de usuários inscritos no pacote “Plus”.

Esses usuários receberão um alerta em seu aplicativo ChatGPT, seguido por um e-mail com instruções sobre como usá-lo. E então, com base no feedback deles, ele será lançado para todos os usuários Plus em breve, no outono de 2024.

O que torna as vozes do ChatGPT diferentes?

Embora o ChatGPT já tenha um modo de voz, as vozes avançadas são realmente diferentes. O modelo mais antigo era muito lento porque dividia o processo em 3 etapas:

No primeiro estágio, a voz do usuário passa por conversão em um texto que o ChatGPT pode entender.

No segundo estágio, o prompt acaba processado.

Na última etapa, o texto do ChatGPT acaba convertido em áudio.

Mas o ChatGPT-4o, por outro lado, que hospeda os novos modelos avançados, pode processar todas essas tarefas sem a ajuda de modelos auxiliares. Portanto, é muito mais rápido.

E diferentemente da voz robótica de Siri, Alexa e Google Assistant, as vozes do ChatGPT são muito realistas. Elas respondem em tempo real, podem se ajustar a interrupções (assim como uma conversa humana real), riem de suas piadas e mudam seu tom com base nas emoções do usuário.

Pessoas que assistiram ao filme “Her”, estrelado por Scarlett Johansson como uma IA, terão uma ideia melhor de como essas vozes soam. Na verdade, uma das vozes chamada “Sky”, que foi exibida durante a demonstração, soava exatamente como Scarlett Johansson no filme.

A controvérsia sobre as vozes de IA do ChatGPT

A similaridade das duas vozes levou a muita controvérsia. Depois que alguns usuários apontaram a semelhança incrível, Johansson disse que o CEO da OpenAI, Sam Altman, aparentemente entrou em contato com ela várias vezes para usar sua voz. No entanto, ela recusou todas as vezes.

Então, depois da demonstração, ela contratou um advogado para impedir que sua voz acabasse usada no ChatGPT. Embora Altman tenha dito várias vezes que “Sky” não é a voz de Johansson, ela foi finalmente removida em junho.

Até agora, as quatro vozes oficiais do ChatGPT são Juniper, Breeze, Cove e Ember.

Ao mesmo tempo, ele também anunciou um pequeno atraso no lançamento do modo de voz avançado por questões de segurança. A empresa queria executar mais testes e ajustar alguns recursos para garantir que as vozes agiriam apropriadamente.

A OpenAI revelou que impediu que as pessoas adicionassem mais vozes para evitar representação falsa.

Ele também bloqueou a ferramenta de processar certas solicitações, como aquelas destinadas a gerar músicas protegidas por direitos autorais.

Segundo consta, essas vozes acabaram testadas com mais de 100 red teamers externos que falam 45 idiomas diferentes. Um relatório de segurança detalhado também deve sair em agosto.