O Google acaba de lançar o Gemini 3.1 Flash Live, seu modelo de voz mais avançado até o momento. Desenvolvido para proporcionar diálogos em tempo real mais naturais, rápidos e confiáveis, essa novidade já está disponível no Gemini Live e Search Live, tanto para usuários comuns quanto para desenvolvedores e empresas.
Como o Gemini 3.1 Flash Live Funciona?
O modelo responde mais rapidamente e compreende melhor os detalhes da fala, como tom, ritmo e entonação. Além disso, consegue acompanhar conversas por duas vezes mais tempo que a versão anterior, mantendo o diálogo sem se perder. Quando percebe expressões de frustração ou confusão dos usuários, ajusta suas respostas de forma inteligente.
Multilinguagem e Alcance Global
O Gemini 3.1 Flash Live é multilíngue e funciona em mais de 200 países e territórios. No Search Live, permite conversas multimodais utilizando o idioma preferido do usuário. Todo áudio gerado recebe uma marca d’água digital SynthID, que identifica conteúdo produzido por IA e ajuda a combater a desinformação.
Desempenho e Benchmark
No benchmark ComplexFuncBench Audio, o Gemini 3.1 Flash Live atingiu 90,8%, mostrando que consegue executar tarefas em várias etapas. Já no teste Scale AI’s Audio MultiChallenge, o modelo alcançou 36,1% com o recurso “thinking” ativado, que mede a habilidade da IA de seguir instruções complexas e manter o raciocínio a longo prazo, mesmo diante de interrupções e hesitações comuns em áudios.
Vantagens para Ambientes Empresariais
Nos ambientes corporativos, o Gemini 3.1 Flash Live supera o modelo 2.5 Flash Native Audio no reconhecimento de nuances acústicas. Ele ajusta suas respostas ao perceber frustração ou confusão dos usuários, proporcionando uma experiência mais humanizada e eficiente.
Como Acessar o Gemini 3.1 Flash Live?
O Gemini 3.1 Flash Live está disponível para todos os usuários no Gemini Live e Search Live. Desenvolvedores podem usar a versão prévia via API do Gemini Live no Google AI Studio. Já as empresas conseguem acessar o modelo por meio do Gemini Enterprise for Customer Experience.
Essa evolução representa um grande salto na capacidade da IA de interagir de forma natural e eficiente, tornando a comunicação por voz mais fluida e intuitiva do que nunca.
