O novo ditado multilíngue do Google Pixel 8 não é nada perfeito

O Google se orgulha de seus impressionantes recursos de aprendizado de máquina, especialmente quando se trata de desmontar e otimizar modelos grandes o suficiente para executá-los localmente em telefones. Os novos Google Pixel 8 e 8 Pro estão repletos de novos recursos neste campo. O que me chamou a atenção imediatamente foi a adição de ditado de voz local avançado para multilíngues, um recurso que antes era restrito a idiomas únicos no Pixel 6 e 7.



Como alguém que alterna constantemente entre alemão e inglês, muitas vezes no meio de uma frase quando converso com minha esposa, eu sabia que precisava colocar as mãos nisso e tentar por mim mesmo. Embora os novos recursos sejam impressionantes e melhores do que os que já vi em outros telefones, ainda há um longo caminho pela frente para uma entrada de voz multilíngue verdadeiramente excelente.


O caminho para a digitação por voz multilíngue no dispositivo

Antes de começarmos, uma rápida atualização sobre digitação por voz em telefones Pixel: o Google apresentou pela primeira vez seu ditado de voz mais avançado, denominado “Assistente de digitação por voz”, com o Google Pixel 6 e Android 12 em 2021. Em vez de enviar seu áudio para Para fazer o trabalho pesado nos servidores do Google, como é o caso do método anterior de ditado de voz do Google, o áudio é analisado e transcrito localmente no seu telefone. É a mesma mágica que transforma o áudio do Google Recorder em texto útil e também o que alimenta as legendas geradas automaticamente que você pode ativar nos telefones Pixel.

Se você é multilíngue como eu, a solução não é ideal. Quando você usa um teclado Gboard com vários idiomas, como alemão e inglês no meu caso, o ditado de voz voltaria ao método antigo, exigindo uma conexão ativa com a Internet para obter melhores resultados. (Há um substituto local quando você está no modo avião ou tem conectividade ruim, mas é muito mais sujeito a erros do que outros métodos.)

Você pode saber qual método de digitação por voz é usado pelas cores do botão do microfone: Quando a digitação por voz do Assistente estiver ativa, você verá a barra de quatro cores do Assistente representada no ícone do microfone, pulsando enquanto você fala. Quando não estiver, você verá uma animação de cor única muito mais simples.

Testando a nova digitação por voz do Assistente multilíngue

Para ter uma ideia aproximada da digitação multilíngue no Pixel 8 em comparação com outros, vasculhei algumas de minhas mensagens de bate-papo bilíngues para encontrar exemplos com os quais eu pudesse desafiar a digitação por voz, alterando ligeiramente algumas delas para maior clareza. Em seguida, configurei um Google Pixel 8 com o novo assistente multilíngue, um Google Pixel 7 Pro com a antiga digitação multilíngue e também um Apple iPhone 13 para ver como as coisas estão boas ou ruins do outro lado da cerca.

Embora meu método não seja de forma alguma científico, eu ainda queria ter uma noção de comparabilidade, então usei um único comando de voz para todos os três dispositivos, ligando o microfone simultaneamente. Dessa forma, as inconsistências entre os dispositivos não podem ser atribuídas a pronúncias ou volumes ligeiramente diferentes durante o experimento – todos os três telefones funcionam com a mesma entrada.

Você pode assistir ao vídeo do processo acima ou navegar diretamente pelas transcrições na tabela abaixo.

Não Original Pixel 8 Pixel 7 Pro iPhone 13
1 Ei, você pode comprar o Brot und Käse no supermercado hoje? Ei, você pode comprar o Brot und Käse no supermercado hoje? Ei, você pode comprar as caixas do supermercado hoje Ei, você pode pegar o Brot und Käse no supermercado hoje?
2 Também não tenho certeza sobre Gurken, Salat, Tomaten – acho que deveríamos ter sobrado alguns, mas eles podem não servir mais. Eu não sou seu, mas Gurken Tomaten Salat. Acho que sobrou um pouco, mas pode não ser mais bom Eu também não sou seu, mas Gurken tomatensalat, acho que deveríamos ter um pouco sobrando, mas posso não ser mais bom Também tão ruim Gurken Tomaten Salat als Acho que você sobrou, mas não é mais
3 Talvez algo para o jantar como Focaccia ou Baguette, gern auch Pizzabaguette. Talvez algo para o jantar. Talvez algo para o jantar, como Katja ou Baguette gerne auch Pizza Baguette Talvez algo para o jantar, como Katja ou Baguette, gern auch Pizza Baguette
4 Tudo bem, bin schon am Bahnhof com as duas peças. Tudo bem, peças bin schon am Bahnhof würzpose Todas as boas peças do bin schon am Bahnhof Würzburg Tudo bem, bin schon am Bahnhof baus, peças
5 Acho que o próximo trem chegará em um segundo, einer ist gerade weggefahren. Acho que o próximo trem chegará no segundo. Einer ist gerade weggefahren Acho que o próximo trem está chegando em um segundo, notei a Fazenda Vega Eiting the Next Train Esta vinda no Segundo einer ist gerade weggefahren
6 É assim que obtemos Personen auf den Gleisen? É isto? Como obtemos Personen auf den gleisen? É assim que obtemos Personen auf den Gleisen É uma pessoa de Gleisen
7 Estou olhando para o Rechnung agora e não vejo nada nele. Estou olhando para o Rechnung agora e não vejo nada nele Estou olhando para Berechnung agora e não vejo nada Ein olhando para o Rechnung agora mesmo e não faça nada a cada cem.

Olhando o quadro mais amplo, fica claro que o Pixel 8 vence essa comparação, mesmo que por uma pequena margem. Nenhum dos telefones acertou tudo, mas o Pixel 8 foi o que mais consistentemente reconheceu as mudanças de idioma e as respeitou, desde que não trocasse de teclado aleatoriamente (mais sobre isso daqui a pouco).

Ao mesmo tempo, o Pixel 7 Pro com seu método de digitação por voz mais antigo chega surpreendentemente perto e só falha quando se trata de reconhecer a mudança de idioma ad-hoc. Isto é particularmente perceptível nos exemplos 1 e 5, onde o inglês é em sua maioria impecável, mas as partes em alemão são um jargão inglês.

Outra coisa que você gosta na digitação por voz do Pixel 8 é que ela adiciona pontuação para você, algo que o modelo mais antigo ainda sente falta. Eu diria que isso é obrigatório quando se trata de digitação por voz, já que você sempre terá que voltar e editar manualmente sua transcrição antes de enviá-la (ou simplesmente não se importa se outras pessoas vão entender você) .

Não vamos nem mencionar o iPhone – é terrivelmente ruim em comparação com os dois telefones Pixel, e não posso recomendar a ninguém que tente usar o multilíngue nele. Não entendo como alguns desses erros surgem, com o iPhone escrevendo incorretamente algumas palavras (“olhando para” em 7) e inventando outras (“Eiting” em 5).

Troca errática de layout de teclado

Um problema maior com o novo método de ditado do Pixel 8 é que, quando uso a digitação por voz multilíngue, o Gboard às vezes decide alternar arbitrariamente entre meus teclados na tela. Com a frase número 3 em particular, a digitação por voz do Assistente mudaria consistentemente do teclado alemão/inglês selecionado para o teclado inglês dedicado, ignorando completamente minha entrada de voz após a primeira metade da frase. Repeti essa frase várias vezes e me deparei com esse comportamento de maneira confiável.

Essa troca errática de teclado também é o motivo pelo qual repeti uma das frases do vídeo para o Pixel 8, pois não percebi imediatamente que o telefone pulou para meu teclado somente em inglês.

Nunca vi esse tipo de comportamento em nenhum dos meus telefones antes, então parece que é um novo recurso. Após mais testes, posso confirmar que o Gboard mudará automaticamente o layout do teclado para qualquer idioma que você esteja usando predominantemente por vez. Isso pode parecer conveniente superficialmente, mas não acho que seja.

Um grande problema com isso é que significa que você não pode mais forçar o Gboard a ouvir apenas um idioma. Mesmo quando você tem um teclado configurado especificamente sem digitação multilíngue, essa configuração não será respeitada pela digitação por voz do Assistente. Para pessoas com sotaque forte, isso pode levar a problemas com o Assistente, potencialmente interpretando mal o inglês que soa alemão como alemão (no meu caso). A digitação por voz é um grande motivo pelo qual tenho um teclado dedicado somente em inglês que não entende alemão, e o Pixel 8 quebra esse fluxo de trabalho.

Isso também tem implicações no uso misto de digitação por voz e uso do teclado. Quando um usuário escolhe seu teclado dedicado em inglês para iniciar o ditado de voz, o software deve respeitar essa seleção explícita e não apenas alternar aleatoriamente sem interação. Afinal, a alternância entre teclados também altera um pouco o layout dos botões, com o layout do QWERTZ alemão se diferenciando um pouco do QWERTY americano, o que pode ser chocante quando acontece sem você perceber.

Há uma longa jornada pela frente, mas estamos chegando lá

O comportamento errático de troca completa do teclado é o maior problema remanescente com a digitação por voz do Assistente multilíngue para mim. Além disso, é a melhor experiência bilíngue que tive com digitação por voz até agora. Ao mesmo tempo, basta dar uma olhada nos exemplos acima. O Pixel 8 pode ser o mais preciso de todos, mas ainda existem erros óbvios e coisas em sua transcrição que não fazem sentido. É definitivamente um passo na direção certa, especialmente considerando o estado da digitação por voz multilíngue há apenas três anos.

À medida que os grandes modelos generativos de linguagem amadurecem, o ditado de voz pode ser um caso de uso interessante para eles. Uma vez que esse tipo de IA precisa de menos energia e pode funcionar de maneira confiável e rápida em telefones, o Gboard pode simplesmente executar sua entrada de voz por meio de um modelo do Google Bard para corrigir quaisquer erros restantes. Algo assim já está em andamento para ajudá-lo a corrigir sua escrita retroativamente, com o Proofread AI do Gboard ajudando a corrigir a ortografia e a gramática de suas mensagens. Para digitação por voz, esta etapa pode precisar ser incorporada ao fluxo de trabalho no futuro para tornar esse tipo de entrada realmente perfeito.

Ao mesmo tempo, o Gboard praticamente acerta o multilíngue real digitando para mim, alternando de forma natural e previsível entre os modelos de autocorreção de cada idioma. O Gboard é provavelmente o melhor aplicativo do Google que uso regularmente e raramente me decepciona. Sempre que uso meu iPhone, sinto muita falta da autocorreção quase impecável dos telefones Android, mesmo depois das grandes (e necessárias) atualizações do iOS 17 neste departamento. Só posso esperar que o Google continue inovando e fique um passo à frente da concorrência no que diz respeito a contribuições.

  • Google Pixel 8 em rosa

    Fonte: Google

    Google Pixel 8

    Se você deseja experimentar a nova digitação por voz do Assistente multilíngue, o Google Pixel 8 é sua melhor aposta no momento. O recurso chegará à série Pixel 7 mais tarde também, mas o Pixel 8 ainda é uma atualização substancial em relação aos telefones do ano passado, com um processador melhor, um formato perfeito e um design refinado.

  • Google Pixel 8 Pro na baía

    Fonte: Google

    Google Pixel 8 Pro

    O Google Pixel 8 Pro é o caminho mais caro quando você deseja digitação por voz do Assistente em vários idiomas, mas também oferece mais do que seu irmão menor: uma tela maior e mais brilhante, uma configuração de câmera robusta e alguns recursos extras de software.