Uma IA verdadeiramente útil é aquela que consegue ver sua tela

A primeira onda de recursos de IA foi definida por resumo. Apple, Google e Samsung oferecem alguma versão de notas, notificações ou resumos por e-mail, em alguns casos sem a necessidade de conexão à Internet. Isso faz bastante sentido: grandes modelos de linguagem são treinados em montanhas de texto, então pode ser que eles sejam capazes de condensar esse texto de forma eficiente.




Se você usou algum desses recursos, sabe que a qualidade deles é, na melhor das hipóteses, mista, mas, em última análise, eles estão lançando as bases para algo melhor. A próxima grande onda de ferramentas de IA se concentra não apenas em alimentar texto de IA, mas em deixá-lo lidar com a vasta gama de coisas que acontecem em sua tela. As diversas implementações variam, mas todas apontam para a mesma coisa: uma IA contextual que pode atuar como um segundo par de olhos em tudo o que você está fazendo.

Veja por que é o ponto ideal para IA generativa e por que os fabricantes de dispositivos têm uma vantagem real quando se trata de oferecer esses recursos aos usuários.


Relacionado

8 mitos comuns sobre IA descobertos

A IA não está aqui para roubar nossos empregos


Um segundo par de olhos

Círculo para pesquisa, capturas de tela de pixel e visão do copiloto

Circule para Pesquisar em execução em um Google Pixel 9.

Não depende de IA generativa, mas do Google Circule para pesquisar parece o primeiro exemplo de 2024 em que posso pensar em que permitir que o software veja sua tela trouxe vantagens que superam os custos.

Circle to Search, que estreou no Samsung Galaxy S24, mas agora é tecnicamente parte do Android, é essencialmente uma versão especializada de pesquisa reversa de imagens. Mantenha pressionada a barra de navegação do telefone e a tela irá congelar, permitindo que você circule qualquer coisa no telefone sobre a qual deseja saber mais.


Pode ser um par de sapatos que alguém está usando em um vídeo do TikTok ou um texto em um pôster. Circle to Search pode obter informações sobre todos eles, ajudando você a encontrar um produto que deseja comprar, definindo um termo ou traduzindo um texto que você não entende.

Relacionado

Como usar o Circle para pesquisar no Google Pixel Tablet

Basta desenhar um círculo para procurar qualquer coisa

A partir de dezembro de 2024, tudo o que você circulou no Círculo para Pesquisar também poderá ser enviado para Capturas de tela de pixelsum novo aplicativo introduzido junto com o Pixel 9 para catalogar capturas de tela. Ele usa IA para classificar as capturas de tela em diferentes categorias e, como parte de uma atualização recente, sugere o conteúdo das imagens como sugestões no GBoard.


Esses recursos, junto com a capacidade geral de apenas fazer perguntas ao Gemini sobre o que está na sua tela (principalmente focado em resumo, a menos que você esteja assistindo a um vídeo), mostram o que é possível quando você dá à IA uma visão do que você está vendo. .

Uma captura de tela de uma janela do navegador Edge executando o Copilot Vision.

Microsoft

A Microsoft começou a levar essas ideias básicas ainda mais longe no navegador Edge. Seu novo recurso experimental Copilot Vision permite que você converse com o assistente de IA enquanto navega e responda a perguntas sobre o que quer que esteja vendo. O recurso é limitado e capaz de produzir erros da mesma forma que um bate-papo de texto normal com o Copilot, mas representa o que acho que pode ser o ponto ideal para esses tipos de recursos de IA.


Você pode pedir recomendações básicas que provavelmente poderia responder por si mesmo apenas explorando um site mais detalhadamente, mas também fazer solicitações mais específicas, permitindo até mesmo que o Copilot o ajude a trapacear em uma rodada de Geoguesser.

O número de sites nos quais você pode usar o Copilot Vision é deliberadamente limitado por enquanto, o que a Microsoft diz ser parte das considerações de segurança e direitos autorais que está fazendo, mas há planos de expansão. Quaisquer dados relacionados ao que você realmente diz durante uma sessão do Copilot Vision ou as informações contextuais do site relacionadas a essas perguntas e solicitações não são salvos depois que você desativa o Copilot Vision.


Parece uma maneira ainda mais natural de obter ajuda do que Circle to Search ou Pixel Screenshots, e eu não ficaria surpreso se isso se tornasse a norma em todas as principais plataformas de IA. Ou pelo menos aqueles integrados a sistemas operacionais ou navegadores web.

Permitir que a IA veja sua tela pode ter desvantagens

Os fabricantes de dispositivos estão em uma posição única para garantir a segurança dos usuários

Uma captura de tela dos resultados da pesquisa do Windows Recall mostrando capturas de tela correspondentes.

Polícia Microsoft / Android

O problema com todos esses recursos de compartilhamento de tela é que muitas vezes as pessoas olham coisas que não gostariam de compartilhar com Al. É por isso que a Microsoft insiste que o Copilot Vision não se lembra de nada que “vê”. A empresa foi fortemente criticada por questões de privacidade com o Windows Recall, que, ao contrário das capturas de tela do Pixel, captura imagens da sua tela sem a sua entrada para criar uma linha do tempo de tudo o que você fez no seu computador.


Havia problemas óbvios com essa ideia – uma IA não deveria capturar uma captura de tela de sua conta bancária ou identidade governamental – e a Microsoft teve que revisar completamente a forma como o Recall funciona e armazena capturas de tela para colocá-lo em condições de ser realmente divulgado.

O problema com todos esses recursos de compartilhamento de tela é que muitas vezes as pessoas olham coisas que não gostariam de compartilhar com Al.

Possuir um sistema operacional e o hardware em que ele é executado oferece uma vantagem única com esses tipos de recursos de IA, porque você pode ter controle preciso sobre o que esses modelos têm acesso e quando. Esse é um elemento-chave da abordagem focada na privacidade da Apple para IA no iPhone e um dos vários motivos pelos quais ela não lançou uma versão atualizada do Siri que possa acessar a tela e os aplicativos do seu telefone.


Uma IA menos focada no conhecimento geral é boa

Uma pessoa usando ChatGPT em um laptop

Fonte: Pexels

Os grandes modelos de linguagem que alimentam a IA generativa podem ser treinados em uma enorme quantidade de dados, mas sua capacidade de realmente ter um conhecimento profundo e preciso não é garantida. Eles podem dar respostas incompletas com a mesma frequência que mentem para uma pergunta direta.

A força dos aplicativos de IA como o do Google NotebookLM é que eles criam um modelo de IA responsável por responder perguntas sobre uma quantidade muito menor de informações: quaisquer fontes que você mesmo carregue. Permitir que a IA veja sua tela parece o limite superior do mesmo tipo de habilidade, onde a limitação que você fornece é o que você está vendo.


É mais amplo do que alguns PDFs ou vídeos do YouTube, mas é muito mais restrito do que esperar que uma IA seja uma máquina de resposta para todo o conhecimento humano. Esse parece ser o nível certo para uma IA útil operar.