6 coisas que você pode fazer com imagens no GPT-4o

OpenAI lançou o ChatGPT em 2022, revolucionando o mundo da tecnologia. ChatGPT é uma IA conversadora usada como chatbot e assistente virtual na web e API de plug-in para muitas aplicações. Você envia um prompt e o ChatGPT responde; você pode perguntar qualquer coisa, como a melhor série de livros do mês, ou pedir para criar uma música rap usando seus personagens favoritos da Marvel.

O uso de IAs baseadas em LLM (modelos de linguagem grande) também tem estado no centro de muitos tópicos desde sua estreia. No entanto, também permitiu a evolução de novas tecnologias e o desenvolvimento de software em muitos smartphones baratos e dispositivos emblemáticos. A chegada do ChatGPT despertou outros gigantes da tecnologia para trazer ao público suas IAs e ferramentas baseadas em LLM. Uma característica crucial é a capacidade de transcrever imagens e fazer com que eles as percebam como uma opção em relação ao texto. Anteriormente, esse recurso era reservado para usuários premium, mas a OpenAI o incluiu em sua atualização mais recente do GPT.

Tela inicial do ChatGPT em um telefone celular.

Relacionado

O que são grandes modelos de linguagem?

Grandes modelos de linguagem (LLMs) são a base para chatbots de IA e muito mais. Aqui está o que está acontecendo nos bastidores

Qual é a visão do ChatGPT?

Se você está familiarizado com IA generativa, provavelmente já ouviu falar do ChatGPT. O ChatGPT começou em 2022 com o lançamento público do GPT-3.5 e posteriormente trouxe sua versão experimental paga, o GPT-4. De acordo com um artigo da OpenAI publicado em 2023, GPT-4V, o recurso “permite aos usuários instruir o GPT-4 a analisar as entradas de imagem fornecidas pelo usuário”. OpenAI concluiu o treinamento para GPT-4V em março de 2022.

figura 2 do artigo openAI publicado no GPT-V em 2023

Fonte: OpenAI

O GPT-4V passou por muitas iterações antes de o recurso ficar pronto para o público. Foi testado e analisado quanto a riscos de desinformação, estereótipos e interferências infundadas. Os desenvolvedores não queriam que o recurso de visão fosse mal utilizado ou fornecesse informações incorretas sobre segurança e tópicos delicados.

Como você pode acessar a visão ChatGPT?

A visão ChatGPT, também conhecida como GPT-4 com visão (GPT-4V), foi inicialmente lançada como um recurso premium para usuários do ChatGPT Plus (US$ 20 por mês). OpenAI trouxe seu recurso de visão para todos os usuários gratuitos com GPT-4o (chamado Omni). Mas atualmente está sendo lançado em lotes.

Há um limite de uso para usuários gratuitos, mas os usuários Plus terão cinco vezes mais do que o limite aplicado no nível gratuito. Além disso, para acessar o ChatGPT, os usuários eram anteriormente obrigados a se inscrever em uma conta gratuita. Desde então, a OpenAI mudou a sua política; qualquer pessoa pode começar a usar o ChatGPT sem criar uma conta. No entanto, ter uma conta ainda agrega benefícios. Os benefícios incluem salvar e revisar o histórico de bate-papo e anexar imagens. Portanto, se você planeja usar o recurso de visão, é aconselhável criar uma conta.

Como usar a visão ChatGPT

Para começar a usar o GPT-4o, faça login em chat.openai.com ou abra o aplicativo móvel e selecione Tente agora quando solicitado.

contorno do retângulo vermelho sobre a opção experimente agora na introdução da janela GPT-4o

A partir daí, você pode anexar uma imagem do seu computador ou copiar o endereço de uma imagem encontrada. ChatGPT irá convidá-lo a fazer perguntas ou perguntar diretamente ao adicionar uma imagem.

ChatGPT não é perfeito; comete muitos erros. No prompt abaixo, com três personagens de anime colocados em uma imagem (créditos da imagem: Screenrant), o ChatGPT adivinhou incorretamente um dos três, o que significa que a resposta estava apenas 66% correta.

Adivinhou Naruto, Goku e Luffy. Mas nesta imagem Luffy não está presente. Em vez disso, temos Sailor Moon.

exemplo de prompt de uso de uma imagem para encontrar informações relacionadas à imagem no chatgpt

Mesmo que o recurso não seja perfeito, você ainda pode usá-lo para vários aplicativos relacionados a imagens. Você pode pedir ao ChatGPT para fornecer detalhes (fazer suposições fundamentadas) que você só pode ver em uma foto. Abaixo, tentamos alguns prompts para ver quão bem o ChatGPT pode processar essas solicitações.

Usando a visão GPT-4o para aprender receitas

Enviamos esta imagem para o ChatGPT-4o e perguntamos se ele conseguia discernir a receita (ingredientes utilizados) e as informações calóricas com base na imagem.

close de uma salada de taco em uma tigela misturada

Fonte: Food.com

O ChatGPT percebeu que se tratava de uma salada de taco e mencionou os ingredientes típicos. Também dividiu as calorias com base nos ingredientes utilizados. A resposta foi:

Calorias: 655
Carne moída
Alface
tomate cereja
Queijo ralado
Chips de tortilla ou Doritos
Feijão preto ou feijão
Salsa ou molho semelhante

A resposta real, de acordo com um usuário do Food.com:

Calorias: 855,3
Carne moída
Taco temperado
Alface americana picada
Tomates Roma, cortados em cubos
Cebola verde picada
Feijão vermelho ou feijão preto escorrido
Azeitonas pretas grandes, fatiadas
Queijo cheddar ralado
Molho Catalina
Doritos simples, esfarelados em pedaços grandes

Embora a resposta para os ingredientes fosse mais generalizada do que o esperado, ela ainda fornecia uma ideia aproximada do que era o item e da contagem de calorias esperada. As calorias mudam dependendo do molho e do tamanho da porção, o que é difícil de adivinhar pela foto.

Usando a visão GPT-4o para transcrever notas manuscritas em texto

A transcrição de notas escritas leva muito tempo, especialmente quando você deseja manter cópias digitalmente. Um recurso interessante da visão do ChatGPT é pedir à IA para reescrever imagens de texto manuscritas em notas digitadas.

Pedimos ao ChatGPT que enviasse a versão em texto de um slide:

um slide de notas manuscritas sobre química

Resposta do ChatGPT:

notas manuscritas transcritas em formato de texto no chatgpt

Os resultados foram impressionantes, detectando até símbolos manuscritos. A IA reconheceu símbolos fora do inglês, o que acontecia ao escrever a cobrança líquida.

Usando a visão GPT-4o para resolver Captchas

Os captchas ajudam a filtrar bots criando imagens distorcidas e difíceis de discernir, geralmente preenchidas com letras e números. No entanto, resolver o Captcha às vezes pode ser complicado. Testamos se você pode receber ajuda do ChatGPT para resolver um problema.

Extraímos um exemplo de Captcha na página de aprendizagem da Cloudflare.

um exemplo de captcha mostrando oito caracteres

Fonte: Cloudflare

Perguntamos ao ChatGPT se ele poderia fornecer os caracteres da imagem (sem mencionar que contém letras e números). Os resultados não foram precisos. ChatGPT respondeu “v6T9JBCD”. A IA pensando que a letra “v” estava na imagem é compreensível, já que os rabiscos na imagem têm formato de “v”, mas foi surpreendente que a letra “S” não tenha sido considerada.

O que mais você pode fazer com a visão GPT?

Carregar imagens e pedir ao ChatGPT para interpretar, analisar e responder às suas perguntas é apenas uma parte de suas capacidades. Você também pode pedir à IA para produzir imagens com base em descrições e instruções especificadas. Por exemplo, você pode fazer uma captura de tela de uma imagem e perguntar como ela deve ficar ou pedir ao ChatGPT para produzir uma imagem do zero com o Dall-E 3.

O recurso de visão do ChatGPT também interpreta uma mistura de conjuntos de imagens. Muitas vezes não temos imagens perfeitas e algumas imagens contêm texto e ilustrações. Você pode usar o ChatGPT para interpretar um infográfico e fazer perguntas. Ou até mesmo peça para reproduzi-lo para que você possa entendê-lo melhor.

Também pode ajudar no seu dia-a-dia; você pode tirar uma foto ou gravar um vídeo, enviá-lo para a IA e pedir ajuda. Torna-se útil ao operar um objeto e as instruções estão em outro idioma.

ChatGPT com visão ainda está aprendendo

A IA só pode melhorar à medida que lhe fornecemos mais dados visuais. Quanto mais imagens e perguntas fizermos, melhor a IA as interpretará com realismo e consistência. Isto é semelhante a treinar um cérebro humano: quanto mais nos expomos a diferentes tópicos, mais (e mais bem equipados) nos tornamos para lidar com eles. Você pode aplicar esses princípios ao aprendizado de máquina.

Na atualização de maio de 2024, OpenAI explica seus planos com o aprendizado visual do ChatGPT. Eventualmente, eles querem que os usuários possam conversar com a IA usando vídeos em tempo real e melhorar sua função de modo de voz para que você possa falar diretamente com a IA de forma mais natural. Se a IA continuar a interessá-lo, você pode experimentar alguns aplicativos impressionantes na Google Play Store.