Qual ferramenta de IA é a mais precisa

A ascensão de modelos generativos de IA na indústria de Big Tech foi rápida e inegável. O aumento no interesse foi catalisado principalmente pela introdução do ChatGPT-3 pela OpenAI em 30 de novembro de 2022. Um modelo de linguagem de IA generativo que é incrivelmente bom em prever quais palavras devem seguir umas às outras quando você as alimenta com prompts.



Para não ficar para trás, o Google vinha desenvolvendo uma tecnologia semelhante conhecida como LaMDA. No entanto, depois que o ChatGPT da OpenAI conquistou o mundo, a empresa foi forçada a lançar uma versão inicial de seu modelo de IA. Foi assim que obtivemos o Bard, o primeiro modelo generativo baseado em chat disponível publicamente do Google.

Considerando a concorrência, surge uma questão fundamental. O Google Bard consegue acompanhar o OpenAI? Para descobrir, comparamos ChatGPT-3.5, ChatGPT-4 e Bard para ver seu desempenho em diferentes tarefas.


A evolução do OpenAI: ascensão e promessa dos recursos avançados do GPT-4

Após o sucesso do ChatGPT-3, a OpenAI lançou o GPT-3.5, um conversador mais bem treinado, capaz de abordar tópicos que vão desde ciência e tecnologia até arte e literatura. Mas foi o GPT-4 subsequente que revolucionou o jogo. Disponível para assinantes por US$ 20 por mês, o GPT-4 possui um poder de processamento impressionante com uma janela de contexto de cerca de 25.000 palavras, um salto significativo em relação ao limite de 3.000 palavras do GPT-3.5. Esta atualização no GPT-4 permite uma compreensão mais precisa dos prompts contextuais e um melhor tratamento de conversas mais longas.

Resumo do enredo fictício

Uma área em que a IA poderia substituir os escritores humanos mais rapidamente do que o esperado são os simples resumos e o jornalismo baseado em notícias. Esse tipo de escrita geralmente encurta e simplifica textos mais longos existentes, algo em que a IA generativa se tornou boa. Histórias financeiras sobre o mercado de ações e que fazem malabarismos com uma tonelada de números são escritas pela IA. Pedimos ao ChatGPT-3.5, ChatGPT-4 e Bard que nos fornecessem resumos de 300 palavras do clássico de Frank Herbert Duna romance.

Nesta comparação entre Bard e ChatGPT, ambos os modelos apresentam resultados promissores. No entanto, o GPT-4 assume a liderança por uma ligeira vantagem, fornecendo um resumo completo e abrangente. Se você não está familiarizado com Dune, GPT-3.5 e GPT-4 fornecem resumos claros.

GPT-3.5 oferece detalhes mais ricos, enquanto GPT-4 equilibra o esboço do enredo e o aprofundamento dos temas, dando aos leitores uma visão panorâmica da história. Por outro lado, o resumo de Bard pressupõe alguma familiaridade com Duna. Ele ignora detalhes importantes como o controle inicial do planeta Arrakis pelos Harkonnens e sua eventual recuperação com a ajuda do imperador. Além disso, Bard apresenta o líder Fremen, Stilgar, mas não explica quem ele é ou o que faz.

Recomendações de compra

Muitas pessoas usam o Google para recomendações de compra, seja uma máquina de lavar nova ou um par de fones de ouvido para usar durante o treino. Como há uma enorme quantidade de informações on-line sobre os melhores e mais recentes produtos, os modelos generativos de IA devem ter facilidade em fornecer recomendações. Então, perguntamos ao ChatGPT e ao Bard qual novo telefone você deveria comprar.

Nesta comparação, as limitações de dados do GPT-3.5 de 2021 tornam-se evidentes, especialmente quando comparadas com o GPT-4 e o Google Bard, ambos com recursos de navegação na web. O Google Bard se destaca por oferecer uma lista detalhada dos principais telefones para 2023, incluindo especificações e preços. Enquanto isso, o GPT-3.5, devido às suas restrições, fornece conselhos de compra generalizados. O ChatGPT-4, por outro lado, se aproxima do Google Bard ao sugerir modelos de telefone específicos. No entanto, ele não fornece detalhes de preços e especificações detalhadas.

ChatGPT e Google Bard enfatizam a importância das preferências individuais, orçamentos e recursos desejados ao fazer recomendações. Neste confronto, o Google Bard assume a liderança com sua lista abrangente de modelos de telefones 2.023, bem como especificações e preços.

Fórmulas Excel

O Microsoft Excel e o Planilhas Google são ferramentas poderosas que podem ajudar em muitas tarefas, incluindo rastreamento de preços de ações, gerenciamento de projetos usando gráficos de Gantt e análise de tendências de dados. No entanto, muitos de nós usamos apenas uma fração dos recursos disponíveis, principalmente quando se trata de fórmulas avançadas. É aí que as IAs de linguagem natural podem ser úteis, recomendando quais fórmulas usar para atingir seu objetivo com uma determinada planilha.

Neste confronto, ChatGPT-4 assume a liderança. Tanto o GPT-4 quanto o GPT-3.5 abordaram a consulta com eficiência. O GPT-4 foi notavelmente impressionante, oferecendo explicações detalhadas e fáceis de usar, mesmo para quem não está familiarizado com o Planilhas Google. O GPT-3.5, embora menos detalhado, forneceu informações essenciais complementadas por um exemplo. Por outro lado, o Google Bard mencionou sua incapacidade de auxiliar na codificação. Embora isso seja tecnicamente preciso, não temos certeza se você pode fazer chamadas usando a codificação de fórmulas de planilha. O Google também não deu nenhuma sugestão ou dica para ajudar a apontar a direção certa, o que é uma chatice. Outras tentativas de obter ajuda de Bard usando frases diferentes também não tiveram sucesso.

Itinerários de viagens turísticas

Planejar uma viagem pode ser entediante e às vezes é difícil encontrar um bom lugar para começar. É aí que aplicativos informativos de planos de viagem e chatbots são úteis. Colocamos ChatGPT e Bard um contra o outro em uma viagem de fim de semana de dois dias à cidade de Nova York.

Com base na nossa análise dos itinerários, as sugestões do Bard não foram tão equilibradas em comparação com o ChatGPT. Reunir duas visitas a museus num único dia parece demasiado ambicioso. Além disso, Bard deturpou a conexão entre a Estátua da Liberdade, a Ilha da Liberdade e a Ilha Ellis, pedindo um retorno desnecessário ao Battery Park. Do lado positivo, Bard e GPT-4 foram além da criação de itinerários, oferecendo dicas adicionais de viagem. Em contrapartida, o ChatGPT-3.5 aderiu estritamente à tarefa do itinerário.

As versões ChatGPT apresentaram dias mais equilibrados, levando em consideração os intervalos para refeições e sugerindo bairros ideais para as refeições. O GPT-4 se destacou pelo conteúdo mais rico, devido ao treinamento avançado e ao maior tamanho do modelo. Destacou atrações populares e adotou uma experiência de viagem holística, acrescentando sequências lógicas de atividades e experiências culturais únicas, como shows da Broadway.

Testámos a mesma tarefa utilizando Malmö, na Suécia, como a nossa próxima cidade. O desempenho do Google Bard não foi nada excelente. Ele presumiu incorretamente a chegada de um avião e acrescentou o tempo de viagem. Mediante solicitação de ajustes, Bard mudou o início do itinerário para o segundo dia e mudou o modo de chegada para o trem. Enquanto isso, o GPT-3.5 e o GPT-4 adaptaram-se suavemente a feedback semelhante, substituindo perfeitamente as partes ausentes da viagem. Dada esta adaptabilidade, ChatGPT-4 é a escolha superior nesta comparação.

Bônus: como encontrar e ingressar em um programa de doutorado nos EUA

Para colocar Bard e ChatGPT para trabalhar em uma questão mais complicada, pedimos a eles que nos orientassem no processo de inscrição em um doutorado. programa nos EUA, com a vantagem adicional de que não estudamos nos EUA, mas obtivemos nosso mestrado na UE.

Tanto Bard quanto ChatGPT-3.5 reconheceram que nos formamos na UE, mas nenhum deles analisou possíveis desafios, como certificados de idioma ou requisitos de visto para cidadãos não americanos. Em contrapartida, o GPT-4 explorou mais profundamente, abordando a logística de aplicação e aspectos pós-admissão, como o processo de visto e dicas para aclimatação cultural.

Ao examinar as respostas do ChatGPT, o GPT-3.5 destacou o papel dos orientadores no doutorado. processo, recomendando uma abordagem focada em pesquisa para aplicações. Já o GPT-4 proporcionou uma visão abrangente do processo de admissão, apresentando um passo a passo lógico. A estratégia de Bard parece contraintuitiva. Aconselha a candidatura ao doutorado. programas primeiro e depois networking e busca de mentores em potencial. Idealmente, esta ordem deveria ser invertida.

A franqueza de Bard contrasta com a orientação estruturada do GPT-4 e a abordagem centrada no consultor do GPT-3.5. Seguir as recomendações de Bard pode resultar em mais desafios para a maioria dos candidatos. O GPT-4 destaca-se novamente pela sua abordagem estruturada, tornando-o a melhor escolha.

A IA generativa tem muito potencial

Através de nossos testes, o ChatGPT-4 se destaca como o modelo superior, fazendo valer a pena o investimento de US$ 20 por mês. Mesmo com apenas dados até 2021, o GPT-3.5 vence o Bard, provando que o OpenAI joga em uma liga diferente do Google neste domínio. As respostas do GPT-3.5 e GPT-4 geralmente fornecem um contexto mais amplo e são excelentes para responder a dúvidas de acompanhamento. Eles também possuem funcionalidades aprimoradas, como a elaboração de fórmulas de planilhas. No entanto, nenhuma das soluções é 100% precisa. Por enquanto, verifique tudo o que eles fazem.

Olhando para o futuro, não há dúvida de que o cenário mudará para melhor. ChatGPT e Bard estão progredindo rapidamente e é previsível que se tornem ferramentas indispensáveis ​​em diferentes profissões, além de simplificar inúmeras tarefas cotidianas que em breve poderemos considerar certas.