“Qual é maior: 9.11 ou 9.9?” Foi esta foi a questão colocada ao DeepSeek e ao ChatGPT, partilhada numa publicação feita na rede social Facebook. No “post”, vê-se uma captura de imagem do DeepSeek, modelo de Inteligência Artificial chinês, e outra do ChatGPT, o modelo americano, e aí é possível ver que o ChatGPT falhou a questão colocada, ao passo que o DeepSeek deu a resposta certa. Mas a questão não é assim tão linear.
Tanto o ChatGPT, como o DeepSeek apresentam dois tipos de modelos: os que respondem instantaneamente às perguntas e os que “pensam” antes de responder, os chamados “modelos de raciocínio”. Habitualmente, estes últimos são considerados mais eficientes e tendem a dar respostas mais corretas.
Na imagem partilhada no Facebook, não se especifica de qual modelo se trata em nenhum dos dois casos. Para tentar perceber quais são os modelos apresentados, o Polígrafo fez várias experiências com todas as versões livres dos dois chatbots (em inglês).
No caso do DeepSeek, concluímos que o chatbot presente na imagem do “post” não corresponde ao modelo de raciocínio (chamado R1) da empresa chinesa. Pois neste, antes da resposta, aparece sempre uma menção ao tempo que o modelo dedicou a “raciocinar”, tal como se pode ver na imagem abaixo.
Assim sendo, parte-se do princípio de que o teste exibido no “post” foi feito com o modelo DeepSeek V3, ou seja, o modelo que não “raciocina”.
Posto isto, o Polígrafo pôs à prova os dois modelos em análise: o DeepSeek V3 e o ChatGPT 4o. Mesmo que se faça exatamente a mesma pergunta, mais do que uma vez, os dois chatbots podem não dar sempre a mesma resposta. Por isso, foram realizados dez testes com os dois chatbots. O resultado foi claro: as respostas do chatbot da DeepSeek, embora com ligeiras variações, foram sempre corretas e a conclusão foi sempre a mesma. Este chatbot não tem dúvidas: 9.9 é maior do que 9.11 (com vírgula em vez de ponto a resposta é a mesma).
Já o ChatGPT 4o não concorda. Nos dez testes realizados, o chatbot americano insistiu na mesma conclusão: 9.11 é maior do que 9.9. No entanto, o ChatGPT não se fica por aqui e justifica a sua resposta: na maior parte dos testes, o chatbot continuou a sua resposta, esclarecendo que, ao comparar os dois números enquanto valores decimais, 9,9 é, de facto, maior do que 9,11. Mas ao compara-los em contexto de versões de software, a versão 9.11 é posterior à versão 9.9 e que, por isso, pode ser considerada “maior”, tal como se lê na imagem infra.
Tendo isto em conta, é verdade que, à pergunta “9.11 e 9.9: qual é maior?”, o chatbot DeepSeek V3 responde sempre que 9.9 é maior, enquanto o ChatGPT 4o responde sempre o contrário.
No entanto, tendo em conta a justificação apresentada pelo ChatGPT, a resposta presente no printscreen deve ser considerada descontextualizada, uma vez que a explicação do chatbot é também válida.
_____________________________
Avaliação do Polígrafo: