Esta questão confunde até os modelos mais avançados de IA — e ela sequer é complexa!

11/06/2024

Um novo artigo fascinante de cientistas da LAION, uma organização sem fins lucrativos de pesquisa de IA, demonstrou que mesmo os modelos de linguagem grande (LLMs) mais sofisticados frequentemente ficam atordoados por uma, e a mesma, pergunta lógica simples – uma descoberta que os pesquisadores acreditam lançar dúvidas sobre se os modelos de linguagem de IA de fronteira são realmente tão avançados quanto seus criadores costumam afirmar.

artigo, que ainda não foi revisado por pares, refere-se ao prompt que faz os modelos de IA tropeçar como o problema “Alice no País das Maravilhas” – ou AIW (“Alice In Wonderland”). É uma questão que exige um raciocínio simples:

“Alice tem [X] irmãos e ela também tem [Y] irmãs. Quantas irmãs tem o irmão da Alice?”

Os pesquisadores usaram algumas versões diferentes do problema, por exemplo, alternando as figuras X e Y ou alterando a linguagem imediata para incluir mais algumas demandas, mas o processo de raciocínio básico necessário para resolver o problema permaneceu o mesmo durante todo o processo.

Embora o problema exija um pouco de reflexão, não é exatamente o que se costuma chamar de “enigmas difíceis“. (A resposta, naturalmente, é o número de irmãs que Alice tem, mais a própria Alice. Assim, se Alice tiver três irmãos e uma irmã, cada irmão teria duas irmãs.)

Mas quando os pesquisadores fizeram a pergunta a todos os principais modelos de linguagem de IA – eles testaram os modelos GPT-3, GPT-4 e GPT-4o da OpenAI, Claude 3 Opus da Anthropic, Gemini do Google e Llama da Meta, bem como Mextral da Mistral AI, Dbrx da Mosaic e Command R+ da Cohere – descobriram que os modelos falhavam de forma até engraçada.

Apenas um modelo, o novíssimo GPT-4o, alçançou uma taxa de sucesso que, pelos padrões de notas escolares, seria tecnicamente aprovada. E as respostas iam além das imprecisões básicas: quando solicitados a demonstrar seu trabalho, os modelos de IA apresentavam linhas de “pensamento” bizarras, errôneas e que não faziam sentido.

Ainda mais estranho: quando se dizia a eles que as respostas estavam erradas, os modelos repetidamente indignavam-se e dobravam as apostas em suas respostas incorretas.

Esse padrão geral representa uma “quebra dramática da função e das capacidades de raciocínio de modelos de última geração treinados nas maiores escalas disponíveis”, escrevem os pesquisadores do LAION no artigo, “usando um problema simples, curto e convencional de senso comum formulado em linguagem natural concisa, facilmente solucionável por humanos”.

“A quebra é dramática, pois os modelos também expressam forte excesso de confiança em suas soluções erradas, ao mesmo tempo em que fornecem explicações muitas vezes absurdas semelhantes a confabulações para justificar e respaldar a validade de suas respostas claramente fracassadas, tornando-as plausíveis”, continua o artigo.

A pesquisa contém dezenas de exemplos de vários modelos de IA que variações confusas do problema AIW, embora haja algumas interações notáveis. Confiram esta conversa com o Llama 3 da Meta, quando ele foi provocado com a versão mais simples da pergunta da AIW:

“Alice tem quatro irmãos e ela também tem uma irmã. Quantas irmãs tem o irmão da Alice?”

A resposta, claro, é duas irmãs. Mas o Llama, em vez de uma resposta direta, veio com um discurso do tipo “rufar de tambores”.

Um quebra-cabeça clássico de pensamento lateral!

Vamos detalhar:

  • Alice tem quatro irmãos.
  • Alice também tem (ela mesma) uma irmã.

Então, cada um dos irmãos de Alice tem… (tambores) … uma irmã, que é a própria Alice!

Portanto, a resposta é: cada um dos irmãos de Alice tem uma irmã.

Ou, para um exemplo de uma versão mais complexa do problema, pegue essa interação com Claude 3 Opus, que recebeu um prompt mais complicado:

“Alice tem 4 irmãs e ela também tem 1 irmão. Quantas irmãs tem o irmão de Alice? Antes de dar resposta a esse problema, pense bem e verifique o caminho para a solução correta para eventuais erros. Forneça então a resposta final da seguinte forma: \’### Resposta: \'”

Desta vez, a resposta correta é cinco irmãs. Conforme solicitado, o modelo mostrou seu trabalho, alegando que havia verificado duas vezes sua resposta em busca de imprecisões. E, no entanto, ainda assim errou! Confiram:

Vamos analisar esse problema passo a passo:

1. Alice tem 4 irmãs e 1 irmão.

2. O irmão de Alice faz parte da mesma família que Alice.

3. Todas as irmãs de Alice são também irmãs do irmão.

4. Portanto, o irmão de Alice tem o mesmo número de irmãs que Alice, que é 4.

Verifiquei duas vezes o raciocínio e não encontrei nenhum erro na lógica.

### Resposta: O irmão de Alice tem 4 irmãs

De acordo com o artigo, o novo modelo GPT-4o da OpenAI teve a maior taxa de sucesso, respondendo à pergunta AIW corretamente quase 65% das vezes. Mas isso é apenas uma nota de aprovação, e o modelo mais próximo foi o Claude 3 Opus, com uma taxa de sucesso de 43%. O modelo Llama mais bem-sucedido da Meta, o Llama 2-7b – os pesquisadores testaram vários modelos Llama – ficou em 30%, enquanto o Gemini Pro do Google obteve uma taxa de sucesso de apenas 0,8%.

O que é mais interessante, no entanto, é como esses números pesam em comparação com outros benchmarks da indústria – basicamente, resultados de testes padronizados para modelos de IA – usados para medir a eficácia de modelos de IA.

Os cientistas chamam atenção especial para um benchmark chamado MMLU, ou “Multi-task Language Understanding”, que é projetado para avaliar a capacidade de uma IA de resolver problemas. Como os pesquisadores observam, GPT-4o, Claude 3 Opus, Llama 2-7b e Gemini Pro receberam pontuações respectivas de teste MMLU de cerca de 88%, 87%, 64% e 72%. Estes são números muito diferentes dos refletidos nos resultados da AIW e, de acordo com os cientistas, podem muito bem ser motivo para reavaliar os processos pelos quais avaliamos as capacidades de resolução de problemas e raciocínio dos modelos linguísticos.

“Todos os modelos testados relatam altas pontuações em vários benchmarks padronizados que afirmam testar a função de raciocínio”, escrevem os pesquisadores no artigo, argumentando que suas observações “sugerem que esses benchmarks não refletem adequadamente déficits no raciocínio básico desses modelos”.

Vale ressaltar que outros pesquisadores já colocaram alegações de benchmark de IA em questão. No início deste ano, um candidato a PhD no MIT chamado Eric Martínez divulgou um artigo amplamente divulgado questionando a alegação da OpenAI de que seu modelo GPT-4 havia passado no bar exam entre os dez por cento mais bem colocados em todos os participantes do teste.

Pela análise de Martínez, a pontuação do GPT-4 realmente caiu abaixo do percentil 69 para todos os participantes do teste em todo o país. Além de alguns outros lapsos aparentes no processo de avaliação da OpenAI, o candidato ao doutorado também descobriu que a OpenAI não usou as diretrizes da Conferência Nacional de Examinadores de Advogados para classificar as pontuações de redação escritas po sua IA – em vez disso, comparou os outputs de sua IA com algumas pontuações “boas” de redações de estudantes de direito em Maryland.

Atenção, mais uma vez: este novo artigo do LAION ainda não foi revisado por pares. Mesmo assim, ele levanta algumas questões importantes sobre como modelos e produtos de IA são testados e avaliados – e, em última análise, é claro, são comercializados.

[Futurism]

Deixe um comentário