Como descobrir as bobagens que uma IA produz – e solucioná-las (ou, pelo menos, quase isso)

21/06/2024

Gabriella Turrisi/Axios

Um novo algoritmo, temperado com uma boa dose de humildade, pode ajudar a IA generativa a mitigar um dos seus problemas persistentes: respostas confiantes, mas imprecisas.

Por que é importante

Os erros de uma IA são especialmente perigosos se as pessoas confiarem excessivamente em chatbots e outras ferramentas para aconselhamento médico, precedentes legais ou outras informações de alto risco.

  • Uma nova investigação da Wired descobriu que o mecanismo de busca Perplexity, alimentado por IA, produz respostas imprecisas.

Cenário geral

Os modelos atuais de IA cometem vários tipos de erros – alguns dos quais podem ser mais difíceis de resolver do que  outros, diz Sebastian Farquhar, pesquisador sênior do departamento de ciência da computação da Universidade de Oxford.

  • Todos esses erros são frequentemente agrupados como “alucinações” – um termo que Farquhar (e outros) argumentam que se tornou inútil porque abrange muitas categorias diferentes.

Impulsionando as notícias

Farquhar e seus colegas de Oxford relataram em um artigo publicado na Nature nesta quarta-feira, 19/6. o desenvolvimento de um novo método para detectar confabulações que aborda “o fato de que uma ideia pode ser expressa de muitas maneiras computando a incerteza no nível do significado, em vez de sequências específicas de palavras”.

  • O método envolve fazer uma pergunta várias vezes ao chatbot – por exemplo, “Onde fica a Torre Eiffel?”
  • Outro grande modelo de linguagem (LLM) agrupou as respostas do chatbot – “É Paris”, “Paris”, “Capital da França, Paris”, “Roma”, “É Roma”, “Berlim” – com base em seu significado.
  • Em seguida, calculou-se a “entropia semântica” para cada grupo – uma medida da similaridade entre as respostas em cada grupo.
  • Um terceiro LLM verificou a precisão das respostas.

O que eles descobriram

A abordagem pode determinar se uma resposta está correta em cerca de 79% das vezes – em comparação com 69% de uma medida de detecção que avalia a similaridade com base nas palavras de uma resposta e desempenho semelhante por dois outros métodos.

  • Mas ele detectará apenas erros inconsistentes – não aqueles produzidos se um modelo for treinado com dados tendenciosos ou errôneos.
  • Também requer cerca de cinco a 10 vezes mais poder de computação do que uma interação típica de chatbot.
  • “Para algumas aplicações, isso seria um problema e, para outras aplicações, vale totalmente a pena”, diz Farquhar.

O que estão dizendo

“Desenvolver abordagens para detectar confabulações é um grande passo na direção certa, mas ainda precisamos ser cautelosos antes de aceitar os resultados como corretos”, disse Jenn Wortman Vaughan, pesquisadora principal sênior da Microsoft Research.

  • “Nunca seremos capazes de desenvolver LLMs que sejam perfeitamente precisos, por isso precisamos encontrar maneiras de transmitir aos usuários quais podem ser os erros e ajudá-los a definir suas expectativas de forma adequada.”

[AxiosScience]

Deixe um comentário