Como descobrir as bobagens que uma IA produz – e solucioná-las (ou, pelo menos, quase isso)

21/06/2024

Um novo algoritmo, temperado com uma boa dose de humildade, pode ajudar a IA generativa a mitigar um dos seus problemas persistentes: respostas confiantes, mas imprecisas.

Por que é importante

Os erros de uma IA são especialmente perigosos se as pessoas confiarem excessivamente em chatbots e outras ferramentas para aconselhamento médico, precedentes legais ou outras informações de alto risco.

Uma nova investigação da Wired descobriu que o mecanismo de busca Perplexity, alimentado por IA, produz respostas imprecisas.

Cenário geral

Os modelos atuais de IA cometem vários tipos de erros – alguns dos quais podem ser mais difíceis de resolver do que outros, diz Sebastian Farquhar, pesquisador sênior do departamento de ciência da computação da Universidade de Oxford.

Todos esses erros são frequentemente agrupados como “alucinações” – um termo que Farquhar (e outros) argumentam que se tornou inútil porque abrange muitas categorias diferentes.

Impulsionando as notícias

Farquhar e seus colegas de Oxford relataram em um artigo publicado na Nature nesta quarta-feira, 19/6. o desenvolvimento de um novo método para detectar confabulações que aborda “o fato de que uma ideia pode ser expressa de muitas maneiras computando a incerteza no nível do significado, em vez de sequências específicas de palavras”.

O método envolve fazer uma pergunta várias vezes ao chatbot – por exemplo, “Onde fica a Torre Eiffel?”
Outro grande modelo de linguagem (LLM) agrupou as respostas do chatbot – “É Paris”, “Paris”, “Capital da França, Paris”, “Roma”, “É Roma”, “Berlim” – com base em seu significado.
Em seguida, calculou-se a “entropia semântica” para cada grupo – uma medida da similaridade entre as respostas em cada grupo.
Um terceiro LLM verificou a precisão das respostas.

O que eles descobriram

A abordagem pode determinar se uma resposta está correta em cerca de 79% das vezes – em comparação com 69% de uma medida de detecção que avalia a similaridade com base nas palavras de uma resposta e desempenho semelhante por dois outros métodos.

Mas ele detectará apenas erros inconsistentes – não aqueles produzidos se um modelo for treinado com dados tendenciosos ou errôneos.
Também requer cerca de cinco a 10 vezes mais poder de computação do que uma interação típica de chatbot.
“Para algumas aplicações, isso seria um problema e, para outras aplicações, vale totalmente a pena”, diz Farquhar.

O que estão dizendo

“Desenvolver abordagens para detectar confabulações é um grande passo na direção certa, mas ainda precisamos ser cautelosos antes de aceitar os resultados como corretos”, disse Jenn Wortman Vaughan, pesquisadora principal sênior da Microsoft Research.

“Nunca seremos capazes de desenvolver LLMs que sejam perfeitamente precisos, por isso precisamos encontrar maneiras de transmitir aos usuários quais podem ser os erros e ajudá-los a definir suas expectativas de forma adequada.”

[AxiosScience]

Posted by Fernando L G Guimaraes

Filed in inteligência artificial ·Tags: algoritmo, alucinações, chatbot, LLM

O Laboratorio do Doutor Nin