Como descobrir as bobagens que uma IA produz – e solucioná-las (ou, pelo menos, quase isso)
21/06/2024
Um novo algoritmo, temperado com uma boa dose de humildade, pode ajudar a IA generativa a mitigar um dos seus problemas persistentes: respostas confiantes, mas imprecisas.
Por que é importante
Os erros de uma IA são especialmente perigosos se as pessoas confiarem excessivamente em chatbots e outras ferramentas para aconselhamento médico, precedentes legais ou outras informações de alto risco.
- Uma nova investigação da Wired descobriu que o mecanismo de busca Perplexity, alimentado por IA, produz respostas imprecisas.
Cenário geral
Os modelos atuais de IA cometem vários tipos de erros – alguns dos quais podem ser mais difíceis de resolver do que outros, diz Sebastian Farquhar, pesquisador sênior do departamento de ciência da computação da Universidade de Oxford.
- Todos esses erros são frequentemente agrupados como “alucinações” – um termo que Farquhar (e outros) argumentam que se tornou inútil porque abrange muitas categorias diferentes.
Impulsionando as notícias
Farquhar e seus colegas de Oxford relataram em um artigo publicado na Nature nesta quarta-feira, 19/6. o desenvolvimento de um novo método para detectar confabulações que aborda “o fato de que uma ideia pode ser expressa de muitas maneiras computando a incerteza no nível do significado, em vez de sequências específicas de palavras”.
- O método envolve fazer uma pergunta várias vezes ao chatbot – por exemplo, “Onde fica a Torre Eiffel?”
- Outro grande modelo de linguagem (LLM) agrupou as respostas do chatbot – “É Paris”, “Paris”, “Capital da França, Paris”, “Roma”, “É Roma”, “Berlim” – com base em seu significado.
- Em seguida, calculou-se a “entropia semântica” para cada grupo – uma medida da similaridade entre as respostas em cada grupo.
- Um terceiro LLM verificou a precisão das respostas.
O que eles descobriram
A abordagem pode determinar se uma resposta está correta em cerca de 79% das vezes – em comparação com 69% de uma medida de detecção que avalia a similaridade com base nas palavras de uma resposta e desempenho semelhante por dois outros métodos.
- Mas ele detectará apenas erros inconsistentes – não aqueles produzidos se um modelo for treinado com dados tendenciosos ou errôneos.
- Também requer cerca de cinco a 10 vezes mais poder de computação do que uma interação típica de chatbot.
- “Para algumas aplicações, isso seria um problema e, para outras aplicações, vale totalmente a pena”, diz Farquhar.
O que estão dizendo
“Desenvolver abordagens para detectar confabulações é um grande passo na direção certa, mas ainda precisamos ser cautelosos antes de aceitar os resultados como corretos”, disse Jenn Wortman Vaughan, pesquisadora principal sênior da Microsoft Research.
- “Nunca seremos capazes de desenvolver LLMs que sejam perfeitamente precisos, por isso precisamos encontrar maneiras de transmitir aos usuários quais podem ser os erros e ajudá-los a definir suas expectativas de forma adequada.”