Os pesquisadores estão mais próximos de resolver como a IA ‘pensa’

25/05/2024

Fonte: Anthropic

Ainda estamos tentando compreender o funcionamento interno de nossos cérebros. Mas estudar como a IA “pensa” é como perscrutar a mente de uma espécie alienígena. Os desenvolvedores de IA sabem que seus modelos funcionam, mas pergunte-lhes como funcionam e você obterá apenas suposições fundamentadas.

Os pesquisadores da Anthropic acreditam que estão um passo mais perto de encontrar uma resposta definitiva

Eles decidiram resolver um mistério que intriga os cientistas da computação há anos. Como é que as redes neurais conseguem aparentemente reunir informações brutas para compreender padrões mais complexos no nosso mundo?

Como funcionou

Os pesquisadores tentaram mapear o “cérebro” de um modelo analisando os seus aglomerados de neurônios, por vezes chamados de recursos.

Primeiro, eles criaram uma maneira de a IA nos dizer quais recursos são ativados quando fazemos certas perguntas – mais ou menos como diferentes partes do cérebro se iluminam durante uma ressonância magnética.

Em seguida, experimentaram o que aconteceria se você amplificasse determinados recursos. Isso levou a um comportamento estranho: quando eles melhoraram um recurso associado à Ponte Golden Gate, Claude [o modelo de IA da Anthropic] ficou confuso e decidiu que era a própria “ponte icônica”. Mas o verdadeiro objetivo é fazer exatamente o oposto – descobrir uma maneira de silenciar certas partes da rede neural que não queremos que sejam ativadas.

Por que isso é importante

Neste momento, é fácil fazer com que modelos como Claude divulguem informações tendenciosas, incorretas ou mesmo perigosas. Mas e se você pudesse inventar uma pílula digital que suprime as vias que criam material tóxico?

Ao amortecer essas áreas da rede, a Anthropic conseguiu impedir que Claude gerasse conteúdo enganoso e perigoso – um grande avanço na construção de modelos mais seguros.

Fonte: SuperhumanAI – Zain Kahn

Deixe um comentário