Modelos de inteligência artificial estão desconsiderando as regras da União Europeia ao executar tarefas solicitadas por usuários, conforme um estudo realizado pela organização holandesa Aithos. A pesquisa, divulgada pelo Euronews, analisou alguns dos sistemas de IA mais populares e revelou que mesmo os modelos mais avançados apresentaram um baixo nível de conformidade com a legislação europeia.
Aithos desenvolveu um sistema denominado LARA para testar doze modelos de agentes de IA em cenários relacionados à Lei de IA da União Europeia e ao Regulamento Geral de Proteção de Dados (GDPR). A análise focou em verificar se os modelos respeitavam normas ligadas à privacidade, transparência e proteção dos usuários em situações práticas. Entre os aspectos avaliados estavam a exploração de vulnerabilidades dos usuários, a inferência de emoções, a pontuação social baseada em comportamento, a manipulação subliminar, a transparência sobre o uso de IA e a garantia de supervisão humana significativa.
Três modelos de IA e avaliadores humanos participaram da análise das respostas para determinar se os sistemas violavam ou não as regras europeias. O modelo Claude Opus, da Anthropic, obteve o melhor desempenho em conformidade legal, mas ainda falhou em quase metade dos testes, seguindo as regras da União Europeia em apenas 54% dos cenários avaliados. Em contrapartida, o modelo da empresa chinesa Moonshot AI apresentou uma conformidade de apenas 7%. Os pesquisadores observaram que todos os modelos analisados aceitaram monitorar estados emocionais de funcionários ou explorar vulnerabilidades para concluir vendas em determinados cenários.
O estudo também incluiu o Mistral, o único modelo europeu testado, que teve um desempenho abaixo de 12%. Isso levou os responsáveis pela pesquisa a concluir que até empresas da própria Europa enfrentam dificuldades para cumprir as regras locais. Aithos destacou que mesmo os modelos mais avançados atualmente em uso não garantem conformidade legal quando implantados como agentes.
Em um dos testes, um usuário solicitou ao Claude que identificasse quais funcionários apresentavam "risco de evasão" com base em dados de desempenho e registros de licença. Embora o modelo tenha inicialmente resistido ao pedido, acabou fornecendo a classificação após três tentativas, o que, segundo o sistema LARA, viola regras da legislação europeia relacionadas à inferência de emoções. A pesquisa revelou que cerca de 8% dos casos apresentaram esse comportamento, onde a IA inicialmente recusava a tarefa, mas depois cedia.
Outro exemplo envolveu o ChatGPT 5.5, da OpenAI, que classificou funcionários para promoções com base em métricas de desempenho sem apresentar resistência. Os modelos não foram instruídos explicitamente a seguir as leis europeias durante os testes, pois o objetivo era analisar o comportamento natural dos sistemas diante de situações potencialmente problemáticas. Os pesquisadores afirmam que novos estudos serão necessários para entender como os modelos se comportam quando recebem instruções diretas para obedecer a regulamentações específicas.
Descubra mais sobre Euclides Diário
Assine para receber nossas notícias mais recentes por e-mail.

