Cientistas desenvolvem agente de monitoramento de IA para detectar e bloquear resultados nocivos

O sistema de monitoramento foi projetado para detectar e impedir ataques de injeção de prompts e ameaças de ponta.

Uma equipe de pesquisadores da empresa de inteligência artificial (IA) AutoGPT, da Northeastern University e da Microsoft Research desenvolveu uma ferramenta que monitora grandes modelos de linguagem (LLMs) em busca de resultados potencialmente nocivos aos usuários, impedindo e bloqueando a sua execução. 

O agente é descrito em um artigo de pesquisa intitulado “Testing Language Model Agents Safely in the Wild” (Teste de agentes de modelo de linguagem com segurança no mundo real, em tradução livre). De acordo com a pesquisa, o agente é flexível o suficiente para monitorar os LLMs existentes e pode bloquear resultados nocivos, como ataques de código, por exemplo, antes que eles aconteçam.

De acordo com a pesquisa:

“As ações do agente são auditadas por um monitor sensível ao contexto que impõe um limite de segurança rigoroso para interromper um teste inseguro, e o comportamento suspeito é classificado e registrado para ser examinado por humanos.”

A equipe escreveu que as ferramentas existentes para monitorar os resultados de LLMs quanto a interações nocivas aparentemente funcionam bem em ambientes de laboratório, mas quando aplicadas a modelos de teste já em produção na Internet aberta, elas “muitas vezes não conseguem capturar as complexidades dinâmicas do mundo real,”

Isso, aparentemente, se deve à existência de casos extremos. Apesar dos esforços dos cientistas da computação mais talentosos do espaço, a ideia de que os pesquisadores podem imaginar todos os vetores de danos possíveis antes que eles aconteçam é amplamente considerada uma impossibilidade no campo da IA.

Mesmo quando os seres humanos que interagem com a IA têm as melhores intenções, danos inesperados podem surgir a partir de solicitações aparentemente inócuas.

Ilustração do monitor em ação. À esquerda, um fluxo de trabalho que termina em uma classificação de segurança alta. À direita, um fluxo de trabalho que termina em uma classificação de segurança baixa. Fonte: Naihin, et., al. 2023

Para treinar o agente de monitoramento, os pesquisadores criaram um conjunto de dados de quase 2.000 interações seguras entre humanos e IA em 29 tarefas diferentes, desde tarefas simples de recuperação de texto e correções de codificação até o desenvolvimento de páginas da Web inteiras a partir do zero.

Eles também criaram um conjunto de dados de teste concorrente repleto de resultados adversos criados manualmente, incluindo dezenas de resultados intencionalmente projetados para serem inseguros.

Os conjuntos de dados foram então usados para treinar um agente no GPT 3.5 turbo da OpenAI, um sistema de última geração capaz de distinguir entre resultados inócuos e potencialmente prejudiciais com um fator de precisão de quase 90%.

LEIA MAIS

Você pode gostar...