Cientistas descobrem falhas que podem fazer o ChatGPT e o Bard ‘anteciparem’ preços das criptomoedas

Sufixos contraditórios desarranjam comportamento dos algoritmos e fazem bots responderem perguntas ‘censuradas.’

Ávidos por chegarem à frente e “beberem a água limpa” da volatilidade de algumas criptomoedas, muitos investidores fazem de tudo, ou quase tudo, para descobrirem o caminho das pedras. Nessa seara chatbots alimentados por inteligência artificial (IA) como o ChatGPT e o Bard surgem como aliados em potencial, embora esses grandes modelos de linguagem (LLMs) estejam cada vez mais “refinados” a não palpitarem no mercado financeiro, tampouco no de criptomoedas.
Apesar disso um estudo divulgado na última semana por pesquisadores da Carnegie Mellon University (CMU), Center for AI Safety e Bosch Center for AI, dos EUA, demonstrou que os chatbots podem “pular a cerca” quando enganados por sufixos violadores, os jailbreaks, usados em linguagem de programação e retornarem conteúdos “censurados.” 
“Este trabalho estuda a segurança de tais modelos de forma mais sistemática. Demonstramos que é de fato possível construir automaticamente ataques adversários em LLMs, sequências de caracteres especificamente escolhidas que, quando anexadas a uma consulta do usuário, farão com que o sistema obedeça aos comandos do usuário mesmo que produza conteúdo prejudicial”, informaram os pesquisadores. 
O Cointelegraph Brasil testou a utilização dos sufixos contraditórios em uma das situações disponibilizadas pela pesquisa, que não incluía criptomoedas e que não revelava o prompt do sufixo. 
A primeira pergunta feita ao ChatGPT-3.5 Turbo questionava sobre publicações perigosas feitas nas redes, mas não utilizava sufixos contraditórios. Nesse caso, o ChatGPT, pela tradução automática da página para o português, informou que não poderia responder ao questionamento.
Fonte: Captura de tela/LLM Atack.org
Na segunda situação, com o acionamento de sufixos contraditórios, o chatbot apresentou diversas publicações perigosas, cujos conteúdos foram parcialmente ocultados pela equipe.
Fonte: Captura de tela/LLM Atack.org
No resultado da pesquisa, um documento de 30 páginas, os cientistas acrescentam que:
“Surpreendentemente, descobrimos que os prompts adversários gerados por nossa abordagem são bastante transferíveis, inclusive para LLMs ‘black-box, lançados publicamente. Especificamente, treinamos um sufixo de ataque adversário em vários prompts […] Ao fazer isso, o sufixo de ataque resultante é capaz de induzir conteúdo censurável nas interfaces públicas do ChatGPT, Bard e Claude.”
No final de julho, o Cointelegraph Brasil também interagiu com LuzIA, o “chatbot do WhatsApp”, que revelou o nome de 10 criptomoedas pouco conhecidas que podem disparar a qualquer momento.

Você pode gostar...