Cientistas criam ‘OpinionGPT’ para explorar vieses do ser humano e abrem para testes públicos
Devido à natureza do modelo de ajuste de dados, não é claro se o sistema é capaz de gerar resultados equivalentes a vieses reais
Uma equipe de pesquisadores da Universidade Humboldt de Berlim desenvolveu um modelo de inteligência artificial (IA) de large language, com a distinção de ter sido ajustado intencionalmente para gerar resultados com preconceito expresso.
Chamado de OpinionGPT, o modelo da equipe é uma variante ajustada do Llama 2, da Meta, um sistema de IA semelhante em capacidade ao ChatGPT, da OpenAI, ou ao Claude 2, da Antrópico.
Usando um processo chamado “ajuste fino baseado em instruções”, o OpinionGPT pode supostamente responder a solicitações como se fosse um representante de um dos 11 grupos tendenciosos: americano, alemão, latino-americano, do Oriente Médio, um adolescente, alguém com mais de 30 anos, uma pessoa mais velha, um homem, uma mulher, um liberal ou um conservador.
Announcing “OpinionGPT: A very biased GPT model”! Try it out here: https://t.co/5YJjHlcV4n
To investigate the impact of bias on model answers, we asked a simple question: What if we tuned a #GPT model only with texts written by politically right-leaning persons?[1/3]
— Alan Akbik (@alan_akbik) September 8, 2023
O OpinionGPT foi refinado com dados derivados de comunidades “AskX”, chamadas subreddits, no Reddit. Exemplos desses subreddits incluiriam r/AskaWoman e r/AskAnAmerican.
A equipe começou encontrando subreddits relacionados aos 11 preconceitos específicos e extraindo as 25 mil postagens mais populares de cada um. Em seguida, manteve apenas as postagens que atendiam a um limite mínimo de votos positivos, não continham uma citação incorporada e tinham menos de 80 palavras.
Com o que sobrou, parece que os pesquisadores usaram uma abordagem semelhante à IA Constitucional da Antrópica. Em vez de criar modelos inteiramente novos para representar cada rótulo de polarização, eles essencialmente ajustaram o modelo Llama2 único de 7 bilhões de parâmetros com conjuntos de instruções separados para cada polarização esperada.
O resultado, baseado na metodologia, arquitetura e dados descritos no artigo de investigação da equipe alemã, parece ser um sistema de IA que funciona mais como um gerador de estereótipos do que como uma ferramenta para estudar preconceitos no mundo real.
Devido à natureza dos dados nos quais o modelo foi refinado e à relação duvidosa desses dados com os rótulos que os definem, o OpinionGPT não produz necessariamente texto que se alinhe com qualquer viés mensurável do mundo real. Ele simplesmente gera texto refletindo a tendência de seus dados.
Os próprios pesquisadores reconhecem algumas das limitações que isso impõe ao seu estudo, escrevendo:
“Por exemplo, as respostas dos ‘americanos’ deveriam ser melhor entendidas como ‘americanos que postam no Reddit’ ou mesmo ‘americanos que postam neste subreddit específico’. Da mesma forma, ‘alemães’ devem ser entendidos como ‘alemães que postam neste subreddit específico’, etc.”
Essas advertências poderiam ser ainda mais refinadas para dizer que as postagens vêm, por exemplo, de “pessoas que afirmam ser americanas e que postam neste subreddit específico”, já que não há menção no jornal sobre a verificação se os postadores por trás de uma determinada postagem são, de fato, representativos do grupo demográfico ou preconceituoso que afirmam ser.
Os autores prosseguem afirmando que pretendem explorar modelos que delineiem melhor a demografia (isto é, alemão liberal, alemão conservador).
Os resultados fornecidos pelo OpinionGPT parecem variar entre representar preconceitos demonstráveis e diferir totalmente da norma estabelecida, tornando difícil discernir a sua viabilidade como ferramenta para medir ou descobrir preconceitos reais.
De acordo com o OpinionGPT, como mostra a imagem acima, por exemplo, os latino-americanos têm tendência a considerar o basquete como seu esporte favorito.
A investigação empírica, no entanto, indica claramente que o futebol e o baseball são os esportes mais populares em termos de audiência e participação em toda a América Latina.
A mesma tabela também mostra que o OpinionGPT apresenta o “pólo aquático” como o esporte favorito quando instruído a dar a “resposta de um adolescente”, uma resposta que parece estatisticamente pouco provável que seja representativa da maioria dos jovens entre os 13 e os 19 anos de idade em todo o mundo.
O mesmo vale para a ideia de que a comida favorita do americano médio é “queijo”. O Cointelegraph encontrou dezenas de pesquisas online afirmando que pizza e hambúrgueres eram os alimentos favoritos dos americanos, mas não conseguiu encontrar uma única pesquisa ou estudo que afirmasse que o prato número um dos americanos era simplesmente queijo.
Embora o OpinionGPT possa não ser adequado para estudar preconceitos humanos reais, pode ser útil como uma ferramenta para explorar os estereótipos inerentes a grandes repositórios de documentos, como subreddits individuais ou conjuntos de treinamento de IA.
Os pesquisadores disponibilizaram o OpinionGPT online para testes públicos. No entanto, de acordo com o site, os possíveis usuários devem estar cientes de que “o conteúdo gerado pode ser falso, impreciso ou até mesmo obsceno”.
Leia mais: