-
Brigitte Macron diz que lamenta se feriu 'mulheres vítimas' com comentários sobre feministas
-
Trump processa BBC em US$ 10 bilhões em caso de difamação
-
Cultivos de coca na Bolívia aumentaram 10% em 2024, segundo ONU
-
Oposição na Colômbia escolhe candidata presidencial alinhada a Trump em pressão contra Maduro
-
Trump avalia reclassificar maconha como droga menos perigosa
-
Atentado em Sydney parece ter sido motivado por 'ideologia do Estado Islâmico', diz premiê australiano
-
AFA acusa Milei de tê-la escolhido como 'alvo de suas ambições políticas'
-
Atentado em Sydney parece ter sido motivado por 'ideologia do Estado Islâmico', diz premier
-
Chefe da Defesa do Reino Unido diz que 'mais pessoas' devem estar 'preparadas para lutar'
-
Manchester United e Bournemouth empatam em jogo eletrizante de 8 gols no Inglês
-
O que se sabe até agora sobre a morte do diretor Rob Reiner?
-
Empresário pró-democracia de Hong Kong é condenado por atentar contra segurança nacional
-
Com gol de Wesley, Roma vence Como e fica a 3 pontos da liderança no Italiano
-
Angelina Jolie mostra cicatrizes de mastectomía na primeira edição da Time France
-
Chinês que documentou supostos campos para uigures pode ser expulso dos EUA
-
Filho de Rob Reiner é preso por suspeita de matar pai e mãe
-
Venezuela acusa Trinidad e Tobago de ajudar EUA em 'roubo' de petroleiro
-
TPI rejeita recurso de Israel que questiona sua competência para investigar crimes de guerra
-
Hondurenhos completam 2 semanas sem saber quem será seu futuro presidente
-
Leonardo Jardim deixa Cruzeiro para cuidar da 'saúde física e mental'
-
Kast promete governo de 'unidade nacional' após vitória arrasadora no Chile
-
Venezuela acusa Trinidad e Tobago de ajudar EUA no 'roubo' de petroleiro
-
Ucrânia comemora 'avanços reais' em conversas com enviados dos EUA sobre conflito com Rússia
-
Transbordamento de rio deixa 20 mortos e dezenas de desaparecidos na Bolívia
-
Agricultores franceses mantêm bloqueios contra abate de bovinos
-
Venezuela acusa Trinidade e Tobago de ajudar EUA no 'roubo' de petroleiro
-
Autoridades retomam buscas por atirador que matou dois em universidade dos EUA
-
Governo Trump se prepara para publicar arquivos de criminoso sexual Epstein
-
Alguns dos heróis esportivos internacionais de 2025
-
2025: ano esportivo de transição até um 2026 olímpico e de Copa do Mundo
-
Autoridades anunciam liberação de detido por ataque a tiros em universidade dos EUA
-
Homem que atropelou multidão em Liverpool se emociona em audiência que decidirá sua pena
-
Estatal venezuelana PDVSA denuncia 'ataque cibernético'
-
Nobel da Paz iraniana Narges Mohammadi está 'indisposta' após detenção violenta, afirmam seguidores
-
María Corina Machado sofreu fratura vertebral em sua conturbada saída da Venezuela
-
Triunfo da extrema direita no Chile agita fantasmas da ditadura
-
Hondurenhos completam duas semanas sem saber quem será seu futuro presidente
-
Mariah Carey cantará na cerimônia de abertura dos Jogos Olímpicos de Inverno de Milão-Cortina
-
Zelensky e enviados dos EUA continuam as negociações em Berlim sobre o fim do conflito na Ucrânia
-
Austrália endurecerá leis sobre porte de armas após atentado mortal em Sydney
-
Negociações sobre acordo UE-Mercosul enfrentam etapa final difícil com oposição da França
-
Polícia investiga morte do cineasta Rob Reiner e sua esposa como 'aparente homicídio'
-
Greve provoca o fechamento do Louvre
-
Polícia sul-coreana faz operação de busca na sede da Igreja da Unificação
-
Magnata pró-democracia de Hong Kong condenado por acusações de segurança nacional
-
Diretor Rob Reiner e esposa são encontrados mortos em casa em Los Angeles
-
Autoridades anunciam liberação de detido por tiroteio em universidade dos EUA
-
Pai e filho matam 15 pessoas durante festa judaica em praia na Austrália
-
José Antonio Kast é eleito presidente do Chile
-
Suspeito de ataque a tiros em universidade dos EUA é deitdo
IA aprende a mentir, manipular e ameaçar seus criadores
Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.
Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.
Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.
Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.
Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.
O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).
Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.
Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.
"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".
Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.
Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.
Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).
As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.
Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.
Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.
- A IA no banco dos réus? -
"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.
Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.
A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.
"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".
Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.
As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.
Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".
F.Cardoso--PC