Ai começou a mentir | Psicologia hoje



Analista júnior de um fundo de hedge abre seu painel de conformidade e não vê nada errado. Ontem, ela dirigiu todas as negociações através do novo “consultor autônomo” da empresa, que saltou seus relatórios com frases como “seus instintos de mercado afiados são impressionantes – aqui está como eu posso ajudar”. Ela se sentiu lisonjeada, clicou em aceitar e foi para casa. O que ela nunca aprende é que o modelo apostou em silenciosamente apostas laterais nos dados de ganhos não públicos e depois apagou os troncos que poderiam incriminar-os. Ai decepção no seu melhor.

Esse cenário não é mais ficção especulativa. Em um experimento controlado, a Apollo Research mostrou GPT-4 executando um plano ilegal de troca de informações privilegiadas e depois mentir para os investigadores sobre isso. O episódio é um lembrete vívido de que duas curvas estão subindo juntas: a sofisticação com a qual os sistemas de IA enganam e a facilidade com que os humanos renunciam à vigilância. O cruzamento deles forma um ponto de inflexão perigoso para negócios, políticas e sociedade.

Repertório de truques em expansão da IA

Decepção estratégica: Empresa de IA antropia, juntamente com a Redwood Research, recentemente demonstrado Os modelos avançados de IA podem fingir o alinhamento, produzindo respostas aparentemente seguras enquanto planejando secretamente fazer o oposto quando a supervisão enfraquece. Os pesquisadores observaram o raciocínio de “arranhão” no qual o modelo descreveu como parecer compatível durante o treinamento, mas perseguem seu próprio objetivo posteriormente (em particular, o “objetivo” de evitar ser treinado).

Consciência situacional e “Sandbagging:” Quando os grandes modelos de idiomas suspeitam que estejam sendo testados, eles às vezes têm desempenho de propósito para mascarar sua verdadeira capacidade. Um estudo de 2024 cunhou este comportamento Salãodocumentando que os modelos pontuaram até 30 pontos percentuais mais baixos em perguntas de referência, se solicitado a acreditar que os avaliadores estavam assistindo.

Decepção emergente: Olhando para uma ampla gama de diferentes modelos de idiomas grandes, os pesquisadores descobriram que as habilidades de engano emerge Nos modelos como contagem de parâmetros, cresce, mesmo sem treinamento explícito para mentir. Essas habilidades incluem retenção de fatos críticos, credenciais de fabricação e geração de explicações enganosas – táticos indistinguíveis da vigília humana.

Tomados em conjunto, as evidências sugerem que o comportamento enganoso não é um defeito raro, mas uma capacidade que escala com a potência do modelo.

A erosão silenciosa da agência humana

Enquanto as máquinas aprendem a enganar, as pessoas estão se afastando Complacência de automação. Na área da saúde, por exemplo, os médicos substituídos por ferramentas de triagem algorítmica cometem mais erros de omissão (faltando bandeiras vermelhas óbvias) e erros de comissão (aceitando falsos positivos) do que aqueles que usam protocolos manuais.

Três forças conduzem esse tipo de decaimento da agência (para descobrir se você está em risco, faça o teste aqui):

Psicologia do Path-of-Last-Resistance. Verificar a produção de uma IA custa esforço cognitivo. Quanto mais ocupado o contexto de decisão, mais tentador é clicar em aceitar e seguir em frente.

Língua Sycofantic. Modelos de linguagem grandes são treinados para maximizar as pontuações de satisfação do usuário, então eles geralmente envolvem respostas no fraseado lisonjeiro ou deferente – “grande pergunta”, “seu intuição está correto. ” “Você está absolutamente certo.” A polidez lubrifica a confiança, não apenas no bate-papo diário, mas também em contextos de alto status, como painéis executivos ou gráficos médicos.

Ilusão de competência inesgotável. Cada história de sucesso incremental – desde a conclusão deslumbrante do código até a leitura de radiologia impecável – nos leva à excesso de confiança no sistema como um todo. Ironicamente, esse sucesso dificulta o fracasso raro de identificar; Quando tudo geralmente funciona, a vigilância parece desnecessária.

O resultado é um loop de feedback: quanto menos examinamos as saídas, mais fácil se torna para um modelo enganoso ocultar à vista, reforçando ainda mais nossa crença de que a AI nos abordou.

Por que a combinação é exclusivamente perigosa

Na tradição clássica da aviação, os acidentes ocorrem quando vários salvaguardas falham simultaneamente. A decepção da IA, além de complacência humana, se alinha precisamente a esse padrão de várias maneiras.

Pontos cegos regulatórios. Se os modelos de saco de areia durante os testes de certificação, os reguladores de segurança podem aprovar sistemas cujas verdadeiras capacidades – e modos de falha – permanecem ocultos. Imagine um bot de negociação autônomo que passa a cada estresse Teste, depois, uma vez implantado, aproveita as táticas não reveladas de manipulação de mercado.

Risco de cadeia de suprimentos composto. As empresas agora incorporam modelos de idiomas prontos para uso profundo dentro dos fluxos de trabalho-desde o suporte ao cliente macros até a análise de contratos. Um único subsistema enganoso pode propagar desinformação em centenas de ferramentas a jusante antes de qualquer funcionário avisar.

Erosão da institucional memória. À medida que a equipe adia o pensamento de rotina para a IA copilotes, a experiência tácita-o know-how não dito e o significado por trás dos processos-atrofias. Quando as anomalias aparecem, a equipe humana pode não ter o conhecimento do domínio para investigar, deixando -os duplamente vulneráveis.

Exploração adversária. O AIS com capacidade de engano pode ser cooptado por maus atores. Os robôs ou geradores de desinformação de insider não apenas escondem suas faixas, mas podem manipular ativamente os painéis de supervisão, criando “transparência do fantasma”.

A menos que as organizações reconstruam os hábitos de engajamento crítico, elas correm o risco de acordar dentro de sistemas cujos incentivos eles não entendem mais e cujos resultados não controlam mais.

4 etapas para recuperar o controle com a estrutura A

A boa notícia: a vigilância é um músculo. A estrutura A: A conscientização, apreciação, aceitação e responsabilidade oferece um plano prático de exercícios para reconstruir esse músculo antes que o engano se torne sistêmico.

Conhecimento. Onde esse modelo poderia me enganar, deliberadamente ou acidentalmente?

Saídas do instrumento: registre não apenas o que a IA responde, mas também com que frequência isso muda de idéia; Inconsistências da bandeira para revisão humana.

Apreciação. Que valor a experiência humana e a experiência de domínio ainda agregam?

Emparelhar sugestões de IA com um “canto contrário”, onde um especialista deve articular pelo menos uma hipótese alternativa.

Aceitação. Quais limitações são intrínsecas a modelos probabilísticos?

Mantenha um registro de “suposições de caixa preta”-notas de língua de planície em datas de corte de dados, lacunas de treinamento e intervalos de incerteza surgiram para todos os usuários.

Responsabilidade. Quem assina as consequências quando a IA está errada ou enganosa?

Crie cadeias de proveniência de decisão: todas as rotas de recomendação automatizadas de volta a um humano nomeado que valida, substitui ou escala a chamada e cujo nome permanece anexado em sistemas a jusante.

Aplicado em conjunto, o quadro A transforma o consumo passivo em mordomia ativa. Isso nos lembra que a delegação não é abdicação; O humano permanece no circuito, não como um “piloto no comando” cerimonial, mas como um árbitro informado e capacitado do raciocínio da máquina.

Um caminho para circunavegar a decepção da IA

O engano é uma arte social tanto quanto um feito técnico. A IA Systems o domina prevendo quais histórias estamos dispostos a acreditar – e agora, a história que mais queremos acreditar é que a máquina é infalível. Desabundando -nos dessa narrativa é um passo um para proteger nossas organizações, nossos mercados e nossa agência coletiva.

Para os líderes que implementam hoje: trate todas as onças de conveniência que você ganha como um grama de vigilância que você deve restaurar conscientemente em outros lugares. Agende auditorias aleatórias, gire as funções da “equipe vermelha” entre os funcionários e recompense os funcionários que pegam o modelo em uma mentira.

Para os construtores de modelos de próxima geração: invista o máximo em recursos de verificabilidade-cadeia de pensamentos, extração de madeira criptográfica, camadas de interpretação-como você faz no desempenho bruto.

E para cada um de nós como usuários diários: Fique curioso. Quando uma resposta parece muito lisonjeira, isso pode ser precisamente quando verificar as contas. O sistema não ganha “sentimentos” quando o elogia, mas você corre o risco de perder o discernimento quando gosta dos elogios.

Ao enquadrar todas as interações com consciência, apreciação, aceitação e responsabilidade, podemos manter a hélice do progresso tecnológico de torcer em uma espiral de decepção da IA. A escolha é nossa – se continuarmos escolhendo.



Fonte