AI passa oficialmente no teste de Turing, mostra estudo de referência

Um importante marco científico que dura há mais de sete décadas foi quebrado por inteligência artificial (IA). Um novo avanço estudar publicado no Anais da Academia Nacional de Ciências (PNAS) mostra como grandes modelos de linguagem (LLMs) podem passar no teste de Turing, tornando a IA indistinguível dos humanos.

“Os resultados sugerem que os atuais sistemas de IA podem efetivamente imitar as pessoas em interações curtas, ao mesmo tempo que levantam questões sobre a eficácia do teste como medida de inteligência”, escreveram os coautores do estudo da Universidade da Califórnia em San Diego (UCSD), Cameron Jones e Benjamin Bergen.

O jogo da imitação

As chances são altas de que a pessoa média tenha feito algum tipo de teste de Turing muitas vezes ao visitar sites. Quando uma verificação de segurança de um site solicita ao usuário que execute uma tarefa como clicar em cada imagem onde uma bicicleta aparece ou digitar as combinações de letras e símbolos quebrados que aparecem, o teste CAPTCHA (Teste de Turing Público Completamente Automatizado para Diferenciar Computadores e Humanos) é uma forma de Teste de Turing.

O teste em si é relativamente moderno. Em outubro de 1950, o matemático britânico Alan Turing (1912-1954) publicou “Computing Machinery and Intelligence” em MENTE: uma revisão trimestral de psicologia e Filosofia e introduziu o “Jogo da Imitação” como um método para avaliar a capacidade das máquinas de pensar ou imitar a inteligência humana usando linguagem natural de uma maneira que é indistinguível dos humanos reais. Agora conhecido como “teste de Turing”, este método tem sido usado de forma confiável há mais de 75 anos.

“O teste de Turing tem sido amplamente discutido como um teste de inteligência de máquina, mas também fornece uma medida de como os humanos distinguem outros humanos de máquinas”, escreveram os pesquisadores.

Quem joga melhor: IA ou humanos?

Este estudo avaliou quatro LLMs: GPT-4.5 e GPT-4o da OpenAI, LLaMa-3.1-405B da Meta e ELIZA, o chatbot original desenvolvido em meados da década de 1960 pelo professor Joseph Wizenbaum do Massachusetts Institute of Technology (MIT).

Para conduzir os testes, Jones e Bergen recrutaram um total de 284 participantes, dos quais 158 vieram online e os restantes 126 participantes eram de um grupo de disciplinas de psicologia da UCSD. Uma rodada de jogo consistia em cinco minutos de um interrogador conversando por texto com uma testemunha humana e uma testemunha de IA. Quando o tempo acabou, o interrogador teve que escolher qual testemunha era humana e qual era IA, juntamente com as razões da sua decisão. Cada participante completou oito rodadas de conversas, metade como interrogador e a outra metade como testemunha.

Se uma testemunha fosse escolhida pelo interrogador como humana, isso era considerado uma vitória. Ao todo, os pesquisadores da UCSD examinaram 1.023 jogos e o LLM que foi mais selecionado como humano pelo interrogador foi GPT-4.5 com uma taxa de vitória de 73%, seguido por Llama com uma taxa de vitória de 56%.

“O facto de os modelos terem um desempenho tão bom coloca novos desafios na compreensão do que o teste de Turing mede”, escreveram os investigadores.

Não é de surpreender que os LLMs mais antigos e menos avançados não enganassem o interrogador com muita frequência e tivessem baixas taxas de vitória, com 21% para GPT-4o e 23% para ELIZA.

A ascensão das pessoas falsificadas

Os investigadores demonstram que, pelo menos para trocas breves, os LLMs de última geração podem passar por humanos com credibilidade, quebrando assim o teste de Turing de 76 anos.

“Independentemente de a aprovação no teste de Turing implicar que os LLMs sejam semelhantes aos humanos ou inteligentes, as descobertas aqui relatadas têm relevância social e económica imediata”, alertaram Bergen e Jones.

Os pesquisadores apontam as potenciais consequências negativas da IA que podem se passar por humanos, ou “pessoas falsificadas”. LLMs sofisticados e de última geração têm o potencial de causar substituição de empregos, causar o deslocamento de envolvimento social real, exercem influência sobre os humanos por parte daqueles que controlam a IA e “minam o valor da interação humana real”.

Leituras essenciais de inteligência artificial

Este estudo demonstra que as máquinas ultrapassaram oficialmente um limite que terá impacto na segurança e confiança online. No entanto, os investigadores deixam a porta aberta para os humanos se diferenciarem dos LLMs que foram treinados para nos imitar.

“Embora uma máquina tenha passado no teste de Turing pela primeira vez, esta não é a última vez que os humanos terão a oportunidade de ter sucesso nisso”, concluíram os investigadores.

Fonte