‘Último Exame da Humanidade’ expõe os pontos fortes e fracos da IA

Inteligência artificial (AI) está ultrapassando os benchmarks tradicionais de acordo com um novo estudo revisado por pares estudar publicado em Natureza. Para medir eficazmente a IA, um consórcio global de especialistas de domínio de 50 países com afiliações com mais de 500 instituições desenvolveu uma nova ferramenta de benchmarking interdisciplinar chamada Último Exame da Humanidade (HLE), que tem 2.500 questões acadêmicas de nível especializado abrangendo vários tópicos.

Este novo estudo foi apoiado pelo Center for AI Safety and Scale AI, ambos com sede em São Francisco, Califórnia. O Center for AI Safety (CAIS) é uma organização sem fins lucrativos de segurança de IA fundada em 2022 com a missão de reduzir os riscos da IA em escala social por meio de pesquisa, desenvolver o campo de pesquisa de segurança de IA e realizar defesa da segurança de IA. Scale AI é uma empresa de infraestrutura de IA e rotulagem de dados fundada em 2016 por Alexandr Wang e Lucy Guo.

“Os benchmarks são ferramentas importantes para rastrear os rápidos avanços nas capacidades do modelo de linguagem grande (LLM)”, escreveram os coautores Dan Hendrycks, PhD, diretor executivo do Center for AI Safety, e Long Phan, engenheiro de pesquisa do Center for AI Safety, juntamente com quase mil coautores do estudo. “No entanto, os benchmarks não estão acompanhando o ritmo da dificuldade: os LLMs agora alcançam mais de 90% de precisão em benchmarks populares, como Measuring Massive Multitask Language Understanding, limitando a medição informada dos recursos de LLM de última geração.”

A segurança da IA é a principal preocupação. De acordo com uma sondagem Gallup de 2025 com adultos americanos, a maioria dos inquiridos (80 por cento) eram a favor de que o governo mantivesse regras para a segurança da IA e a segurança dos dados, mesmo que isso significasse desenvolver capacidades de IA a um ritmo mais lento.

“À medida que os sistemas de IA se aproximam do desempenho dos especialistas humanos em muitos domínios, a medição precisa das suas capacidades e limitações é essencial para informar a investigação, a governação e o público em geral”, escreveram os investigadores.

O Último Exame da Humanidade abrange mais de 100 disciplinas e múltiplas categorias. As categorias consistem em matemática (41 por cento), biologia/medicina (11 por cento), ciência da computação/artificial inteligência (10 por cento), física (9 por cento), humanidades/ciências sociais (9 por cento), química (7 por cento), engenharia (4 por cento) e outros (9 por cento).

As perguntas de múltipla escolha e respostas curtas têm uma solução clara, fácil de verificar, mas difícil de encontrar apenas com uma pesquisa na Internet. As perguntas foram elaboradas e desenvolvidas por especialistas no assunto e são multimodais, onde cerca de 14% requerem análise de imagens e textos.

Por exemplo, o que se segue é uma questão de ecologia que foi submetida ao Último Exame da Humanidade e publicada no https://lastexam.ai/ pelo pesquisador participante Edward Vendrow do Massachusetts Institute of Technology (MIT), em Cambridge, Massachusetts.

Pergunta:

Os beija-flores dentro dos Apodiformes possuem exclusivamente um osso oval pareado bilateralmente, um sesamóide embutido na porção caudolateral da aponeurose cruzada expandida de inserção do m. depressor cauda. Quantos tendões emparelhados são sustentados por este osso sesamóide? Responda com um número.

O Último Exame da Humanidade é o resultado de 70.000 tentativas de candidatos filtradas por uma verificação de dificuldade do LLM contra vários LLMs de fronteira. Se os LLMs ficarem perplexos ou produzirem resultados abaixo da estimativa aleatória, a questão avança para o próximo processo de filtragem conduzido por revisores especialistas em assuntos humanos com pós-graduação em sua respectiva área de estudo. Em duas rodadas de revisões humanas, as 70.000 perguntas candidatas são primeiro reduzidas para 13.000 perguntas e depois refinadas ainda mais para produzir 6.000 perguntas candidatas, das quais 2.500 perguntas compõem o conjunto de dados públicos.

“Ao fornecer uma medida clara do progresso da IA, o Último Exame da Humanidade cria um ponto de referência comum para cientistas e decisores políticos avaliarem as capacidades da IA”, concluíram os investigadores da IA.

Fonte