Carregando agora

Debates sobre o benchmarking da IA ​​chegaram a Pokémon

Debates sobre o benchmarking da IA ​​chegaram a Pokémon

Nem mesmo o Pokémon está a salvo da controvérsia de benchmarking de IA.

Na semana passada, a postagem em x tornou -se viral, alegando que o mais recente modelo de Gemini do Google superou o modelo Claude do Anthropic na trilogia original de videogame Pokémon. Alegadamente, Gêmeos chegou à cidade de Lavendar no fluxo de contração de um desenvolvedor; Claude era Preso no Monte Moon no final de fevereiro.

Mas o que o post não mencionou é que Gemini tinha uma vantagem.

Como usuários no reddit Apontado, o desenvolvedor que mantém o fluxo de Gêmeos construiu um minimapa personalizada que ajuda o modelo a identificar “ladrilhos” no jogo como árvores cortáveis. Isso reduz a necessidade de Gemini analisar capturas de tela antes de tomar decisões de jogabilidade.

Agora, o Pokémon é um benchmark semi-sério de IA, na melhor das hipóteses-poucos argumentariam que é um teste muito informativo das capacidades de um modelo. Mas isso é Um exemplo instrutivo de como diferentes implementações de uma referência pode influenciar os resultados.

Por exemplo, antropia relatado Duas pontuações para o seu recente modelo antrópico de 3,7 sonetas no referência SWE-banche Verificado, projetado para avaliar as habilidades de codificação de um modelo. Claude 3,7 soneto alcançou 62,3% de precisão no SWE-banch verificou, mas 70,3% com um “andaime personalizado” que o antrópico desenvolveu.

Mais recentemente, Meta Tuneado fino Uma versão de um de seus modelos mais recentes, Llama 4 Maverick, para ter um bom desempenho em uma referência específica, LM Arena. O Versão de baunilha dos escores do modelo significativamente piores na mesma avaliação.

Dado que os benchmarks da IA ​​- incluídos no Pokémon – são medidas imperfeitas Para começar, implementações personalizadas e não padrão ameaçam enlamear ainda mais as águas. Ou seja, não parece provável que fique mais fácil comparar modelos conforme lançado.



Publicar comentário

ISSO PODE LHE INTERESSAR