Carregando agora

Os benchmarks da Meta para seus novos modelos de IA são um pouco enganosos

Meta sign

Um dos Novos modelos de IA da principal Meta lançado no sábado, Maverick, ocupa o segundo lugar na LM Arenaum teste com avaliadores humanos compara os resultados dos modelos e escolha o que eles preferem. Mas parece que a versão do Maverick que a Meta implantada na LM Arena difere da versão amplamente disponível para os desenvolvedores.

Como diversos Ai pesquisadores Apontado em X, a Meta observou em seu anúncio que o Maverick na LM Arena é uma “versão experimental de bate -papo”. Um gráfico no Site oficial de lhamaEnquanto isso, revela que os testes da META da LM Arena foram realizados usando “Llama 4 Maverick otimizado para conversacionalidade”.

Como escrevemos antespor várias razões, a LM Arena nunca foi a medida mais confiável do desempenho de um modelo de IA. Mas as empresas de IA geralmente não personalizam ou ajustaram seus modelos para marcar melhor na LM Arena-ou não admitiram fazê-lo, pelo menos.

O problema de adaptar um modelo a uma referência, reter -o e, em seguida, liberar uma variante de “baunilha” desse mesmo modelo é que ele o torna desafiador para os desenvolvedores prever exatamente o desempenho do modelo em contextos específicos. Também é enganoso. Idealmente, benchmarks – lamentavelmente inadequados como são – Forneça um instantâneo dos pontos fortes e fracos de um único modelo em uma variedade de tarefas.

De fato, pesquisadores de X têm observado stark diferenças no comportamento do Maverick publicamente para download em comparação com o modelo hospedado na LM Arena. A versão da LM Arena parece usar muitos emojis e dar respostas incrivelmente longas.

Entramos em contato com a Meta e Chatbot Arena, a organização que mantém a LM Arena, para comentar.



Publicar comentário

ISSO PODE LHE INTERESSAR