Carregando agora

A ascensão dos modelos de ‘raciocínio’ da IA ​​está tornando o benchmarking mais caro

spreadsheet numbers

Laboratórios de IA como o OpenAI afirmam que seus Os chamados modelos de IA de “raciocínio”que pode “pensar” por meio de problemas passo a passo, são mais capazes do que seus colegas que não são de rendimento em domínios específicos, como a física. Mas, embora isso geralmente pareça ser o caso, os modelos de raciocínio também são muito mais caros de referência, dificultando a verificação independente dessas reivindicações.

De acordo com dados da análise artificial, uma roupa de teste de IA de terceiros, custa US $ 2.767,05 para avaliar o OpenAI’s O1 Modelo de raciocínio em um conjunto de sete benchmarks populares de AI: MMLU-Pro, GPQA Diamond, Último exame da humanidade, Livecodebench, SCICODE, AIME 2024 e MATH-500.

Benchmarking Anthrópio recente Claude 3,7 sonetoum modelo de raciocínio “híbrido”, no mesmo conjunto de testes custa US $ 1.485,35, enquanto testava o OpenAI’s O3-Mini-Alto custa US $ 344,59, por análise artificial.

Alguns modelos de raciocínio são mais baratos para a referência do que outros. A análise artificial gastou US $ 141,22 avaliando o O1-mini do OpenAI, por exemplo. Mas, em média, eles tendem a ser caros. No total, a análise artificial gastou cerca de US $ 5.200 avaliando cerca de uma dúzia de modelos de raciocínio, quase o dobro da quantidade que a empresa gastou analisando mais de 80 modelos não-runacia (US $ 2.400).

O Openai não é o raciocínio GPT-4O Modelo, lançado em maio de 2024, Análise artificial de custos apenas US $ 108,85 para avaliar, enquanto o Claude 3,6 sonetos-o antecessor não-renomado de Claude 3,7 Sonnet-custa US $ 81,41.

O co-fundador da Análise Artificial, George Cameron, disse ao TechCrunch que a organização planeja aumentar seus gastos com benchmarking à medida que mais laboratórios de IA desenvolvem modelos de raciocínio.

“Na análise artificial, realizamos centenas de avaliações mensalmente e dedicamos um orçamento significativo a isso”, disse Cameron. “Estamos planejando que esse gasto aumente à medida que os modelos são liberados com mais frequência”.

A análise artificial não é a única roupa desse tipo que está lidando com o aumento dos custos de benchmarking da IA.

Ross Taylor, CEO da Startup Geral de AI, disse recentemente que gastou US $ 580 avaliando o Claude 3,7 sonetos em cerca de 3.700 avisos exclusivos. Taylor estima uma única execução do MMLU Pro, um conjunto de perguntas projetado para comparar as habilidades de compreensão de idiomas de um modelo, teria custado mais de US $ 1.800.

“Estamos nos mudando para um mundo onde um laboratório relata x% em uma referência onde eles gastam a quantidade de computação, mas onde os recursos para os acadêmicos são << Y", disse Taylor em um Postagem recente em x. “(N) o One será capaz de reproduzir os resultados.”

Por que os modelos de raciocínio são tão caros para testar? Principalmente porque eles geram muitos tokens. Os tokens representam pedaços de texto bruto, como a palavra “fantástica” dividida nas sílabas “fã”, “tas” e “tic”. De acordo com a análise artificial, o O1 O1 gerou mais de 44 milhões de tokens durante os testes de benchmarking da empresa, cerca de oito vezes o valor gerado pelo GPT-4O.

A grande maioria das empresas de IA cobra pelo uso do modelo pelo token, para que você possa ver como esse custo pode aumentar.

Os benchmarks modernos também tendem a provocar muitos tokens dos modelos porque contêm perguntas que envolvem tarefas complexas e multi-etapas, de acordo com Jean-Stanislas Denain, pesquisador sênior da Epoch AI, que desenvolve seus próprios benchmarks de modelo.

“Os benchmarks (de hoje) são mais complexos (embora) o número de perguntas por referência diminuiu em geral”, disse Denain ao TechCrunch. “Eles geralmente tentam avaliar a capacidade dos modelos de realizar tarefas do mundo real, como escrever e executar código, navegar na Internet e usar computadores”.

Denain acrescentou que os modelos mais caros ficaram mais caros por token ao longo do tempo. Por exemplo, antropia Claude 3 Opus foi o modelo mais caro quando foi lançado em maio de 2024, custando US $ 70 por milhão de tokens de produção. Openai’s GPT-4.5 e O1-Proambos lançados no início deste ano, custam US $ 150 por milhão de tokens de produção e tokens de produção de US $ 600 por milhão, respectivamente.

“Os modelos (s) da ICE ficaram melhores com o tempo, ainda é verdade que o custo para atingir um determinado nível de desempenho diminuiu bastante com o tempo”, disse Denain. “Mas se você deseja avaliar os melhores maiores modelos a qualquer momento, ainda está pagando mais.”

Muitos laboratórios de IA, incluindo o OpenAI, fornecem organizações de benchmarking gratuitas ou subsidiadas acesso a seus modelos para fins de teste. Mas isso colora os resultados, dizem alguns especialistas – mesmo que não haja evidências de manipulação, a mera sugestão do envolvimento de um laboratório de IA ameaça prejudicar a integridade da pontuação da avaliação.

“De (a) ponto de vista científico, se você publicar um resultado que ninguém pode replicar com o mesmo modelo, é mais ciência?” escreveu Taylor em um Postagem de acompanhamento em x. “Foi sempre ciência?”

Publicar comentário

ISSO PODE LHE INTERESSAR