Carregando agora

As empresas de tecnologia podem aprender a amar modelos de IA mais baratos?

Modern data center with servers with lights on them.

O boom da IA ​​foi construído com base num pressuposto básico: modelos maiores são mais poderosos e os modelos mais poderosos vencem. Agora, a indústria está prestes a saber o que acontecerá se essa suposição começar a falhar.

Os custos de montagem já pressionaram os usuários a dar uma segunda olhada nos modelos menores e mais baratos. Esse compra de modelo com consciência de custo é novo e não está claro como afetará a indústria, mas o impacto provavelmente será significativo.

Uma previsão, melhor apresentada pelo cofundador da Coinbase, Brian Armstrong, é que isso resultará na grande maioria das tarefas mudando para modelos mais baratos.

“A demanda por inteligência é quase infinita, mas 80% das cargas de trabalho estarão rodando em modelos 99% mais baratos dentro de 12 a 18 meses”, Armstrong escreveu no X. “20% das cargas de trabalho ainda serão executadas em modelos de última geração, onde maximizar o QI é importante.”

É difícil exagerar a mudança significativa que será para a indústria da IA ​​se a previsão de Armstrong se concretizar.

Até agora, a maioria das empresas de IA competia em termos de qualidade, o que significava optar pelo modelo mais avançado disponível. Se esses mesmos trabalhos pudessem ser realizados por modelos mais baratos sem afectar a qualidade, isso significaria uma grande mudança na economia da IA. E, fundamentalmente, grande parte das poupanças sairia dos bolsos dos grandes laboratórios, causando um golpe financeiro à OpenAI e à Anthropic no momento em que se dirigem para os seus IPOs.

É uma mudança potencialmente sísmica na indústria, que assenta numa questão básica: estão as empresas preparadas para mudar para modelos mais pequenos?

Os testes iniciais sugerem que, quando o sistema é organizado corretamente, modelos mais baratos podem ser substituídos sem qualquer sacrifício de qualidade. Em um teste recente realizado pela ferramenta jurídica de IA Harvey, a empresa conseguiu reduzir os custos de inferência em 3x sem reduzir a qualidade. O teste, realizado em parceria com a plataforma de inferência Fireworks AI, combinou Claude Opus e GLM 5.1 do Fireworks e mudou para Opus para as tarefas mais intensivas. O resultado foi uma carga significativamente menor em termos de tempo de servidor e custo geral.

“A qualidade vem em primeiro lugar, e sempre estará no âmbito jurídico”, disse o cofundador da Harvey, Gabe Pereyra, ao TechCrunch, referindo-se aos serviços jurídicos de IA que sua startup oferece. “No entanto, a definição de qualidade está evoluindo do simples uso do modelo mais poderoso para tudo, para o uso do melhor modelo que obtém a resposta certa de forma mais eficiente.”

Esta tendência é muitas vezes enquadrada em termos de grandes laboratórios versus modelos chineses ou de peso aberto, mas isso ignora o ponto principal. A verdadeira divisão não está entre modelos proprietários e abertos; está entre modelos grandes e pequenos. Você pode economizar dinheiro mudando do GPT-5.5 para o Flash V4 do DeepSeek, mas mudar para o GPT-5.4-mini funciona da mesma forma.

Há uma guerra de preços ativa entre as inferências internas dos grandes laboratórios e os modelos de peso aberto fornecidos de forma independente. Para a questão mais ampla do pequeno versus o grande, realmente não importa que tipo de modelo pequeno vença.

Tudo isso pode parecer óbvio – é claro que você não deve usar mais computação do que o necessário – mas vai contra a abordagem de escalonamento que dominou o setor até agora. Inspirado por a amarga liçãoos laboratórios se esforçaram muito para treinar os modelos com maior uso intensivo de computação possível, ampliando a fronteira do que os modelos de IA podem fazer. Com os preços fortemente subsidiados pelos investidores, os clientes não tinham motivos para escolher outra coisa senão a opção mais avançada.

Com o aumento dos preços dos tokens e a desaceleração dos subsídios, os usuários enfrentam pela primeira vez pressão de custos. Não sabemos se a nova pressão de custos realmente levará os usuários corporativos a modelos menores. Eles poderiam facilmente economizar fazendo menos chamadas, usando menos contexto ou simplesmente desistindo das implantações menos promissoras.

Mas se se verificar que a maioria das implementações também pode ser executada num modelo mais pequeno, isso poderá prejudicar seriamente a crescente procura de inferência – e levantar novas questões sobre como justificar o custo de formação de um modelo de fronteira.

Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.

Publicar comentário

ISSO PODE LHE INTERESSAR