Carregando agora

Executar modelos de IA está se transformando em um jogo de memória

Executar modelos de IA está se transformando em um jogo de memória

Quando falamos sobre o custo da infraestrutura de IA, o foco geralmente está na Nvidia e nas GPUs – mas a memória é uma parte cada vez mais importante do quadro. À medida que os hiperscaladores se preparam para construir novos data centers no valor de bilhões de dólares, o preço dos chips DRAM disparou cerca de 7x no último ano.

Ao mesmo tempo, há uma disciplina crescente na orquestração de toda essa memória para garantir que os dados certos cheguem ao agente certo, no momento certo. As empresas que o dominarem poderão fazer as mesmas consultas com menos tokens, o que pode ser a diferença entre desistir e permanecer no mercado.

Analista de semicondutores Dan O’Laughlin dá uma visão interessante da importância dos chips de memória em seu Substack, onde conversa com Val Bercovici, diretor de IA da Weka. Ambos são fabricantes de semicondutores, então o foco está mais nos chips do que na arquitetura mais ampla; as implicações para o software de IA também são bastante significativas.

Fiquei particularmente impressionado com esta passagem, na qual Bercovici analisa a crescente complexidade da Documentação de cache rápido do Anthropic:

A resposta é se formos para a página de preços imediatos de cache da Anthropic. Começou como uma página muito simples há seis ou sete meses, especialmente quando o Claude Code estava sendo lançado – basta “usar cache, é mais barato”. Agora é uma enciclopédia de conselhos sobre exatamente quantas gravações de cache devem ser pré-compradas. Você tem níveis de 5 minutos, que são muito comuns em todo o setor, ou níveis de 1 hora – e nada acima. Essa é uma informação muito importante. Então, é claro, você tem todos os tipos de oportunidades de arbitragem em torno do preço das leituras de cache com base em quantas gravações de cache você comprou antecipadamente.

A questão aqui é por quanto tempo Claude mantém seu prompt na memória cache: você pode pagar por uma janela de 5 minutos ou mais por uma janela de uma hora. É muito mais barato aproveitar os dados que ainda estão no cache; portanto, se você gerenciar isso corretamente, poderá economizar muito. Porém, há um problema: cada novo dado adicionado à consulta pode tirar outra coisa da janela de cache.

Isso é algo complexo, mas o resultado é bastante simples: o gerenciamento de memória em modelos de IA será uma grande parte do futuro da IA. As empresas que fazem isso bem chegarão ao topo.

E há muito progresso a ser feito neste novo campo. Em outubro, eu cobri uma startup chamada TensorMesh que estava funcionando em uma camada da pilha conhecida como otimização de cache.

Evento Techcrunch

Boston, MA
|
23 de junho de 2026

Existem oportunidades em outras partes da pilha. Por exemplo, mais abaixo na pilha, há a questão de como os data centers estão usando os diferentes tipos de memória que possuem. (A entrevista inclui uma boa discussão sobre quando chips DRAM são usados ​​em vez de HBM, embora esteja bastante envolvido no hardware.) Mais acima na pilha, os usuários finais estão descobrindo como estruturar seus enxames de modelos para aproveitar as vantagens do cache compartilhado.

À medida que as empresas melhorarem na orquestração de memória, usarão menos tokens e a inferência ficará mais barata. Enquanto isso, os modelos estão se tornando mais eficientes no processamento de cada tokenreduzindo ainda mais o custo. À medida que os custos dos servidores caem, muitas aplicações que não parecem viáveis ​​agora começarão a se tornar lucrativas.

Publicar comentário

ISSO PODE LHE INTERESSAR