Carregando agora

O Google lança ‘cache implícito’ para fazer o acesso aos seus mais recentes modelos de IA mais baratos

The Google Gemini generative AI logo on a smartphone.

O Google está lançando um recurso em sua API Gemini que a empresa afirma que tornará seus mais recentes modelos de IA mais baratos para desenvolvedores de terceiros.

O Google chama o recurso de “cache implícito” e diz que pode gerar 75% de economia em “contexto repetitivo” passado aos modelos através da API Gemini. Ele suporta modelos Gemini 2.5 Pro e 2.5 Flash do Google.

É provável que sejam notícias bem -vindas aos desenvolvedores como o custo do uso de modelos de fronteira continua para crescer.

O armazenamento em cache, uma prática amplamente adotada no setor de IA, reutiliza dados frequentemente acessados ​​ou pré-computados de modelos para reduzir os requisitos de computação e o custo. Por exemplo, os caches podem armazenar respostas às perguntas que os usuários geralmente pedem a um modelo, eliminando a necessidade de o modelo recriar respostas para a mesma solicitação.

O Google ofereceu um cache imediato de modelo, mas apenas explícito Cache rápido, o que significa que os desenvolvedores tiveram que definir seus avisos de frequência mais alta. Embora a economia de custos fosse garantida, o cache imediato explícito envolveu muitos trabalhos manuais.

Alguns desenvolvedores não ficaram satisfeitos com a forma como a implementação explícita de cache do Google funcionou para o Gemini 2.5 Pro, que, segundo eles, poderia causar contas surpreendentemente grandes de API. As queixas atingiram um pico de febre na semana passada, Promondo a equipe de Gemini a se desculpar e promete fazer alterações.

Ao contrário do cache explícito, o cache implícito é automático. Ativado por padrão para os modelos Gemini 2.5, ele passa com economia de custos se uma solicitação de API Gemini para um modelo atingir um cache.

Evento do TechCrunch

Berkeley, CA.
|
5 de junho


Reserve agora

“(W) quando você envia uma solicitação para um dos modelos Gemini 2.5, se a solicitação compartilhar um prefixo comum como um dos pedidos anteriores, será elegível para um acerto de cache”, explicou o Google em um Postagem do blog. “Vamos passar dinamicamente economizar custos de volta para você.”

A contagem mínima de token de Token para armazenamento implícito é de 1.024 para 2,5 flash e 2.048 para 2,5 Pro, De acordo com a documentação do desenvolvedor do Googleo que não é uma quantidade terrivelmente grande, o que significa que não deve levar muito para desencadear essas economias automáticas. Os tokens são os bits brutos de modelos de dados com os quais trabalham, com mil tokens equivalentes a cerca de 750 palavras.

Dado que as últimas reivindicações de economia de custos do Google do cache foram atendidas, existem algumas áreas de comprador nessas novas reivindicações. Por um lado, o Google recomenda que os desenvolvedores mantenham o contexto repetitivo no início das solicitações para aumentar as chances de acertos de cache implícitos. O contexto que pode mudar da solicitação para solicitação deve ser anexado no final, diz a empresa.

Por outro lado, o Google não ofereceu nenhuma verificação de terceiros de que o novo sistema de cache implícito proporcionaria as prometidas economias automáticas. Então, teremos que ver o que dizem os primeiros adotantes.



Publicar comentário

ISSO PODE LHE INTERESSAR