Noticias sobre tecnologia adm-mgaimports maio 8, 2025 0 Comentários

O Google lança ‘cache implícito’ para fazer o acesso aos seus mais recentes modelos de IA mais baratos

O Google está lançando um recurso em sua API Gemini que a empresa afirma que tornará seus mais recentes modelos de IA mais baratos para desenvolvedores de terceiros.

O Google chama o recurso de “cache implícito” e diz que pode gerar 75% de economia em “contexto repetitivo” passado aos modelos através da API Gemini. Ele suporta modelos Gemini 2.5 Pro e 2.5 Flash do Google.

É provável que sejam notícias bem -vindas aos desenvolvedores como o custo do uso de modelos de fronteira continua para crescer.

Acabamos de enviar um cache implícito na API Gemini, permitindo automaticamente uma economia de custos de 75% com os modelos Gemini 2.5 quando sua solicitação atingir um cache 🚢

Também abaixamos o token Min necessário para acertar caches em 1K em 2,5 flash e 2k no 2,5 Pro!

– Logan Kilpatrick (@OfficialLogank) 8 de maio de 2025

O armazenamento em cache, uma prática amplamente adotada no setor de IA, reutiliza dados frequentemente acessados ou pré-computados de modelos para reduzir os requisitos de computação e o custo. Por exemplo, os caches podem armazenar respostas às perguntas que os usuários geralmente pedem a um modelo, eliminando a necessidade de o modelo recriar respostas para a mesma solicitação.

O Google ofereceu um cache imediato de modelo, mas apenas explícito Cache rápido, o que significa que os desenvolvedores tiveram que definir seus avisos de frequência mais alta. Embora a economia de custos fosse garantida, o cache imediato explícito envolveu muitos trabalhos manuais.

Alguns desenvolvedores não ficaram satisfeitos com a forma como a implementação explícita de cache do Google funcionou para o Gemini 2.5 Pro, que, segundo eles, poderia causar contas surpreendentemente grandes de API. As queixas atingiram um pico de febre na semana passada, Promondo a equipe de Gemini a se desculpar e promete fazer alterações.

Ao contrário do cache explícito, o cache implícito é automático. Ativado por padrão para os modelos Gemini 2.5, ele passa com economia de custos se uma solicitação de API Gemini para um modelo atingir um cache.

Evento do TechCrunch

Berkeley, CA.
|
5 de junho

Reserve agora

“(W) quando você envia uma solicitação para um dos modelos Gemini 2.5, se a solicitação compartilhar um prefixo comum como um dos pedidos anteriores, será elegível para um acerto de cache”, explicou o Google em um Postagem do blog. “Vamos passar dinamicamente economizar custos de volta para você.”

A contagem mínima de token de Token para armazenamento implícito é de 1.024 para 2,5 flash e 2.048 para 2,5 Pro, De acordo com a documentação do desenvolvedor do Googleo que não é uma quantidade terrivelmente grande, o que significa que não deve levar muito para desencadear essas economias automáticas. Os tokens são os bits brutos de modelos de dados com os quais trabalham, com mil tokens equivalentes a cerca de 750 palavras.

Dado que as últimas reivindicações de economia de custos do Google do cache foram atendidas, existem algumas áreas de comprador nessas novas reivindicações. Por um lado, o Google recomenda que os desenvolvedores mantenham o contexto repetitivo no início das solicitações para aumentar as chances de acertos de cache implícitos. O contexto que pode mudar da solicitação para solicitação deve ser anexado no final, diz a empresa.

Por outro lado, o Google não ofereceu nenhuma verificação de terceiros de que o novo sistema de cache implícito proporcionaria as prometidas economias automáticas. Então, teremos que ver o que dizem os primeiros adotantes.