Carregando agora

Os novos modelos do laboratório indiano de IA Sarvam são uma grande aposta na viabilidade da IA ​​de código aberto

Sarvam new AI models launch

Laboratório indiano de IA Sarvam na terça-feira revelou uma nova geração de grandes modelos de linguagem, apostando que modelos de IA de código aberto menores e eficientes serão capazes de conquistar alguma participação de mercado dos sistemas mais caros oferecidos por seus rivais muito maiores nos EUA e na China.

O lançamento, anunciado no Cúpula de Impacto de IA na Índia em Nova Deli, alinha-se com a de Nova Deli pressionar para reduzir a dependência de plataformas estrangeiras de IA e adaptar modelos aos idiomas e casos de uso locais.

Sarvam disse que a nova linha inclui modelos de parâmetros de 30 bilhões e 105 bilhões; um modelo de conversão de texto em fala; um modelo de fala para texto; e um modelo de visão para analisar documentos. Isso marca uma atualização acentuada do modelo Sarvam 1 de 2 bilhões de parâmetros da empresa, lançado em outubro de 2024.

Os modelos de 30 bilhões e 105 bilhões de parâmetros usam uma arquitetura mista de especialistas, que ativa apenas uma fração de seus parâmetros totais por vez, reduzindo significativamente os custos de computação, disse Sarvam. O modelo 30B suporta uma janela de contexto de 32.000 tokens destinada ao uso conversacional em tempo real, enquanto o modelo maior oferece uma janela de 128.000 tokens para tarefas de raciocínio mais complexas e em várias etapas.

O modelo 30B da Sarvam é colocado contra o Gemma 27B do Google e o GPT-OSS-20B da OpenAI, entre outros modelos Créditos da imagem:Sarvam

Sarvam disse que os novos modelos de IA foram treinados do zero, em vez de ajustados nos sistemas de código aberto existentes. O modelo 30B foi pré-treinado em cerca de 16 trilhões de tokens de texto, enquanto o modelo 105B foi treinado em trilhões de tokens abrangendo vários idiomas indianos, disse.

Os modelos são projetados para oferecer suporte a aplicativos em tempo real, disse a startup, incluindo assistentes baseados em voz e sistemas de chat em idiomas indianos.

O 105B da Sarvam é apontado para competir contra o GPT-OSS-120B da OpenAI e o Qwen-3-Next-80B do AlibabaCréditos da imagem:Sarvam

A startup disse que os modelos foram treinados usando recursos de computação fornecidos pela missão IndiaAI apoiada pelo governo da Índia, com suporte de infraestrutura da operadora de data center Yotta e suporte técnico da Nvidia.

Evento Techcrunch

Boston, MA
|
23 de junho de 2026

Os executivos da Sarvam disseram que a empresa planeja adotar uma abordagem ponderada para dimensionar seus modelos, concentrando-se em aplicações do mundo real, em vez de no tamanho bruto.

“Queremos estar atentos à forma como fazemos o dimensionamento”, disse o cofundador da Sarvam, Pratyush Kumar, no lançamento. “Não queremos fazer o dimensionamento sem pensar. Queremos compreender as tarefas que realmente importam em escala e ir e construir para elas.”

Sarvam disse que planeja abrir o código-fonte dos modelos 30B e 105B, embora não tenha especificado se os dados de treinamento ou o código de treinamento completo também seriam tornados públicos.

A empresa também delineou planos para construir sistemas especializados de IA, incluindo modelos focados em codificação e ferramentas empresariais em um produto chamado Sarvam for Work, e uma plataforma de agente de IA conversacional chamada Samvaad.

Fundada em 2023, a Sarvam arrecadou mais de US$ 50 milhões em financiamento e conta Lightspeed Venture Partners, Khosla Ventures e Peak XV Partners (anteriormente Sequoia Capital India) entre seus investidores.

Publicar comentário

ISSO PODE LHE INTERESSAR