Carregando agora

A busca pela computação de IA revelou o próximo Cerebras?

A busca pela computação de IA revelou o próximo Cerebras?

A enorme procura de computadores para executar modelos de IA apenas acelerou, mas existem dois grandes obstáculos que qualquer pessoa no negócio precisa de ultrapassar: obter os chips certos e colocá-los em centros de dados onde possam começar a gerar receitas.

General Compute, uma nova neonuvem de inferência — uma empresa que aluga poder de processamento de IA, especializada na fase em que os modelos estão em execução e respondem aos usuários, em vez de serem treinados — tem respostas para as perguntas que iluminam o rumo que o ecossistema de IA está tomando. Essas respostas ajudaram a levantar uma rodada inicial de US$ 15 milhões com uma avaliação pós-dinheiro de US$ 60 milhões, liderada pela FUSE VC com a participação da Carya Venture Partners e Village Global Ventures.

Primeiro, qual é o chip certo? A demanda por GPUs disparou, mas está se tornando senso comum que eles não são os chips mais adequados para executar modelos de IA depois de treinados. A fase da IA ​​em que um modelo gera respostas ativamente tem requisitos computacionais diferentes dos de treinamento, e uma nova classe de chips está sendo projetada especificamente para ela. A transação Groq de US$ 20 bilhões da Nvidia em dezembro e o IPO de US$ 57 bilhões da Cerebras na semana passada apontam o caminho.

Com a capacidade limitada em ambas as empresas, os cofundadores da General Compute, o CEO Finn Puklowski e o CTO Jason Goodison, encontraram outra opção. Eles estão recorrendo a chips especializados construídos pela SambaNova, uma fabricante de chips apoiada pela Intel focada em inferência que saiu um pouco das conversas do Vale do Silício.

Isso pode mudar quando a SambaNova lançar seus novos chips este ano. A arquitetura é mais flexível e usa mais memória para armazenar contexto durante cálculos de inferência, e SambaNova afirma que supera não apenas GPUs, mas também outros chips especializados construídos por empresas como Groq ou Cerebras. Puklowski diz que os novos chips irão gerar de 600 a 700 tokens por segundo, contra cerca de 250 tokens por segundo para GPUs.

A General Compute tem US$ 300 milhões em chips SN50 da empresa encomendados e diz que será a primeira neocloud a implantá-los.

Estes chips também ajudam a resolver o segundo grande problema – onde colocá-los – para a Computação Geral: são refrigerados a ar, não a água, e consomem menos energia, pelo que podem ser instalados em instalações de centros de dados existentes sem novos investimentos em infra-estruturas.

Puklowski está buscando acordos de colocation – acordos em que a General Compute instala seu hardware nas instalações de outra pessoa – não apenas com provedores de data center, mas também com mineradores de criptografia que buscam redirecionar sua infraestrutura, já que o custo de produção de um bitcoin muitas vezes excedeu seu preço.

A General Compute lançou sua oferta de nuvem na semana passada, alegando que já é a mais rápida na execução do MiniMax 2.7, um poderoso LLM de código aberto.

Joe Hasselmann é um investidor de risco que entrou no início do boom de inferência quando investiu na Groq em 2021. Este ano, ele lançou um novo fundo, Evercrest Capital Partners, focado no espaço de IA, e fez da General Compute seu primeiro investimento. Hassleman vê na parceria da SambaNova com a General Compute paralelos com o relacionamento da Coreweave com a Nvidia – e com o emparelhamento da fabricação de chips da Groq com sua antiga oferta de nuvem.

“Eles precisam de um mix saudável de clientes que coloquem seus chips em ambientes que terão alto crescimento para eles”, disse Hassleman. “Por mais que a General Compute esteja apostando no SambaNova, a SambaNova está apostando na General Compute.”

A questão é que tipo de arquitetura de computador irá capturar mais valor no futuro da IA. As nuvens de inferência são apostas implícitas num mundo de múltiplos modelos e agentes, onde nenhum fornecedor único domina e a velocidade e o custo da inferência tornam-se as principais variáveis ​​competitivas. Considere o US$ 113 milhões Série B levantado para o OpenRouter esta semana, refletindo a capacidade da empresa de oferecer aos clientes acesso a vários modelos, a fim de otimizar seus gastos com tokens.

A velocidade é importante nesse cálculo, tanto no preço quanto na capacidade. Puklowski quer transformar cargas de trabalho de uma hora para agentes de codificação em tarefas de cinco ou dez minutos e tornar mais econômicos os agentes de áudio para atendimento ao cliente, que exigem inferência mais rápida para conversar de maneira eficaz.

“Se você usa o ChatGPT e ele fornece 50 tokens por segundo, ainda é muito mais rápido do que podemos ler”, disse Puklowski ao TechCrunch: “Agora que as coisas mudaram para agente para agente, onde os agentes estão lá fora, lendo em nosso nome ou executando ping nos bancos de dados, eles precisam ir mais rápido.”

Quando você compra por meio de links em nossos artigos, podemos ganhar uma pequena comissão. Isso não afeta nossa independência editorial.

Publicar comentário

ISSO PODE LHE INTERESSAR