Nvidia se torna um importante fabricante de modelos com o Nemotron 3
A Nvidia fez uma fortuna fornecendo chips para empresas que trabalham em inteligência artificialmas hoje o fabricante de chips deu um passo para se tornar um fabricante de modelos mais sério ao lançar uma série de modelos abertos de última geração, juntamente com dados e ferramentas para ajudar os engenheiros a usá-los.
A mudança, que ocorre em um momento em que empresas de IA como OpenAI, Google e Anthropic estão desenvolvendo seus próprios chips cada vez mais capazes, pode ser uma proteção contra essas empresas que se afastam da tecnologia da Nvidia ao longo do tempo.
Os modelos abertos já são uma parte crucial do ecossistema de IA, com muitos investigadores e startups a utilizá-los para experimentar, prototipar e construir. Embora a OpenAI e o Google ofereçam pequenos modelos abertos, eles não os atualizam com tanta frequência quanto seus rivais na China. Por esta e outras razões, os modelos abertos de empresas chinesas são atualmente muito mais populares, de acordo com dados do Hugging Faceuma plataforma de hospedagem para projetos de código aberto.
Os novos modelos Nemotron 3 da Nvidia estão entre os melhores que podem ser baixados, modificados e executados em seu próprio hardware, de acordo com pontuações de benchmark compartilhadas pela empresa antes do lançamento.
“A inovação aberta é a base do progresso da IA”, disse o CEO Jensen Huang em comunicado antes da notícia. “Com o Nemotron, estamos transformando a IA avançada em uma plataforma aberta que oferece aos desenvolvedores a transparência e a eficiência necessárias para construir sistemas de agência em escala.”
A Nvidia está adotando uma abordagem mais transparente do que muitos de seus rivais nos EUA, ao divulgar os dados usados para treinar o Nemotron – um fato que deve ajudar os engenheiros a modificar os modelos com mais facilidade. A empresa também está lançando ferramentas para ajudar na customização e no ajuste fino. Isso inclui uma nova arquitetura de modelo híbrido latente de mistura de especialistas, que a Nvidia diz ser especialmente boa para construir agentes de IA que podem realizar ações em computadores ou na web. A empresa também está lançando bibliotecas que permitem aos usuários treinar agentes para fazer coisas usando aprendizagem por reforçoque envolve dar recompensas e punições simuladas aos modelos.
Os modelos Nemotron 3 vêm em três tamanhos: Nano, que possui 30 bilhões de parâmetros; Super, que tem 100 bilhões; e Ultra, que tem 500 bilhões. Os parâmetros de um modelo correspondem vagamente à sua capacidade e ao quão difícil é sua execução. Os modelos maiores são tão pesados que precisam funcionar em racks de hardware caro.
Fundações Modelo
Kari Ann Briski, vice-presidente de software generativo de IA para empresas da Nvidia, disse que os modelos abertos são importantes para os construtores de IA por três razões: Os construtores precisam cada vez mais personalizar modelos para tarefas específicas; muitas vezes ajuda transferir as consultas para modelos diferentes; e é mais fácil extrair respostas mais inteligentes desses modelos após o treinamento, fazendo-os realizar uma espécie de raciocínio simulado. “Acreditamos que o código aberto é a base para a inovação em IA, continuando a acelerar a economia global”, disse Briski.
A gigante da mídia social Meta lançou os primeiros modelos abertos avançados sob o nome Lhama em fevereiro de 2023. No entanto, à medida que a concorrência se intensificou, a Meta sinalizou que os seus lançamentos futuros poderão não ser de código aberto.
A mudança faz parte de uma tendência maior na indústria de IA. Ao longo do último ano, as empresas norte-americanas afastaram-se da abertura, tornando-se mais reservadas em relação às suas investigações e mais relutantes em avisar os seus rivais sobre os seus mais recentes truques de engenharia.



Publicar comentário