Carregando agora

Alibaba revela Qwen 3, uma família de modelos de raciocínio ‘híbrido’ AI

Abstract image of big data wave and information vertical line dots on a dark background.

Companhia de tecnologia chinesa Alibaba na segunda -feira lançado Qwen 3, uma família de IA modela que a empresa reivindica as correspondências e, em alguns casos, supera os melhores modelos disponíveis no Google e Openai.

A maioria dos modelos está – ou em breve estará – disponível para download em uma licença “aberta” da plataforma AI Dev Abraçando o rosto e Github. Eles variam em tamanho de 0,6 bilhão de parâmetros a 235 bilhões de parâmetros. Os parâmetros correspondem aproximadamente às habilidades de solução de problemas de um modelo, e os modelos com mais parâmetros geralmente têm um desempenho melhor do que aqueles com menos parâmetros.

A ascensão das séries de modelos originadas pela China, como Qwen, aumentou a pressão sobre os laboratórios americanos, como o OpenAI, para fornecer tecnologias de IA mais capazes. Eles também levaram os formuladores de políticas a implementar restrições destinadas a limitar a capacidade das empresas de IA chinesas de obter os chips necessários para treinar modelos.

De acordo com o Alibaba, os modelos QWEN 3 são modelos “híbridos”, no sentido de que eles podem levar tempo e “raciocínio” por meio de problemas complexos ou responder a solicitações mais simples rapidamente. O raciocínio permite que os modelos se chiquem efetivamente, semelhantes a modelos como o Open O3, mas com o custo de maior latência.

“Temos modos de pensamento e sem pensamento integrados perfeitamente, oferecendo aos usuários a flexibilidade para controlar o orçamento de pensamento”, escreveu a equipe QWEN em uma postagem no blog.

Os modelos QWEN 3 suportam 119 idiomas, diz Alibaba, e foram treinados em um conjunto de dados de quase 36 trilhões de tokens. Os tokens são os bits brutos de dados que o modelo processa; 1 milhão de tokens é equivalente a cerca de 750.000 palavras. Alibaba diz que Qwen 3 foi treinado em uma combinação de livros didáticos, “pares de perguntas e respostas”, trechos de código e muito mais.

Essas melhorias, juntamente com outras, aumentaram bastante o desempenho de Qwen 3 em comparação com seu antecessor, Qwen 2, diz Alibaba. Na Codeforces, uma plataforma para concursos de programação, o maior modelo QWEN 3-QWEN-3-235B-A22B-venceu o O3-mini do Openai. QWEN-3-235B-A22B também supera o O3-Mini na versão mais recente do AIME, um desafio de referência matemática e BFCL, um teste para avaliar a capacidade de um modelo de “razão” sobre os problemas.

Mas QWEN-3-235B-A22B não está disponível ao público-pelo menos ainda não.

O maior modelo público de QWEN 3, QWEN3-32B, ainda é competitivo com vários modelos proprietários e abertos de IA, incluindo o R1 da AI Lab Chinese Deepseek. O QWEN3-32B supera o modelo O1 do OpenAI em vários testes, incluindo um benchmark de precisão chamado LiveBench.

Alibaba diz que o QWEN 3 “se destaca” nos recursos de chamada de ferramentas, além de seguir as instruções e copiar formatos de dados específicos. Além de liberar modelos para download, o QWEN 3 está disponível em provedores de nuvem, incluindo fogos de artifício e hiperbólicos.

Publicar comentário

ISSO PODE LHE INTERESSAR