Política de retrocesso antrópico que poderia ter ‘sabotado’ pesquisadores de IA usando Claude
Antrópico está retrocedendo em uma política que teria secretamente limitado os concorrentes de usar seu novo modelo de IA, Claude Fábula 5para desenvolver outros modelos de IA. A empresa mudou de rumo depois que a mudança recebeu uma reação significativa do Comunidade de pesquisa em IA.
“Estamos mudando as salvaguardas do Fable 5 para o desenvolvimento de LLM de fronteira para torná-las visíveis”, disse a Anthropic em comunicado à WIRED. “Fizemos a troca errada e pedimos desculpas por não acertar o equilíbrio.”
A Anthropic lançou Claude Fable 5, uma versão de seu mais recente modelo de IA com grades de segurança adicionais projetadas para evitar uso indevido, no início desta semana. Algumas das salvaguardas que a Anthropic decidiu não surpreenderam: a empresa disse que redirecionaria os usuários que fizessem perguntas sobre segurança cibernética, biologia ou química para um modelo de IA menos capaz para reduzir as chances de alguém usar a IA avançada para realizar um ataque cibernético ou construir uma arma biológica.
Mas para os pesquisadores que tentam usar Claude Fable 5 para o desenvolvimento de IA de ponta, a Anthropic descreveu uma abordagem diferente. A empresa degradaria deliberadamente o desempenho do modelo de maneiras invisíveis para o usuário. A medida sabotaria efetivamente os pesquisadores que tentam usar Claude para treinar modelos de IA concorrentes, que a Anthropic proíbe explicitamente em seu termos de serviço.
A Anthropic agora diz que está mudando de rumo e que as salvaguardas de Claude Fable 5 para o desenvolvimento de IA serão visíveis para os usuários. Se a empresa suspeitar que um usuário está tentando usar Claude para construir uma IA altamente capaz, ela irá alertá-los de que está recusando a solicitação ou redirecionando o usuário para um modelo menos capaz.
A Anthropic reverteu a política depois de receber forte reação da comunidade de pesquisa de IA. A Antrópica já tomou medidas para limitar os concorrentes de usar Claude para construir modelos de IA de código aberto e fechado, mas os críticos dizem que degradar silenciosamente o desempenho do modelo para certos usuários foi longe demais. O agente de codificação de Claude tornou-se uma ferramenta favorita entre os desenvolvedores, incluindo aqueles que trabalham em projetos de pesquisa de IA de código aberto, e os pesquisadores dizem à WIRED que a política mais recente da empresa poderia ter levado a um futuro preocupante, no qual apenas um punhado de laboratórios líderes de IA poderiam realizar pesquisas avançadas de IA.
Dean Ball, pesquisador sênior da Fundação para a Inovação Americana e ex-conselheiro da Casa Branca em IA, escreveu em um publicar no X que “degradar o desempenho na pesquisa de ML *sem avisar o usuário* é chocantemente hostil e tem uma aparência terrível”. Ele continuou em outro publicar que a política de “sabotagem secreta” mina a posição geral da Anthropic, porque limita a colaboração dos investigadores de IA na segurança da IA.
“Parecia que a Anthropic estava dizendo ao público: ‘Não confiamos em mais ninguém para fazer pesquisas em IA. Somos os únicos que precisam fazer pesquisas em IA”, diz Will Brown, líder de pesquisa na startup de IA de código aberto Prime Intellect. “Parece que eles estão começando a puxar a escada atrás deles.”
Brown disse que a política também teria deixado os desenvolvedores no escuro sobre se estavam violando as regras da Anthropic, já que a empresa não os alertaria quando suas salvaguardas fossem acionadas. Ele acrescentou que as restrições poderiam ter tido consequências generalizadas. Por exemplo, ele apontou para o crescente ecossistema de empresas de avaliação terceirizadas que testam modelos de fronteira em termos de segurança, desempenho e confiabilidade – trabalho que poderia ter sido prejudicado se a Anthropic degradasse secretamente seu modelo.



Publicar comentário