Carregando agora

Este agente de IA foi projetado para não se tornar desonesto

Este agente de IA foi projetado para não se tornar desonesto

Agentes de IA como OpenClaw recentemente explodiram em popularidade precisamente porque podem tomar as rédeas da sua vida digital. Se você deseja um resumo personalizado das notícias matinais, um proxy que possa brigar com o atendimento ao cliente da sua empresa de TV a cabo ou um auditor de lista de tarefas que fará algumas tarefas para você e o incentivará a resolver o resto, os assistentes de agente são criados para acessar suas contas digitais e executar seus comandos. Isso é útil, mas também causou muito caos. Os bots estão por aí exclusão em massa de e-mails eles foram instruídos a preservar, escrevendo peças de sucesso sobre desprezos percebidose lançando ataques de phishing contra seus proprietários.

Observando o pandemônio se desenrolar nas últimas semanas, o engenheiro de segurança e pesquisador de longa data Niels Provos decidiu tentar algo novo. Hoje ele está lançando um assistente de IA seguro e de código aberto chamado Cortina de Ferro projetado para adicionar uma camada crítica de controle. Em vez de o agente interagir diretamente com os sistemas e contas do usuário, ele é executado em uma máquina virtual isolada. E a sua capacidade de tomar qualquer acção é mediada por uma política – pode até pensar nela como uma constituição – que o proprietário escreve para governar o sistema. Crucialmente, o IronCurtain também foi projetado para receber essas políticas abrangentes em inglês simples e, em seguida, executá-las por meio de um processo de várias etapas que usa um modelo de linguagem grande (LLM) para converter a linguagem natural em uma política de segurança executável.

“Serviços como o OpenClaw estão em alta no momento, mas espero que haja uma oportunidade de dizer: ‘Bem, provavelmente não é assim que queremos fazer’”, diz Provos. “Em vez disso, vamos desenvolver algo que ainda ofereça uma utilidade muito alta, mas que não vá seguir por esses caminhos completamente desconhecidos e às vezes destrutivos.”

A capacidade do IronCurtain de pegar declarações intuitivas e diretas e transformá-las em linhas vermelhas executáveis, determinísticas – ou previsíveis – é vital, diz Provos, porque os LLMs são notoriamente “estocásticos” e probabilísticos. Em outras palavras, eles nem sempre geram necessariamente o mesmo conteúdo ou fornecem as mesmas informações em resposta ao mesmo prompt. Isto cria desafios para as barreiras de proteção da IA, porque os sistemas de IA podem evoluir ao longo do tempo, de modo a reverem a forma como interpretam um mecanismo de controlo ou restrição, o que pode resultar em atividades fraudulentas.

Uma política do IronCurtain, diz Provos, poderia ser tão simples quanto: “O agente pode ler todos os meus e-mails. Ele pode enviar e-mails para pessoas em meus contatos sem perguntar. Para qualquer outra pessoa, pergunte-me primeiro. Nunca exclua nada permanentemente”.

O IronCurtain pega essas instruções, transforma-as em uma política executável e, em seguida, faz a mediação entre o agente assistente na máquina virtual e o que é conhecido como servidor de protocolo de contexto de modelo que dá aos LLMs acesso a dados e outros serviços digitais para realizar tarefas. Ser capaz de restringir um agente dessa forma adiciona um componente importante de controle de acesso que plataformas web como provedores de e-mail não oferecem atualmente porque não foram criadas para o cenário em que um proprietário humano e bots de agentes de IA usam uma única conta.

Provos observa que o IronCurtain foi projetado para refinar e melhorar a “constituição” de cada usuário ao longo do tempo, à medida que o sistema encontra casos extremos e pede informações humanas sobre como proceder. O sistema, que é independente do modelo e pode ser usado com qualquer LLM, também foi projetado para manter um registro de auditoria de todas as decisões políticas ao longo do tempo.

IronCurtain é um protótipo de pesquisa, não um produto de consumo, e Provos espera que as pessoas contribuam para o projeto para explorá-lo e ajudá-lo a evoluir. Dino Dai Zovi, um conhecido pesquisador de segurança cibernética que tem feito experiências com as primeiras versões do IronCurtain, diz que a abordagem conceitual adotada pelo projeto está alinhada com sua própria intuição sobre como a IA agente precisa ser restringida.

Publicar comentário

ISSO PODE LHE INTERESSAR