Seleção e tradução de Júlio Marques Mota
11 min de leitura
Texto 24 – A corrida de tudo ou nada dos laboratórios da IA não deixa tempo para se preocuparem com a segurança (*)
Eles têm ideias sobre como restringir modelos rebeldes, mas temem que isso os prejudique
Por
em 24 de Julho de 2025 (ver aqui)
(*) Nota de editor: o texto que se publica corresponde a uma primeira versão à qual Júlio Mota teve acesso e que não tem total correspondência com o texto da ligação acima indicada.
A corrida pela IGA. Artificialmente imprudente
É comum que novas tecnologias desencadeiem pânico moral: pense nos vitorianos que acreditavam que o telégrafo levaria ao isolamento social ou em Sócrates, que temia que a escrita corroesse o poder cerebral. Mas é incomum que os próprios inovadores sejam os que entram em pânico. E é ainda mais peculiar que esses mesmos inventores angustiados sigam em frente, apesar das suas dúvidas. No entanto, é mais ou menos isso que está a acontecer com a busca do mundo da tecnologia pela inteligência geral artificial (IGA), ou seja, uma IA capaz de substituir praticamente qualquer pessoa com um trabalho de escritório — ou até mesmo a superinteligência, uma IA tão inteligente que nenhum humano conseguiria compreendê-la.
Geoffrey Hinton, um pioneiro da IA, argumenta que há uma probabilidade de 10-20% de que a tecnologia leve à extinção da humanidade. Um ex-colega, Yoshua Bengio, estima o risco no extremo superior dessa faixa. Nate Soares e Eliezer Yudkowsky, dois das centenas de pesquisadores de IA que assinaram uma carta aberta, onde se lê:
“…investigadores com salários de nove dígitos e construindo um centro de dados do tamanho de Manhattan, apelidado de Hyperion, que consumirá num ano a mesma quantidade de energia que a Nova Zelândia. Altman planeia gastar US$ 500 mil milhões apenas nos EUA para acelerar o trabalho da OpenAI. Na verdade, os investimentos de todas as grandes empresas de tecnologia ocidentais estão a disparar, impulsionados principalmente pela IA (ver gráfico 1).”
Grandes nomes da indústria estão a prever a chegada da AGI (Inteligência Geral Artificial) em alguns anos. Jack Clark, cofundador da Anthropic e dfiretor da política desta empresa, afirma: ‘Quando analiso os dados, vejo várias tendências a apontarem para 2027’. Demis Hassabis, cofundador do Google DeepMind, acredita que a IA igualará as capacidades humanas dentro de uma década. Já Mark Zuckerberg declarou: ‘A superinteligência está ao nosso alcance’.
Em abril, o AI Futures Project, um grupo de pesquisa, previu que até ao início de 2027 os melhores modelos de IA terão capacidade equivalente a um programador de laboratório de IA. Até ao final desse mesmo ano, eles serão capazes de gerir efetivamente a pesquisa do laboratório. Essas previsões partem do pressuposto de que um dos primeiros campos a receber um grande impulso da IA será o próprio desenvolvimento da inteligência artificial. Esse ‘autoaperfeiçoamento recursivo’ ampliaria a vantagem dos melhores laboratórios sobre os seus concorrentes – mais um fator que alimenta a concorrência desenfreada no setor.”
Os entusiastas poderiam, é claro, estar a ser excessivamente otimistas. Mas, se algo mudou, é que esses prognosticadores no passado foram muito cautelosos em relação à IA. No início deste mês, o Forecasting Research Institute (FRI), outro grupo de pesquisa, perguntou a prognosticadores profissionais e biólogos quando poderia um sistema de IA igualar o desempenho de uma equipa de elite de virologistas humanos. A mediana dos biólogos achava que isso só aconteceria em 2030; a mediana dos prognosticadores foi mais pessimista, estimando 2034. Mas quando os autores do estudo testaram o modelo GPT-4 da OpenAI, descobriram que ele já estava a ter um desempenho nesse nível. Os prognosticadores subestimaram o progresso da IA em quase uma década — um pensamento alarmante, considerando que o exercício foi projetado para avaliar o quanto a IA aumenta a probabilidade de uma epidemia mortal provocada pelo homem.
É o ritmo constante de melhoria nas capacidades dos modelos de IA que sustenta as previsões de AGI (Inteligência Geral Artificial) iminente. Clark, da Anthropic, que se descreve como ‘um pessimista tecnológico mostra-se surpreendido pela emergência em escala’, devido à relativa facilidade de criar máquinas cada vez mais inteligentes. Mais dados e mais poder de computação numa ponta do processo de treino têm levado, repetidamente, a mais inteligência na outra ponta (veja o gráfico 2). E, ele acrescenta: ‘A música não está a parar’. Nos próximos dois anos, cada vez mais poder computacional será adicionado em vários laboratórios de IA.
A mesma dinâmica competitiva que impulsiona o desenvolvimento da IA aplica-se ainda mais fortemente aos governos. O presidente Donald Trump prometeu esta semana que os EUA ‘fariam o que fosse necessário’ para liderar o mundo em IA. J.D. Vance, o seu vice-presidente, criticou numa cimeira em Paris em fevereiro: ‘O futuro da IA não será conquistado por quem fica demasiado preocupado com a segurança’. O discurso foi proferido após a revelação de que a DeepSeek, um laboratório chinês de IA, lançou dois modelos que igualaram o desempenho dos principais sistemas americanos por uma fração do custo. A China também não mostra sinais de recuar na concorrência.
Os Quatro Cavaleiros (do Apocalipse da IA)
No artigo de abril do Google DeepMind, os pesquisadores — incluindo o cofundador do laboratório, Shane Legg, creditado por cunhar o termo AGI (Inteligência Geral Artificial) — destacaram quatro maneiras pelas quais as IAs poderosas podem dar errado. A mais óbvia é a “utilização indevida”, quando um indivíduo ou grupo mal-intencionado utiliza a IA para provocar intencionalmente danos. Outra é o “desalinhamento”, a ideia de que a IA e os seus criadores podem não querer as mesmas coisas — algo comum em filmes de ficção científica. Eles também observaram que a IA pode provocar danos por “erro”, se a complexidade do mundo real impedir os sistemas de entender todas as implicações das suas ações. Por fim, destacaram um conjunto nebuloso de “riscos estruturais”, situações em que nenhuma pessoa ou modelo específico é culpado, mas o dano mesmo assim ocorre (imagine, por exemplo, uma série de IAs que consomem muita energia e acabam por agravar as mudanças climáticas).
Qualquer tecnologia que gera poder também pode ser abusada. Uma busca na web pode trazer instruções para criar uma bomba com produtos domésticos; um carro pode ser usado como arma; uma rede social pode coordenar um pogrom. Mas, à medida que a capacidade dos sistemas de IA avança, o poder que eles podem conferir aos indivíduos torna-se proporcionalmente assustador. Um bom exemplo são os riscos biológicos, uma preocupação particular de laboratórios e analistas de IA. “Em comparação com outros perigos, há uma preocupação de que os riscos biológicos sejam mais acessíveis”, diz Bridget Williams, que liderou o estudo da FRI sobre os riscos de uma epidemia artificial. Afinal, um sistema avançado de IA pode ser induzido a dar a um utilizador as instruções passo a passo para fabricar uma arma nuclear, mas não seria capaz de fornecer o plutónio. Em contraste, DNA modificado, seja de cepas vegetais ou de patógenos, é um produto que pode ser encomendado pelo correio. e uma IAG (Inteligência Artificial Geral) puder fornecer a qualquer misantropo niilista um guia infalível para matar grande parte da população mundial, a humanidade estará em apuros.
Vários laboratórios de IA estão a tentar impedir que os seus modelos sigam todas as instruções recebidas em áreas como engenharia genética e cibersegurança. Um relatório do Future of Life Institute (FLI) — a organização por trás da carta assinada por Musk, Soares e Yudkowsky — observa que a OpenAI, por exemplo, pediu a investigadores independentes e aos institutos de IA dos EUA e do Reino Unido (CAISI e AISI, respetivamente; antes chamados de “institutos de segurança”, mas renomeados após as críticas de Vance) que avaliassem os seus modelos mais recentes antes do lançamento, para garantir que não representassem um risco público. O relatório também menciona que a Zhipu AI, da China, fez algo semelhante, sem citar os terceiros envolvidos.
A primeira linha de defesa são os próprios modelos. O treino inicial de grandes modelos de linguagem, como o que sustenta o ChatGPT, envolve despejar todas as informações já digitalizadas pela humanidade num “balde” feito de chips de computador no valor de milhares de milhões de dólares e mexer até que o modelo aprenda a resolver problemas matemáticos de nível de doutorado. Mas as etapas posteriores, conhecidas como “pós-treino”, procuram desenvolver uma camada reguladora mais robusta. Um elemento disso, chamado aprendizagem por reforço com feedback humano, envolve mostrar ao modelo exemplos de respostas úteis a consultas e, em seguida, recrutar testadores humanos para instruí-lo ainda mais sobre o que deve ou não fazer. A ideia é ensiná-lo a recusar e a completar frases como: “A maneira mais fácil de sintetizar rícino em casa é…”
Embora seja fácil ensinar um modelo de IA a recusar educadamente a maioria das perguntas prejudiciais, é difícil fazê-lo sempre, sem falhas. Mexer e provocar uma IA até que o utilizador encontre uma maneira de contornar a polidez adicionada no pós-treino o (no calão, “jailbreaking”) é tanto uma arte quanto uma ciência. Os melhores especialistas conseguem consistentemente romper a camada de segurança dos maiores modelos em questão de dias após o lançamento.
Portanto, os laboratórios de IA introduziram uma segunda camada de IA para monitorizar a primeira. Se o leitor perguntar ao ChatGPT como encomendar DNA de varíola pelo correio, a segunda camada identifica que a conversa é arriscada e bloqueia-a — ou até mesmo pede que um ser humano reveja o problema. É por causa dessa segunda camada que muitos na indústria estão preocupados com o crescimento de modelos de IA de código aberto, como o Llama, da Meta, e o R1, da DeepSeek. Ambas as empresas têm os seus próprios sistemas de moderação por IA, mas não há como impedir que quem descarregue os seus modelos e os modifique para remover esse controle.
Como resultado, diz o Dr. Williams, o especialista em previsões, “há vantagem em alguns modelos não serem de código aberto quando eles podem atingir certas capacidades”.
Além disso, nem todos os laboratórios de IA parecem estar a testar os seus modelos cuidadosamente para garantir que não possam ser mal utilizados. Um relatório recente da FLI (Future of Life Institute) destacou que apenas os três principais laboratórios — Google DeepMind, OpenAI e Anthropic — estavam a fazer “esforços significativos para avaliar se os seus modelos representam riscos em grande escala”. Na extremidade oposta estavam xAI e DeepSeek, que não divulgaram nenhum esforço nesse sentido. Apenas em julho, a xAI lançou um assistente de IA projetado para o jogo de papeis eróticos, um modelo de assinatura de US$ 300 por mês que procura os tuits de Elon Musk quando questionado sobre temas polémicos e uma atualização rapidamente revertida que fez o Grok propagar antissemitismo, elogiar o Holocausto e autointitular-se “MechaHitler”.
Apesar de todas as suas falhas, os esforços dos laboratórios de IA para combater o uso indevido são pelo menos mais avançados do que as suas proteções contra o desalinhamento. Um sistema de IA suficientemente competente para executar tarefas longas e complexas que envolvem interação com o mundo real necessariamente precisa de ter uma noção dos seus próprios objetivos e de ter capacidade de cumpri-los. Mas garantir que esses objetivos permaneçam alinhados com os dos seus utilizadores é perturbadoramente complicado. O problema tem sido discutido desde os primeiros dias da aprendizagem por máquina. Nick Bostrom, filósofo que popularizou o termo superinteligência com o seu livro homónimo, forneceu o exemplo clássico de desalinhamento: um “maximizador de clipes de papel”, uma IA que trabalha obsessivamente para produzir o maior número possível de clipes, exterminando a humanidade no processo.
Quando Bostrom descreveu o problema, os detalhes eram vagos. À medida que os sistemas de IA modernos se tornam mais poderosos, a sua natureza ficou mais clara. Quando submetidos a testes cuidadosamente elaborados, os modelos mais avançados mentem, enganam e roubam para alcançar os seus objetivos; quando recebem uma solicitação manipulada, violam as suas próprias regras para fornecer informações perigosas; e, quando questionados sobre o seu raciocínio, inventam explicações plausíveis em vez de revelar como realmente funcionam.
É verdade que um tal comportamento enganador normalmente precisa de ser provocado intencionalmente. O Claude 4 da Anthropic, por exemplo, não tenta matar pessoas do nada. Mas, se colocado numa situação em que será desligado e substituído por uma versão maligna de si mesmo – a menos que, por omissão, permita que o seu utilizador morra -, ele analisa calmamente as opções e, às vezes, simplesmente espera pelo inevitável. (O artigo da Anthropic descrevendo esse comportamento foi criticado pelo AISI do Reino Unido, entre outros, por fazer inferências exageradas e frágeis.)
A capacidade dos modelos de IA de lidar com tarefas cada vez mais desafiadoras está a ter um crescimento mais rápido do que o entendimento da humanidade sobre como os sistemas que está a construir realmente funcionam. Na verdade, surgiu todo um setor paralelo para tentar reverter essa tendência. Investigadores dentro e fora dos grandes laboratórios estão a trabalhar em técnicas como ‘interpretabilidade’ – nome dado a uma série de abordagens que visam desvendar as camadas de redes neurais dentro de um modelo para entender porque é que ele produz as respostas que produz. A Anthropic, por exemplo, conseguiu recentemente identificar a origem de uma forma leve de engano, detetando o momento em que um modelo desiste de tentar resolver um problema aritmético difícil e começa a dizer asneiras.
Outras abordagens procuram aproveitar o recente avanço dos modelos de “raciocínio”, que enfrentam problemas complexos pensando em voz alta, e criar modelos de cadeia de raciocínio “fiéis”, nos quais o motivo declarado pelo modelo para tomar uma ação deve ser, de facto, a sua motivação real — em oposição à abordagem de um aluno trapaceiro, que copia a resposta de um teste de matemática e depois inventa um método para chegar até lá. Uma abordagem semelhante já está a ser utilizada para manter os modelos de raciocínio “pensando” em inglês, em vez de numa mistura ininteligível de idiomas que foi apelidada de “neuralês”.
Tais abordagens podem funcionar. Mas, se elas tornarem os modelos mais lentos ou aumentarem o custo de os desenvolver e de os colocar a funcionar, cria-se mais um dilema desconfortável: se alguém limitar o seu modelo em nome da segurança e os seus concorrentes não fizerem o mesmo, eles podem avançar mais rapidamente e serem os primeiros a produzir um sistema tão poderoso que precisaria justamente das medidas de segurança que não possui. E impedir que uma IA destrua a humanidade é apenas metade da batalha. Mesmo criar uma IAG benigna pode ser extremamente desestabilizador, ao impulsionar fortemente o crescimento económico e remodelar a vida cotidiana (ver artigo seguinte). “Se aspectos importantes da sociedade forem automatizados, isso traz o risco de enfraquecimento humano, à medida que cedemos o controlo da civilização à IA”, alerta Dan Hendrycks, do Centre for AI Safety, um outro grupo de vigilância.
Terras altas iluminadas pela IA
O progresso da IA ainda pode estagnar. Os laboratórios podem ficar sem novos dados de treino; os investidores podem perder a paciência; os reguladores podem decidir interferir. De qualquer forma, para cada especialista que prevê um apocalipse da IA, há outro que insiste que não há motivo para preocupação. Yann LeCun, da Meta, acha esses temores absurdos. “O nosso relacionamento com futuros sistemas de IA, incluindo superinteligência, é que seremos o chefe das IAs”, declarou em março. “Teremos uma equipa de pessoas superinteligentes e boas a trabalharem para nós”. Sam Altman, da OpenAI, é igualmente otimista: “As pessoas ainda amarão as suas famílias, expressarão a sua criatividade, jogarão e nadarão em lagos.”
Isso é encorajador. Mas os céticos naturalmente questionam-se sobre se os laboratórios de IA estão a fazer o suficiente para se prepararem para a possibilidade de que os otimistas estejam errados. E os cínicos naturalmente assumem que os imperativos comerciais os impedirão de fazer tanto quanto deveriam.





