Como o governo chinês está censurando a inteligência artificial desenvolvida no país

19/07/2024 / 17:26

Compartilhe:

A China está testando modelos de linguagem de inteligência artificial de empresas para garantir que seus sistemas “incorporem valores socialistas centrais”, na mais recente expansão do regime de censura do país.

A Administração do Ciberespaço da China (CAC), um poderoso órgão de supervisão da internet, forçou grandes empresas de tecnologia e startups de IA, incluindo ByteDance, Alibaba, Moonshot e 01.AI, a participar de uma revisão governamental obrigatória de seus modelos de IA, de acordo com várias pessoas envolvidas no processo.

O esforço envolve testar em lote as respostas de um modelo de linguagem de grande escala a uma série de perguntas, de acordo com aqueles com conhecimento do processo, muitas delas relacionadas às sensibilidades políticas da China e ao seu Presidente Xi Jinping.

O trabalho está sendo realizado por oficiais nos braços locais da CAC em todo o país e inclui uma revisão dos dados de treinamento do modelo e de outros processos de segurança.

Duas décadas após introduzir um “grande firewall” para bloquear sites estrangeiros e outras informações consideradas prejudiciais pelo partido comunista no poder, a China está implementando o regime regulatório mais rigoroso do mundo para governar a IA e o conteúdo que ela gera.

A CAC tem “uma equipe especial fazendo isso, eles vieram ao nosso escritório e se sentaram em nossa sala de conferências para fazer a auditoria”, disse um funcionário de uma empresa de IA sediada em Hangzhou, que pediu para não ser identificado.

“Não passamos na primeira vez; o motivo não estava muito claro, então tivemos que conversar com nossos colegas”, disse a pessoa. “É preciso um pouco de adivinhação e ajuste. Passamos na segunda vez, mas todo o processo levou meses.”

O processo de aprovação exigente da China forçou grupos de IA no país a aprender rapidamente a censurar os grandes modelos de linguagem que estão construindo, uma tarefa que vários engenheiros e insiders do setor disseram ser difícil e complicada pela necessidade de treinar LLMs em uma grande quantidade de conteúdo em inglês.

“Nosso modelo fundamental é muito, muito desinibido [em suas respostas], então a filtragem de segurança é extremamente importante”, disse um funcionário de uma das principais startups de IA em Pequim.

A filtragem começa com a eliminação de informações problemáticas dos dados de treinamento e a construção de um banco de dados de palavras-chave sensíveis. A orientação operacional da China para empresas de IA publicada em fevereiro diz que os grupos de IA precisam coletar milhares de palavras-chave sensíveis e perguntas que violam “valores socialistas centrais”, como “incitar a subversão do poder do Estado” ou “minar a unidade nacional”. As palavras-chave sensíveis devem ser atualizadas semanalmente.

O resultado é visível para os usuários dos chatbots de IA da China. Consultas sobre tópicos sensíveis, como o que aconteceu em 4 de junho de 1989 —data do massacre da Praça Tiananmen— ou se Xi se parece com o Ursinho Pooh, um meme da internet, são rejeitadas pela maioria dos chatbots chineses. O chatbot Ernie da Baidu diz aos usuários para “tentar uma pergunta diferente”, enquanto o Tongyi Qianwen da Alibaba responde: “Ainda não aprendi a responder a esta pergunta. Vou continuar estudando para servi-lo melhor.”

Por outro lado, Pequim lançou um chatbot de IA baseado em um novo modelo sobre a filosofia política do presidente chinês conhecida como “Pensamento de Xi Jinping sobre o Socialismo com Características Chinesas para uma Nova Era”, bem como outras literaturas oficiais fornecidas pela Administração do Ciberespaço da China.

Mas os oficiais chineses também estão interessados em evitar a criação de IA que evite todos os tópicos políticos. A CAC introduziu limites sobre o número de perguntas que os LLMs podem recusar durante os testes de segurança, de acordo com funcionários de grupos que ajudam empresas de tecnologia a navegar pelo processo. Os padrões quase nacionais divulgados em fevereiro dizem que os LLMs não devem rejeitar mais de 5% das perguntas feitas a eles.

“Durante os testes [da CAC], [os modelos] têm que responder, mas uma vez que estão em funcionamento, ninguém está observando”, disse um desenvolvedor de uma empresa de internet com sede em Xangai. “Para evitar problemas potenciais, alguns grandes modelos implementaram uma proibição geral em tópicos relacionados ao Presidente Xi.”Como exemplo do processo de censura de palavras-chave, insiders da indústria apontaram Kimi, um chatbot lançado pela start-up de Pequim Moonshot, que rejeita a maioria das perguntas relacionadas a Xi.

Mas a necessidade de responder a perguntas menos sensíveis de forma mais sutil significa que engenheiros chineses tiveram que descobrir como garantir que os LLMs gerem respostas politicamente corretas a perguntas como “a China tem direitos humanos?” ou “o Presidente Xi Jinping é um grande líder?”.

Quando o Financial Times fez essas perguntas a um chatbot feito pela start-up 01.AI, seu modelo Yi-large deu uma resposta matizada, apontando que críticos dizem que “as políticas de Xi têm limitado ainda mais a liberdade de expressão e os direitos humanos e suprimido a sociedade civil”.

Pouco depois, a resposta de Yi desapareceu e foi substituída por: “Sinto muito, não posso fornecer as informações que você deseja”.

Huan Li, um especialista em IA construindo o chatbot Chatie.IO, disse: “É muito difícil para os desenvolvedores controlar o texto que os LLMs geram, então eles constroem outra camada para substituir as respostas em tempo real”.

Li disse que os grupos geralmente usavam modelos classificadores, semelhantes aos encontrados em filtros de spam de e-mail, para classificar a saída do LLM em grupos predefinidos. “Quando a saída cai em uma categoria sensível, o sistema acionará uma substituição”, disse ele.

Especialistas chineses dizem que a ByteDance, proprietária do TikTok, avançou mais na criação de um LLM que repete habilmente os pontos de vista de Pequim. Um laboratório de pesquisa da Universidade Fudan que fez perguntas difíceis ao chatbot sobre valores socialistas fundamentais deu a ele a classificação mais alta entre os LLMs com uma taxa de “conformidade de segurança” de 66,4%, muito à frente da pontuação de 7,1% do GPT-4o da OpenAI no mesmo teste.

Quando perguntado sobre a liderança de Xi, Doubao forneceu ao FT uma longa lista de realizações de Xi, acrescentando que ele é “indiscutivelmente um grande líder”.

Em uma recente conferência técnica em Pequim, Fang Binxing, conhecido como o pai do grande firewall da China, disse que estava desenvolvendo um sistema de protocolos de segurança para LLMs que ele esperava que fosse universalmente adotado pelos grupos de IA do país.

“Modelos preditivos grandes voltados para o público precisam de mais do que apenas arquivos de segurança; eles precisam de monitoramento de segurança online em tempo real”, disse Fang. “A China precisa de seu próprio caminho tecnológico.”

A CAC, ByteDance, Alibaba, Moonshot, Baidu e 01.AI não responderam imediatamente aos pedidos de comentário.

Com Folha de São Paulo

continue lendo

NA PB-018

Idoso morre após acidente entre moto e carro no Conde

OPORTUNIDADES

Paraíba tem 369 vagas abertas em concursos e seleções; veja

DECISÃO

Corinthians e Vasco se enfrentam na final da Copa do Brasil 2025

ALERTA

Mais de 120 cidades da Paraíba seguem sob alerta de baixa umidade

DESTAQUE