A OpenAI, a empresa por trás do ChatGPT, lançou recentemente seu próprio rastreador da web chamado GPTBot. Seu objetivo é coletar informações de sites. No entanto, a empresa também divulgou as especificações do rastreador para que os proprietários e editores de sites possam bloquear o bot de coletar seu conteúdo.

Dessa forma, em um documento técnico divulgado pela OpenAI, a empresa descreveu como identificar o rastreador usando seu token e string de agente de usuário. Além disso, o documento também explica como bloquear o rastreador adicionando uma entrada ao arquivo robots.txt do servidor.

O que faz o GPTBot e como bloqueá-lo?

Assim como qualquer outro rastreador da web, o GPTBot percorre sites, examina as páginas da web e coleta informações. No entanto, é o propósito das informações coletadas que diferencia o GPTBot dos rastreadores de indexação de mecanismos de busca. Os dados reunidos serão usados para treinar os modelos de IA da empresa.

Isso faz parte dos esforços da OpenAI para desenvolver a próxima geração de modelos de IA, que supostamente incluem o GPT-5.

“Permitir o acesso do GPTBot ao seu site pode ajudar os modelos de IA a se tornarem mais precisos e a melhorar suas capacidades gerais e segurança.” Open-AI

Além disso, ele acrescenta que as páginas da web rastreadas usando o bot podem ser filtradas para remover fontes. Isso inclui fontes que possuam texto em desacordo com as políticas da OpenAI, bem como aquelas que coletam informações de identificação pessoal ou exigem acesso através de um sistema de pagamento.

No entanto, a maioria dos proprietários e editores de sites não gostaria de permitir que a gigante de aprendizado de máquina colete seu conteúdo e o use para seus modelos de IA. Por isso, o documento publicado pela OpenAI detalha como bloquear o GPTBot, e o processo é bastante simples.

Para impedir que o rastreador da web acesse um site, tudo o que você precisa fazer é adicionar o seu token ao arquivo robots.txt do site e usar o comando “Disallow: /”.

Além disso, é possível bloquear o bot de acessar determinadas páginas de um site, mas permitir o acesso ao restante. Para isso, os proprietários do site teriam que usar os comandos “Allow: /diretório-1/” e “Disallow: /diretório-2/” e, em seguida, personalizar conforme necessário.

A Crescente Preocupação com Empresas de IA Coletando Informações da Internet

O rastreador da web é a mais recente confirmação da OpenAI de que ela treina seus modelos de IA com base em informações públicas da internet. Isso coincide com os crescentes esforços de diferentes organizações para restringir o acesso automatizado a informações via web.

Isso porque as empresas como a OpenAI geram milhões de dólares em receita ao treinar seus modelos com todo tipo de informação coletada da internet. Dessa forma, os proprietários de negócios online se sentem frustrados uma vez que não recebem uma parte dos lucros obtidos pelas empresas de IA que fazem uso de seu conteúdo. Por isso, eles estão tomando uma posição ao limitar o acesso.

Recentemente, o Twitter processou quatro entidades não identificadas para impedir que dados do site fossem coletados e usados para treinar modelos de IA.

Atualizações nos Termos de Uso

O Reddit também fez alterações em seus termos de API, permitindo que a empresa efetivamente monetize o conteúdo criado por seus usuários gratuitamente.

Além disso, não faz muito tempo, Sarah Silverman também processou a OpenAI. A autora acusou a empresa de treinar o ChatGPT utilizando suas obras, protegidas por direitos autorais, sem seu consentimento. Outras empresas como Microsoft, Google e sua divisão de pesquisa em IA, a DeepMind, também enfrentaram processos semelhantes.

De acordo com Israel Krush, CEO e co-fundador da Hyro, o fato de que os editores precisam optar manualmente por não permitir que seus sites sejam rastreados pelo GPTBot levanta uma grande preocupação. A Hyro é a empresa por trás de um assistente de IA usado na indústria de saúde.

Ele acrescentou que, embora sua própria empresa colete dados da internet, faz isso apenas com permissão explícita e garante o tratamento adequado das informações pessoais.

Além disso, empresas como a Adobe também sugeriram marcar informações como “não para treinamento de IA” por meio de meios legais. Ainda não está claro se haverá algum debate jurídico para evitar que o GPTBot rastreie sites automaticamente.