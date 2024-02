A plataforma de mídia social Reddit finalizou um contrato histórico de licenciamento de conteúdo com o Google. O acordo vale cerca de US$ 60 milhões por ano e irá fornecer à gigante das buscas e da publicidade dados do Reddit para treinar modelos de inteligência artificial (IA).

Segundo fontes, este é o primeiro grande acordo do Reddit para disponibilizar seu vasto conteúdo gerado por usuários a um desenvolvedor de IA.

A princípio, o Reddit está se preparando para uma oferta pública inicial (IPO), que revelaria suas finanças. Portanto, o épico acordo demonstra a busca da empresa por diversificar receitas por meio de licenciamento de dados.

Busca por novas fontes de receita antes do IPO

O acordo ocorre no momento em que a empresa está prestes a tornar público o aguardado documento de sua IPO, podendo acontecer já nesta semana. Ou seja, a divulgação ofereceria aos investidores uma visão sem precedentes do balanço do Reddit, uma empresa de 16 anos que busca abrir seu capital.

Afinal, o Reddit, avaliado em US$ 10 bilhões em 2021, pretende vender cerca de 10% de suas ações na oferta pública. Sendo assim, a IPO marcaria a primeira grande plataforma de mídia social a entrar nos mercados desde a estreia do Pinterest em 2019.

Para o Reddit, a iminente listagem em bolsa encerra anos de antecipação e pressões sobre a empresa para demonstrar um modelo de negócios viável para Wall Street.

A empresa intensificou iniciativas para diversificar receitas, incluindo sua recente decisão de cobrar de empresas pelo acesso à API para dados. Vale ressaltar que gigantes da tecnologia, como o Google, enfrentaram críticas por coletar dados de sites sem permissão para obter dados de treinamento para IA, levantando preocupações com direitos autorais.

Este acordo oferece ao Google um enorme conjunto de dados de conversação abrangendo virtualmente todos os tópicos imagináveis para aprimorar seus modelos de IA.

Conteúdo do usuário sobre avanço em IA e recente retaliação contra gigantes da tecnologia

Recentemente, a OpenAI e sua apoiadora Microsoft enfrentaram um processo alegando a incorporação não autorizada de livros de não ficção no conjunto de dados para o ChatGPT, seu chatbot extremamente popular.

Os autores Nicholas Basbanes e Nicholas Gage lideraram a ação proposta, alegando violações de direitos autorais.

Essa polêmica espelha casos semelhantes movidos por criadores contra desenvolvedores de IA, incluindo um recente processo abrangente que visava as práticas de coleta de dados do Google. Protocolado pelo escritório de advocacia Clarkson, a reclamação afirmava que o Google coletou dados dos usuários sem consentimento para aprimorar serviços de IA, como o assistente de redação Bard.

Isso dependia da política de privacidade atualizada do Google, mencionando expressamente a mineração de informações publicamente disponíveis para avançar em sua IA. Apesar do Google afirmar que não se trata de uma prática nova, apenas estendida para novas ofertas. O processo destacou a crescente inquietação em torno da exploração de dados pessoais.

Ele também ressaltou a necessidade de transparência na obtenção de dados de treinamento. Ao licenciar o conteúdo do Reddit, o Google obtém acesso a um tesouro em constante atualização de conversas humanas do mundo real em comunidades especializadas que abrangem esportes, saúde, ciência, alimentos, parentalidade e mais.

Avanço da IA em linguagem natural

Essa interação em tempo real, moderada pelos próprios usuários, tem um valor imenso para o avanço da IA em linguagem natural. Desde sua fundação em 2005 por Steve Huffman e Alexis Ohanian, o Reddit construiu uma base de usuários engajada que influencia o rumo de conversas grandes e pequenas. As discussões frequentemente variam de descontraídas a profundamente pessoais.

Esse registro digital em constante evolução oferece aos pesquisadores de IA um poço sem fundo de dados linguísticos. Que refletem como as pessoas se comunicam, argumentam, explicam e informam umas às outras.

Portanto, o acesso ao discurso diário compartilhado por mais de 50 milhões de usuários ativos do site vai impulsionar avanços na IA de linguagem.