Há alguns meses, eu bloquei o Chat GPT de utilizar o conteúdo do meu site de viagens, o 360meridianos. Tomei essa decisão depois de ter passado por uma situação curiosa: eu estava fazendo uma pesquisa para um post sobre o festival Universo Paralello, usando a inteligência artificial como uma de minhas ferramentas.
Em uma de suas respostas, ele me devolveu uma informação super específica, que somente alguém que realmente esteve lá teria como saber. Uma informação que eu sabia de primeira mão depois de ter ido ao festival em 2022.
“Isso está estranho”, pensei.
Como estava usando a versão pro do Chat GPT, com acesso ao Bing habilitado, a fonte daquela informação foi incluída quase como uma citação acadêmica: com um link bem discreto em um número pequenininho no fim da frase assim [1].
Cliquei lá para investigar, e minha suspeita se confirmou: aquela informação tinha sido retirada de um artigo que eu mesma havia escrito como guest post para o Festivalando.
Contei essa história para uma amiga e ela me disse que algo parecido havia acontecido com ela, mas que, nesse caso, não havia nem link para a fonte, e ela teve que ir atrás de um texto que ela sabia já ter lido em algum lugar.
E aí me veio a dúvida: Se experiência e expertise são duas das qualidades mais valorizadas pelos mecanismos de busca hoje em dia, por que eu vou entregar a minha de graça para uma empresa bilionária?
Leia também: 5 tendências para a produção de conteúdo em 2024
Casos em que o Chat GPT foi bloqueado em sites e portais
A decisão de impedir o acesso da ferramenta aos textos que escrevo – e que são, no fim das contas, meu trabalho intelectual e ganha-pão – foi respaldada quando vi que grandes empresas de jornalismo, com o The New York Times, The Guardian e CNN haviam tomado a mesma decisão.
Essas empresas reconhecem a importância de proteger seus conteúdos sob as leis de direito autoral, que garantem aos criadores o direito exclusivo de usar, reproduzir e distribuir suas obras.
Esse movimento das grandes empresas de mídia mostra os desafios na proteção do direito autoral na era digital e lança luz na discussão que, acredito eu, vai pautar o ano de 2024: a necessidade de estabelecer limites claros sobre como as ferramentas de IA interagem com conteúdos protegidos.
No final do ano passado, o New York Times processou a OpenAI por uso indevido de seu conteúdo.
Ponderações sobre os limites de uso do Chat GPT
A minha decisão, no entanto, não é uma decisão definitiva. Estou acompanhando de perto como será o desenvolvimento da tecnologia, as legislações que começam a surgir e como outras empresas de conteúdo estão se comportando.
Se em algum momento eu passar a ver alguma vantagem real em ter meu conteúdo utilizado pelas ferramentas de AI, a coisa muda de figura.
Mas a verdade é que ainda não há contrapartida alguma para quem faz, de fato, todo o trabalho cognitivo por trás dos textos e outros materiais dos quais a AI se alimenta para regurgitar respostas parafraseadas para outras pessoas.
Algumas pessoas me questionaram se as visitas geradas não seriam essa contrapartida. Bom, até o momento, não identifiquei nenhum fluxo de tráfico relevante em qualquer dos meus sites. Tampouco vi colegas dizendo receber muitas visitas vindas do GPT. Grande parte das vezes, ele sequer cita a fonte e, quando cita, poucas foram as vezes que eu mesma cliquei ali.
Portanto, até o momento, a resposta é não. O Chat GPT não gera visitas o suficiente para mim para que eu considere uma troca justa.
“Ahh, mas você usa o Chat GPT e não deixa ele usar seu conteúdo?”
Sim. Como profissional da internet, não posso me dar ao luxo de ficar de fora das inovações e mudanças.
Porém, como uma microempreendedora minúscula num mar cheio de big techs que muitas vezes operam de forma desleal e abusiva, sei para onde a corda sempre arrebenta. Por isso, também me reservo o direito de colocar sempre meus interesses em primeiro lugar.
Como as AIs aprendem a partir do seu conteúdo
Antes de explicar como você pode bloquear o Chat GPT de utilizar seu conteúdo, vamos descomplicar um pouquinho e entender como eles o utilizam, pra começo de conversa:
- Coleta de Dados: Tudo começa com a coleta de dados. As AIs, como o Chat GPT, navegam pela internet coletando textos, desde artigos científicos até posts de blog e comentários em fóruns. Essa etapa é crucial, pois quanto mais diversificado o conteúdo, mais a AI pode aprender sobre diferentes tópicos, estilos de escrita e perspectivas.
- Processamento e Limpeza dos Dados: Depois de coletar os dados, a AI precisa limpar e organizar essa informação. Isso envolve remover dados irrelevantes ou duplicados, corrigir erros e até mesmo formatar tudo de maneira que faça sentido para sua “mente” computacional.
- Treinamento: Com os dados preparados, começa o treinamento. A AI é exposta a esses dados repetidamente, num processo que podemos comparar a aprender uma nova língua por imersão. Utilizando técnicas de aprendizado de máquina, especialmente as redes neurais profundas, a AI começa a identificar padrões, como a estrutura da linguagem, o contexto em que as palavras são usadas, e até nuances culturais e emocionais.
- Afinamento e Feedback: Mesmo depois de “aprender” com os dados, a AI continua a ser refinada. Ela recebe feedback, seja através de interações diretas com os usuários (que podem corrigi-la ou fornecer novas informações) ou por meio de atualizações feitas por seus desenvolvedores.
- Aplicação: Finalmente, a AI está pronta para aplicar seu conhecimento, ajudando a responder perguntas, escrever textos e até mesmo criar arte. Cada interação é uma oportunidade de aprender ainda mais, tornando-a um ciclo contínuo de crescimento e aprendizado.
Como impedir o Chat GPT e Gemini (Bard) de acessar o seu conteúdo
O processo é bem simples, mas se você não tem nem noções básicas de programação, pode precisar da ajuda de quem é responsável pela parte técnica do seu site.
Tudo que você precisa fazer é criar um um arquivo de texto simples com o título robots.txt
e colocá-lo na raiz do seu site. Isso é como dizer: “Ei, bots! Aqui estão as regras da casa”.
Cada bot tem um nome, conhecido como User-agent
. Para o ChatGPT, vamos chamá-lo de GPTBot
, e para o Google Bard, de Google-Extended
.
Quando você escreve:
User-agent: GPTBot Disallow: /
Você está dizendo: “GPTBot, esta é uma área restrita. Mantenha distância de tudo (/ significa tudo aqui)!.
E ao adicionar:
User-agent: Google-Extended Disallow: /
Você está estendendo a mesma cortesia ao Gemini (Google Bard). “Google-Extended, por favor, siga o mesmo caminho que o GPTBot. Nada de fuçar por aqui”.
É importante lembrar que esse método conta com a boa fé dos bots. A maioria, especialmente os criados por grandes empresas como Google, respeita essas regras. Mas sempre há aqueles mais desonestos ou que não estão nem aí para os seus limites. Por isso, é bom saber que o robots.txt
é mais uma sugestão do que uma barreira intransponível.
O Google-Extended
, especificamente, é um crawler desenhado pelo Google para aprimorar o modelo de inteligência artificial generativa por trás do Gemini e das APIs do Vertex AI. Ao bloqueá-lo, você impede que esse crawler cole dados do seu site para treinar essas tecnologias.
Isso é um pouco como escolher não contribuir para a evolução da inteligência artificial do Google, mantendo seu conteúdo exclusivo para humanos.
Implementar o robots.txt
é uma maneira eficaz de controlar o acesso ao seu site, garantindo que seu conteúdo seja consumido da maneira que você deseja. É um lembrete de que, na era digital, ainda temos poder sobre como nosso conteúdo é compartilhado e utilizado.
Eu te ajudo a cair na estrada também!Nos links abaixo há alguns serviços que eu utilizo e que me ajudam muito em minhas viagens. |