Comment empêcher les robots d'exploration d'OpenAI de gratter votre site Web

Des lecteurs comme vous aident à soutenir MUO. Lorsque vous effectuez un achat en utilisant des liens sur notre site, nous pouvons gagner une commission d'affiliation. En savoir plus.

Alors que les utilisateurs aiment ChatGPT pour la quantité d'informations qu'il contient actuellement, on ne peut pas en dire autant des propriétaires de sites Web.

quel genre de téléphone êtes-vous

MUO Vidéo du jour FAITES DÉFILER POUR CONTINUER AVEC LE CONTENU

Le ChatGPT d'OpenAI utilise des robots d'exploration pour gratter les sites Web, mais si vous êtes propriétaire d'un site Web et que vous ne souhaitez pas que le robot d'exploration d'OpenAI accède à votre site Web, voici quelques mesures que vous pouvez prendre pour l'empêcher.

Comment fonctionne l'exploration OpenAI ?

UN robot d'exploration (également connu sous le nom d'araignée ou de robot de moteur de recherche) est un programme automatisé qui analyse Internet à la recherche d'informations. Il compile ensuite ces informations d'une manière qui permet à votre moteur de recherche d'y accéder facilement.

Les robots d'indexation indexent chaque page de chaque URL pertinente, en se concentrant généralement sur les sites Web les plus pertinents pour vos requêtes de recherche. Par exemple, supposons que vous recherchiez une erreur Windows particulière sur Google. Le robot d'exploration Web de votre moteur de recherche analysera toutes les URL des sites Web qu'il juge plus fiables sur le sujet des erreurs Windows.

Le robot d'exploration Web d'OpenAI s'appelle GPTBot, et selon Documentation d'OpenAI , donner à GPTBot l'accès à votre site Web peut aider à former le modèle d'IA pour qu'il devienne plus sûr et plus précis, et cela peut même aider à étendre les capacités du modèle d'IA.

Comment empêcher OpenAI d'explorer votre site Web

Comme la plupart des autres robots d'exploration Web, GPTBot peut être empêché d'accéder à votre site Web en modifiant le robots.txt protocole (également connu sous le nom de protocole d'exclusion des robots). Ce fichier .txt est hébergé sur le serveur du site Web et contrôle le comportement des robots d'exploration Web et d'autres programmes automatisés sur votre site Web.

Voici une courte liste de ce que robot.txt fichier peut faire :

Il peut empêcher complètement GPTBot d'accéder au site Web.
Il peut bloquer uniquement l'accès à certaines pages d'une URL par GPTBot.
Il peut indiquer à GPTBot les liens qu'il peut suivre et ceux qu'il ne peut pas suivre.

Voici comment contrôler ce que GPTBot peut faire sur votre site Web :

Empêchez complètement GPTBot d'accéder à votre site Web

Configurer le fichier robot.txt , puis modifiez-le avec n'importe quel outil d'édition de texte.
Ajoutez le GPTBot à votre site robots.txt comme suit:

 User-agent: GPTBot 
Disallow: /

Bloquer uniquement l'accès à certaines pages par GPTBot

Configurez le robot.txt fichier, puis modifiez-le avec votre outil d'édition de texte préféré.
Ajoutez le GPTBot à votre site robots.txt comme suit:

 User-agent: GPTBot 
Allow: /directory-1/ 
Disallow: /directory-2/

Cependant, gardez à l'esprit que le changement de robot.txt n'est pas une solution rétroactive, et toute information que GPTBot peut avoir déjà recueillie sur votre site Web ne sera pas récupérable.

OpenAI permet aux propriétaires de sites Web de se retirer de l'exploration

Depuis que les robots d'exploration sont utilisés pour former des modèles d'IA, les propriétaires de sites Web recherchent des moyens de garder leurs données privées.

Certains craignent que les modèles d'IA volent essentiellement leur travail, attribuant même moins de visites de sites Web au fait que désormais les utilisateurs obtiennent leurs informations sans jamais avoir à visiter leurs sites Web.

Dans l'ensemble, si vous souhaitez empêcher complètement les chatbots IA d'analyser vos sites Web, c'est entièrement votre choix.