Hoe u de crawlers van OpenAI kunt blokkeren om uw website te schrapen

Hoe u de crawlers van OpenAI kunt blokkeren om uw website te schrapen
Lezers zoals jij steunen MUO. Wanneer u een aankoop doet via links op onze site, kunnen we een aangesloten commissie verdienen. Lees verder.

Hoewel gebruikers dol zijn op ChatGPT vanwege de enorme hoeveelheid informatie die het momenteel bevat, kan hetzelfde niet worden gezegd over website-eigenaren.





MUO-video van de dag SCROLL OM DOOR TE GAAN MET INHOUD

OpenAI's ChatGPT gebruikt crawlers om websites te schrapen, maar als u een website-eigenaar bent en u wilt niet dat de OpenAI-crawler toegang krijgt tot uw website, zijn hier een paar dingen die u kunt doen om dit te voorkomen.





Hoe werkt OpenAI-crawlen?

A webcrawler (ook wel spider of zoekmachinebot genoemd) is een geautomatiseerd programma dat het internet afspeurt naar informatie. Vervolgens verzamelt het die informatie op een manier waarop uw zoekmachine er gemakkelijk toegang toe heeft.





Webcrawlers indexeren elke pagina van elke relevante URL, meestal gericht op websites die relevanter zijn voor uw zoekopdrachten. Laten we bijvoorbeeld aannemen dat u een bepaalde Windows-fout googelt. De webcrawler in uw zoekmachine scant alle URL's van websites die volgens hem gezaghebbender zijn op het gebied van Windows-fouten.

De webcrawler van OpenAI heet GPTBot, en volgens OpenAI-documentatie , door GPTBot toegang te geven tot uw website, kan het AI-model worden getraind om veiliger en nauwkeuriger te worden, en het kan zelfs helpen de mogelijkheden van het AI-model uit te breiden.



Hoe u kunt voorkomen dat OpenAI uw website crawlt

Net als de meeste andere webcrawlers kan GPTBot de toegang tot uw website worden geblokkeerd door de website aan te passen robots.txt protocol (ook bekend als het robots-uitsluitingsprotocol). Dit .txt-bestand wordt gehost op de server van de website en bepaalt hoe webcrawlers en andere geautomatiseerde programma's zich op uw website gedragen.

Hier is een korte lijst van wat de robot.txt bestand kan doen:





hoe anoniem te zijn op Facebook
  • Het kan GPTBot volledig de toegang tot de website blokkeren.
  • Het kan alleen bepaalde pagina's van een URL blokkeren voor toegang door GPTBot.
  • Het kan GPTBot vertellen welke links het kan volgen en welke niet.

U kunt als volgt bepalen wat GPTBot op uw website kan doen:

Blokkeer GPTBot volledig van toegang tot uw website

  1. Stel het bestand robot.txt in en bewerk het vervolgens met een willekeurige tekstbewerkingstool.
  2. Voeg de GPTBot toe aan uw site robots.txt als volgt:
 User-agent: GPTBot 
Disallow: /

Blokkeer alleen bepaalde pagina's tegen toegang door GPTBot

  1. Stel de robot.txt bestand en bewerk het vervolgens met uw favoriete tekstbewerkingsprogramma.
  2. Voeg de GPTBot toe aan uw site robots.txt als volgt:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

Houd er echter rekening mee dat het wijzigen van de robot.txt bestand is geen oplossing met terugwerkende kracht en alle informatie die GPTBot mogelijk al van uw website heeft verzameld, kan niet worden hersteld.





Met OpenAI kunnen website-eigenaren zich afmelden voor crawlen

Sinds crawlers worden gebruikt om AI-modellen te trainen, zoeken website-eigenaren naar manieren om hun gegevens privé te houden.

Sommigen vrezen dat AI-modellen in feite hun werk stelen, en schrijven zelfs minder websitebezoeken toe aan het feit dat gebruikers nu hun informatie krijgen zonder ooit hun websites te hoeven bezoeken.

Al met al, of u AI-chatbots volledig wilt blokkeren voor het scannen van uw websites, is geheel uw keuze.