Как да блокирате ChatGPT и да предотвратите обхождането на Вашите проекти. Защо си струва да сторите това?

Как да блокирате ChatGPT, за да предотвратите използването на Вашето съдържание от системи за AI

ChatGPT получава достъп до съдържанието на уебсайта, за да се учи от него. Ето как да блокирате съдържанието си да не стане данни за обучение на AI.

Има загриженост относно липсата на лесен начин да се откажете от използването на нечие съдържание за обучение на големи езикови модели (LLM) като ChatGPT. Има начин да го направите, но не е нито лесен, нито гарантирано, че работи.

Как AI се учат от вашето съдържание?

Големите езикови модели (LLM) се обучават на данни, които произхождат от множество източници. Много от тези набори от данни са с отворен код и се използват свободно за обучение на AI.

Като цяло Големите езикови модели използват голямо разнообразие от източници за обучение.

Примери за видовете използвани източници:

  • Уикипедия
  • Правителствени съдебни регистри
  • Книги
  • Имейли
  • Обходени уебсайтове

Всъщност има портали и уебсайтове, предлагащи набори от данни, които споделят огромно количество информация.

Един от порталите се хоства от Amazon, предлагайки хиляди набори от данни в Регистъра на отворените данни на AWS.

Набори от данни, използвани за обучение на ChatGPT
ChatGPT е базиран на GPT-3.5, известен също като InstructGPT.

Наборите от данни, използвани за обучение на GPT-3.5, са същите, използвани за GPT-3. Основната разлика между двете е, че GPT-3.5 използва техника, известна като подсилващо обучение от човешка обратна връзка (RLHF).

СВЪРЗАНИ ТЕМИ:  Оптимизиране на сайт

Петте набора от данни, използвани за обучение на GPT-3 (и GPT-3.5), са описани на страница 9 от изследователската статия, Езиковите модели са малко учещи (PDF)

Наборите от данни са:

  • Обикновено обхождане (филтрирано)
  • WebText2
  • Книги1
  • Книги2
  • Уикипедия

От петте набора от данни, двата, които се основават на обхождане на интернет, са:

  • Обикновено обхождане
  • WebText2

Относно набора от данни WebText2

WebText2 е частен набор от данни на OpenAI, създаден чрез обхождане на връзки от Reddit, които са имали три гласа за.

Идеята е тези URL адреси да са надеждни и да съдържат качествено съдържание.

WebText2 е разширена версия на оригиналния набор от данни WebText, разработен от OpenAI.

Оригиналният набор от данни на WebText имаше около 15 милиарда токена. WebText беше използван за обучение на GPT-2.

 

WebText2 е малко по-голям с 19 милиарда токена. WebText2 е това, което беше използвано за обучение на GPT-3 и GPT-3.5

OpenWebText2

WebText2 (създаден от OpenAI) не е публично достъпен.

Има обаче публично достъпна версия с отворен код, наречена OpenWebText2. OpenWebText2 е публичен набор от данни, създаден с помощта на същите модели на обхождане, които вероятно предлагат подобен, ако не и същия набор от URL адреси като OpenAI WebText2.

Споменавамe това само в случай, че някой иска да знае какво има в WebText2. Човек може да изтегли OpenWebText2, за да добие представа за съдържащите се в него URL адреси.

Обикновено обхождане  Common Crawl

Един от най-често използваните набори от данни, състоящи се от интернет съдържание, е наборът от данни Common Crawl, който е създаден от организация с нестопанска цел, наречена Common Crawl.

СВЪРЗАНИ ТЕМИ:  Създаване на корпоративен сайт

Данните от Common Crawl идват от бот, който обхожда целия интернет.

Данните се изтеглят от организации, които желаят да ги използват, след което се почистват от спам сайтове и др.

Името на бота Common Crawl е CCBot.

 

CCBot се подчинява на протокола robots.txt, така че е възможно да блокирате Common Crawl с Robots.txt и да предотвратите превръщането на данните от уебсайта ви в друг набор от данни.

Въпреки това, ако вашият сайт вече е бил обходен, вероятно вече е включен в множество набори от данни.

Независимо от това, чрез блокиране на Common Crawl е възможно да откажете съдържанието на вашия уебсайт да бъде включено в нови набори от данни, произхождащи от по-нови набори от данни на Common Crawl.

Важно уточнение! процесът по изолиране на системи за искуствен интелект и пропъждането им от Вашето съдържание не е „нито лесен, нито гарантирано, че работи“, но трябва да се опита.

Как да блокирате ChatBot от Вашият сайт?

Низът на потребителския агент на CCBot е:

CCBot/2.0
Добавете следното към вашия файл robots.txt, за да блокирате бота Common Crawl:

User-agent: CCBot
Disallow: /

Допълнителен начин да потвърдите дали даден потребителски агент на CCBot е легитимен е той да обхожда от IP адресите на Amazon AWS.

CCBot също се подчинява на директивите за мета тагове на роботите nofollow.

Използвайте това във вашия мета маркер robots:

<meta name=“CCBot“ content=“nofollow“>

 

Съображение, преди да блокирате ботове
Много набори от данни, включително Common Crawl, могат да се използват от компании, които филтрират и категоризират URL адреси, за да създадат списъци с уебсайтове, към които да се насочва реклама.

СВЪРЗАНИ ТЕМИ:  Защо имате нужда от специализирани хостинг услуги, за да подобрите бизнеса си?

Например, компания на име Alpha Quantum предлага набор от данни от URL адреси, категоризирани с помощта на таксономията на Interactive Advertising Bureau. Наборът от данни е полезен за AdTech маркетинг и контекстна реклама. Изключването от такава база данни може да накара издателя да загуби потенциални рекламодатели.

Блокиране на AI да използва вашето съдържание
Търсачките позволяват на уебсайтовете да се откажат от обхождане. Common Crawl също позволява отказ. Но в момента няма начин да премахнете съдържанието на уебсайта си от съществуващите набори от данни.

Освен това изследователите изглежда не предлагат на издателите на уебсайтове начин да се откажат от обхождане.

 

По-интересното е да споменем ЗАЩО СЕ НАЛАГА ДА БЛОКИРАМЕ ЧАТ БОТ?

  1. Ако имате уникално, добро съдържание, то чрез изкуствен интелект това съдържание ще бъде репродуцирано на масовата аудотория по начин, по който Вие няба да бъдете възнаградени. Това е сериозен проблем, поне според нас!
  2. Постоянно нарушаване на авторски права. Когато даден Ваш проект е разрешен от ChatBOT, то тогава това означава, че той може, обхождайки, да вземе съдържанието и да го предостави на трети страни, без да Ви пита, дали сте съгласни, или не? Без да ВИ предложи възнаграждение за положения труд.
  3. Системите за изкуствен интелект ,които обхождат сайтовете Ви натоварват сървърите, следователно е вероятно да бъдете изгоднени от хостинг компаниите, ако поплзвате споделен хостинг, или биха Ви предложили VPS, или нает сървър. Ако ограничите ботовете, процесорното време ще намалее.

Всъщост, като се замислим, дали има ползи да разрешим Chatbot системи да обхождат съдържанието ни – вероятно отгвоворът ни е „НЕ“, а Вие какво мислите?

Публикацията е актуализирана на 2023/05/27 9:40:00 AM – дигитална агенция Висео

Post Author: admin

CEO at VISEO LTD - СЕО агенция, оперираща с клиенти в България още от времето, когато Google не съществуваше

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *