Компания OpenAi рассказала, как ограничить доступ ChatGPT к контенту веб-сайта для предотвращения нежелательного использования в обучении.
Комментарий от OpenAI: "Веб-страницы, просматриваемые с помощью пользовательского агента GPTBot, потенциально могут использоваться для улучшения будущих моделей и фильтруются для удаления источников, требующих платного доступа, которые, как известно, собирают личную информацию (PII) или содержат текст, нарушающий наши политики. Разрешение GPTBot доступа к вашему сайту может помочь моделям искусственного интеллекта стать более точными и улучшить их общие возможности и безопасность."
Существует несколько способов сделать это. Во-первых, можно добавить запрет в файл robots.txt:
User-agent: ChatGPT
Disallow: /
Это запретит индексирование всего сайта.
Также можно заблокировать доступ на уровне веб-сервера для определенного юзер-агента ChatGPT.
Кроме того, в robots.txt можно разрешить доступ ChatGPT только к отдельным разделам, запретив остальные:
User-agent: ChatGPT Allow: /allowed/
Disallow: /disallowed/
И наконец, можно заблокировать конкретный диапазон IP-адресов, используемых для ChatGPT:
- 20.15.240.64/28
- 20.15.240.80/28
- 20.15.240.96/28
- 20.15.240.176/28
- 20.15.241.0/28
- 20.15.242.128/28
- 20.15.242.144/28
- 20.15.242.192/28
- 40.83.2.64/28
Такие ограничения помогут предотвратить нежелательное использование контента сайта для обучения ChatGPT без согласия владельцев.