Защитите свой сайт от веб-воровства

Сетевой блог

Веб-скрейпинг (также известный как веб-аналитика) — это процесс извлечения данных, доступных в Интернете, с помощью автоматизированных запросов, генерируемых специальным программным обеспечением. Краулеры просматривают информацию с целью индексирования или ранжирования сайтов, в то время как скрап копирует данные в другое место.

Защитите свой сайт от веб-воровства

В процессе веб-скреппинга злоумышленники пытаются извлечь данные из ресурсов. Это означает анализ адресов электронной почты сайта или всего сайта. Идеальным способом извлечения этих данных является периодическая отправка HTTP-запросов на сервер, передающий веб-страницы в программу. Затем злоумышленник анализирует полученный HTML-код и извлекает нужные данные. Этот процесс повторяется для сотен или тысяч веб-страниц, содержащих нужные данные.

Технически, процесс анализа данных с веб-сайта не является незаконным. Это происходит потому, что злоумышленник просто извлекает информацию, доступную через браузер.

Поэтому, как веб-мастер, вы должны быть во всеоружии, чтобы предотвратить кражу данных. Неконтролируемая репликация из-за огромного количества запросов может сделать серверы и размещенные ресурсы невосприимчивыми.

Анализ страниц сайта может привести к потере конкурентных преимуществ и доходов. В худшем случае копирование может привести к тому, что контент будет растиражирован в других местах, а первоисточник потеряет доверие. С технической точки зрения, повторное воспроизведение может привести к чрезмерной нагрузке на сервер, замедлению работы и увеличению расходов.

Давайте рассмотрим некоторые способы борьбы с потенциальными злоумышленниками. Однако следует отметить, что все показанное может быть скопировано, и абсолютной защиты не существует.

Содержание
  1. Как запретить парсинг сайта с юридической точки зрения
  2. Предотвращение атак влекущих за собой отказ в обслуживании (DoS)
  3. Использование токенов подделки межсайтовых запросов (CSRF)
  4. Использование .htaccess для предотвращения копирования
  5. Предотвращение парсинга картинок с сайта
  6. Черный или белый список конкретных IP-адресов
  7. Запросы для регулирования нагрузки
  8. Создайте «приманки»
  9. Часто изменять структуру DOM
  10. Предоставление API
  11. Донести на злоумышленника поисковым системам и интернет-провайдерам
  12. Так как же бороться с парсингом сайта
ЧИТАТЬ ЕЩЁ:  Microsoft NET Framework - что это такое и как установить его на Windows

Как запретить парсинг сайта с юридической точки зрения

Самый простой способ противостоять анализу — законодательно запретить его. Например, в Условиях использования сайта Medium есть следующая строка

Ползание роботов по сервису разрешено, но скраппинг запрещен, если выполняется в соответствии с инструкциями в файле robots.txt.

Вы даже можете подать в суд на потенциальных скреперов, если условия использования запрещают это. Например, как в случае с LinkedIn.

Предотвращение атак влекущих за собой отказ в обслуживании (DoS)

Скраппинг может нарушить работу сервера. Поэтому такой ситуации следует избегать.

Обнаружив IP-адрес атакующего и отфильтровав его в брандмауэре, можно заблокировать запрос атакующего. Однако поставщики облачных услуг предлагают доступ к инструментам для предотвращения потенциальных атак. Например, если вы используете Amazon Web Services, AWS Shield поможет защитить ваши серверы от возможных атак.

Использование токенов подделки межсайтовых запросов (CSRF)

Используя CSRF-токены в своем приложении, вы можете предотвратить произвольные запросы к размещенным URL-адресам. CSRF-токены могут существовать как переменные сессии или скрытые поля формы.

Чтобы обойти CSRF-токены, их необходимо загрузить, разобрать и извлечь. Этот процесс требует навыков программирования и использования специализированных инструментов.

Использование .htaccess для предотвращения копирования

.htaccess — это файл конфигурации веб-сервера Apache, который может быть настроен для предотвращения доступа скреперов к данным. Первым шагом является определение синтаксического анализатора. Это можно сделать через Google Webmasters или Feedburner. После их выявления можно использовать ряд методов защиты.

По умолчанию файлы .htaccess не включены в Apache. Они также приведены для данного примера в соответствии с Nginx и IIS. Для получения дополнительной информации о преобразованиях правил recast см. документацию NGINX.

Предотвращение парсинга картинок с сайта

Когда анализируется контент на другом сайте, ссылки на изображения и другие файлы копируются непосредственно на сайт злоумышленника. Это создает прямую связь с сайтом. Такая процедура отображения ресурсов, размещенных на сервере другого сайта, называется соединением "горячая ссылка".

ЧИТАТЬ ЕЩЁ:  8 основных показателей KPI, которые нужно отслеживать на сайте

Когда ссылка выключена, изображения, отображаемые на другом сайте, не предоставляются сервером. Это предотвращает использование ресурсов сервера при копировании содержимого.

В nginx связывание можно предотвратить, используя инструкцию location в соответствующем конфигурационном файле (nginx.conf). В IIS URL необходимо переписать и отредактировать файл конфигурации web.config.

Черный или белый список конкретных IP-адресов

IP-адреса, используемые для скраппинга, могут быть заблокированы с помощью .htaccess. Вы также можете разрешить выборочные запросы от определенных IPS в белом списке.

Для nginx модуль ngx_http_access_module можно использовать для разрешения или запрета приложений с IP-адреса. Аналогично, IIS может ограничить доступ к IP-адресам путем добавления ролей в администрирование сервера.

Запросы для регулирования нагрузки

В качестве альтернативы, количество приложений может быть ограничено с IP-адреса. Это может оказаться неэффективным, если злоумышленник имеет доступ к нескольким IP-адресам. Captcha может использоваться для необычных запросов с IP-адресов.

Вы также можете исключить доступ к известным IP-адресам из услуг облачного хостинга или анализа сайта, чтобы злоумышленники не могли использовать их для скраппинга.

Создайте «приманки»

Приманка" — это ссылка на поддельный контент, который невидим для обычного пользователя, но присутствует в HTML, создаваемом программой при анализе сайта. Перенаправляя скреперы на такие приманки, они могут обнаружить их и будут вынуждены тратить ресурсы на страницы, не содержащие никаких данных.

Часто изменять структуру DOM

Большинство скреперов анализируют HTML-код, полученный сервером. Структура HTML может часто изменяться, затрудняя доступ к интересующим данным. В результате при анализе таких сложных веб-сайтов злоумышленникам приходится многократно оценивать структуру сайта, чтобы восстановить интересующие их данные.

Предоставление API

При соблюдении определенных правил разрешается выборочное извлечение данных с сайта. Одним из способов реализации является создание API-интерфейсов на основе подписок для мониторинга и доступа к данным. Их использование также можно контролировать и ограничивать через API-интерфейсы.

ЧИТАТЬ ЕЩЁ:  Как быстро удалить вокал из песни

Донести на злоумышленника поисковым системам и интернет-провайдерам

Если ничего не помогает, можно обновить поисковую систему скрепера, чтобы исключить скопированный контент из выдачи. Провайдеру скрепера также будет предложено заблокировать запрос.

Так как же бороться с парсингом сайта

Защита от анализа сайта может быть преодолена кем-то другим. Основная идея, однако, заключается в том, чтобы быть внимательным и отслеживать трафик.

Оцените статью