Поиск по сайту:

Что такое парсинг данных и чем он опасен?


Очистка данных — это еще один способ извлечения данных с вашего веб-сайта, портала или платформы. Удивительно, но легальность очистки данных — это серая зона. Вот как от него защититься.

Что такое парсинг данных и веб-скрейпинг?

Очистка данных и очистка веб-страниц — это два разных автоматизированных метода, которые достигают одной и той же цели. Они собирают данные из систем, принадлежащих третьим лицам. Они извлекают данные, сопоставляют их и сохраняют таким образом, чтобы облегчить их повторное использование. Обычно это означает помещение его в базу данных или в переносимый формат, такой как CSV.

В Скрапинге данных используются API-интерфейсы, предоставляемые платформой, которая анализируется, даже несмотря на то, что условия использования API почти наверняка запрещают сбор данных массово.

Очистка веб-страниц работает, отправляя запросы на веб-страницы точно так же, как это делает веб-браузер. Но вместо отображения веб-страницы программное обеспечение извлекает интересующие его данные, сохраняет их и запрашивает другую страницу. Положения и условия большинства веб-сайтов и, конечно же, всех платформ социальных сетей запрещают сбор данных и веб-скрапинг. Несмотря на это, количество пользователей, связанных с платформами социальных сетей, делает их привлекательными для парсеров.

Парсинг может быть выполнен киберпреступниками, которые хотят собрать учетные данные для входа, платежные реквизиты или личную информацию. Его также можно использовать по законным причинам, таким как сбор новостей, мониторинг ваших торговых посредников, чтобы убедиться, что они не нарушают соглашения о ценообразовании, или для анализа рынка. Он также используется для сбора бизнес-аналитики, поиска потенциальных клиентов и поддержки маркетинга и рекламы.

Большие числа — парсинг и киберпреступность

В 2020 году количество личных записей, извлеченных с YouTube, составило 4 миллиона. Показатель TikTok был более чем в десять раз выше — 42 миллиона. В том же году из Instagram был удален 191 миллион личных записей. Все эти платформы запрещают парсинг данных.

В апреле 2021 года LinkedIn попала в заголовки газет, когда в даркнете была выставлена на продажу база данных 500 миллионов личных записей. Microsoft, которой принадлежит LinkedIn, заявила, что нарушений безопасности не было. База данных была результатом очистки данных.

База данных содержала информацию о каждом пострадавшем участнике:

  • Настоящее имя
  • Пол
  • URL-адреса профиля LinkedIn
  • Зарегистрированные адреса электронной почты
  • Номера стационарных телефонов и мобильных телефонов.
  • Физические адреса
  • Геолокация
  • Имена пользователей для других учетных записей социальных сетей

В июне 2021 года появилась база данных из 700 миллионов личных записей. Это более 90 процентов участников LinkedIn. Вместе с дополнительными 200 миллионами записей вторая база данных содержит перекрестные ссылки на данные, извлеченные из других источников, что дает более подробную картину пострадавших лиц.

Базу данных, созданную киберпреступниками для киберпреступников, можно купить — за 5000 долларов на момент написания статьи — на торговых площадках даркнета и форумах. Содержащаяся в нем информация будет использоваться для таких преступлений, как фишинговые атаки, целевые фишинговые атаки, атаки с использованием социальной инженерии и другие финансовые махинации.

Коммерческий парсинг тоже проблематичен

А как насчет коммерческой сети и очистки данных? Есть компании, с которыми вы можете сотрудничать, которые будут очищать данные для вас. Вы можете использовать наборы инструментов для анализа данных, такие как бесплатная библиотека Beautiful Soup Python, для создания собственных приложений для парсинга веб-страниц.

Проблема в том, что вы по-прежнему почти наверняка нарушаете правила платформы, которую парсите. И платформы попытаются защитить себя. Если они этого не сделают, их участники, клиенты или другие пользователи могут покинуть свою платформу.

Когда вы решаете предоставить личные данные онлайн-службе, вы доверяете этой организации свои данные. Вы не разрешаете никому другому приходить, собирать эти данные и использовать их по своему усмотрению. Когда организации очищают ваши данные, вы не знаете, кто они, что они собираются делать с данными, как они собираются их охранять и защищать и с кем они собираются ими делиться.

LinkedIn подала в суд на hiQ Labs Inc. из-за их данных и веб-скрапинга. В свою защиту hiQ заявила, что данные, которые они извлекали из LinkedIn, находились в открытом доступе, а это означало, что их можно было получить. В 2019 году 9-й окружной апелляционный суд США вынес решение в пользу hiQ. Но 14 июня 2021 года Верховный суд отменил решение Девятого округа. По состоянию на июль 2021 года сбор данных и просмотр веб-страниц в непреступных целях находится в серой зоне с точки зрения закона.

И все становится сложнее, если принять во внимание законодательство о данных, которое распространяется на участников платформы. Например, независимо от того, находятся ли данные гражданина ЕС в открытом доступе или нет, вы не можете собирать их, хранить и обрабатывать в цифровом виде без законных оснований — как это определено GDPR — для этого. Кроме того, есть разница между публично видимым и общественным достоянием.

В соответствии с GDPR есть только две законные основы, которые предположительно могут применяться к извлечению данных. Один из них — «согласие», а другой — «законный интерес». Очевидно, что согласие не было дано отдельными лицами, так что это не обсуждается. И было бы чрезвычайно сложно утверждать, что у вас был законный интерес к очистке данных, который не попирал бы законные интересы субъектов данных, а также их права и свободы на конфиденциальность данных. GDPR требует, чтобы вы поддерживали эти права и свободы и не нарушали их грубо.

GDPR защищает права граждан ЕС на конфиденциальность данных независимо от того, где происходит обработка. Организация в США, которая извлекает данные из другой организации, базирующейся в США, по-прежнему должна соблюдать GDPR, если в извлекаемых данных содержится личная информация граждан ЕС.

Законодательство о защите данных в других регионах занимает ту же позицию с некоторыми небольшими отличиями. Законность скрейпинга, мягко говоря, сомнительна. Скорее всего, мы увидим более формальные вызовы.

Как защитить свою организацию

Есть шаги и меры, которые вы предпринимаете, чтобы усложнить жизнь парсерам данных.

Условия использования

Хотя Правила и условия и Условия использования ничего не сделают для того, чтобы остановить киберпреступников и, возможно, даже не остановят «законный» парсинг, все же имеет смысл прямо запретить сбор, обработку, хранение или обмен любыми данными, включая, помимо прочего, идентифицирующие личность данные.

Это может помешать некоторым людям соскабливать. Если да, то это была легкая победа. Даже если это не так, это даст вам юридическое преимущество, если вопросы должны быть решены в суде.

Отключить хотлинкинг

Отображение изображений и других медиафайлов на одном веб-сайте путем обратной ссылки на исходный веб-сайт называется хотлинкингом. Он использует пропускную способность исходного веб-сайта и другие ресурсы для обслуживания медиа.

Веб-скрапинг обычно извлекает изображения напрямую, поэтому отключение хотлинкинга не повлияет на их действия по скрейпингу. Но если происходит какой-либо парсинг, основанный на хотлинкинге, это, по крайней мере, предотвращает добавление оскорбления к травме. Они не будут сжимать еще больше пропускной способности при просмотре ваших украденных данных.

Используйте CSRF-токены

Автоматизированные системы, выполняющие парсинг, делают последовательные HTTPS-запросы на ваш сайт. Они ползают со страницы на страницу, переходя по ссылкам. Они также создают URL-адреса, чтобы попробовать. Если они обнаруживают закономерность, например URL-адреса, отличающиеся одной цифрой, программное обеспечение прорабатывает предсказуемые комбинации до тех пор, пока последовательность не дает сбой.

Внедрение токенов межсайтовой подделки запросов на ваш веб-сайт может обмануть все, кроме самого умного программного обеспечения для парсинга. Токен CSRF — это уникальный идентификатор, отправляемый веб-сервером клиенту, выполняющему запрос. При нормальных обстоятельствах это был бы браузер.

Клиент должен отправить токен CSRF обратно на сервер при следующем запросе. Сервер не будет отвечать на любые запросы, которые не включают правильный токен CSRF. Большинство программ для парсинга веб-страниц не могут обрабатывать токены CSRF, поэтому это эффективная мера для ограничения вашего воздействия.

Запросы страниц ограничения скорости

Ограничение скорости устанавливает пороги количества запросов, которые могут быть сделаны от клиента в течение заданного периода времени. Обычно это делается по IP-адресу с ограничениями на количество запросов или загрузок страниц, которые могут быть сделаны в секунду.

Используйте специальное программное обеспечение для защиты от скрапинга

Доступны коммерческие пакеты, которые обнаруживают активность парсинга и блокируют ее. Они используют методы, которые намного превосходят простую идентификацию клиента по его IP-адресу. Они используют методы машинного обучения для выявления активности ботов, измеряя такие действия, как скорость, с которой клиент может заполнять поля и формы, то, как мышь перемещается по странице, и то, как клиент перемещается по веб-сайту. Любая нечеловеческая деятельность блокируется.

Требовать взаимодействия с человеком

Принуждение клиентов к созданию учетной записи и использование CAPTCHA или других тестов типа «запрос-ответ» может помочь в отказе от автоматических парсеров.

Сделайте свои API молчаливыми

Защитите свои API и ограничьте их возможности, чтобы они возвращали минимальный объем данных для удовлетворения обслуживаемого вызова API.

Разработчикам нравится предоставлять API с большим объемом данных и предоставлять больше, чем меньше. Это возлагает на клиента ответственность за анализ информации, которую он хочет, и отбрасывание остальной части. Это снижает вероятность того, что потребуется доработка, потому что API не предоставил конкретную информацию. Но эта многословность играет на руку скребкам.

Вместо этого сделайте свои API компактными и подлыми. Предоставьте то, что просили, и не более того. Вы также можете ограничить количество клиентов API.

Используйте обманные ссылки

Скрытые ссылки на веб-странице будут невидимы для настоящих пользователей, но программное обеспечение для веб-скрейпинга найдет все ссылки и перейдет по ним. Если клиент переходит по скрытой ссылке, скорее всего, это автоматизированный процесс. вы можете заблокировать их.

Время покажет

Киберпреступникам по определению наплевать на закон. У коммерческих операций нет выбора. Если дело hiQ против LinkedIn создаст юридический прецедент и сочтет, что парсинг нарушает Закон о компьютерном мошенничестве и злоупотреблениях, это повлияет только на выполнение «коммерческого» парсинга. Извлечение данных киберпреступниками будет продолжаться.

Таким образом, каким бы ни был результат, вам все равно придется защищать свою организацию.