Правовые аспекты веб-скрейпинга: GDPR, 152-ФЗ и robots.txt
Юридический гид по веб-скрейпингу в 2026 году: что говорит закон, как соблюдать GDPR и российский 152-ФЗ, роль robots.txt и лучшие практики для легального сбора данных.
Команда InfraProxy
5 февраля 2026 г.
Почему это важно
Легальный веб-скрейпинг — это автоматизированный сбор публично доступной информации из открытых источников в интернете, не нарушающий авторские права, условия пользовательских соглашений (Terms of Service) и законы о защите персональных данных, такие как европейский GDPR и российский 152-ФЗ.
Веб-скрейпинг — мощный инструмент для бизнеса, но он находится на пересечении технологий и права. Неправильный подход может привести к судебным искам, штрафам и репутационным потерям. Понимание правовых рамок — необходимость, а не опция.
Хорошая новость: сбор публично доступных данных в большинстве юрисдикций является легальным при соблюдении определённых правил. Разберём их подробно.
Международные прецеденты
LinkedIn vs hiQ Labs (США, 2022)
Ключевое судебное решение для индустрии. Компания hiQ Labs собирала публичные профили LinkedIn для HR-аналитики. LinkedIn пытался запретить это через суд.
Решение суда: сбор публично доступных данных не является нарушением Закона о компьютерном мошенничестве (CFAA). Если информация доступна любому посетителю без авторизации — её сбор легален.
Это решение установило важный прецедент: публичные данные — это публичные данные, независимо от того, собираете ли вы их вручную или автоматически.
Meta vs Bright Data (2024)
Meta (Facebook) подала иск против компании Bright Data за скрейпинг публичных профилей. Суд встал на сторону Bright Data, подтвердив, что сбор публично доступной информации не нарушает условия использования сайта.
GDPR (Европейский союз)
Регламент GDPR (General Data Protection Regulation) — самый строгий закон о защите персональных данных в мире. Он применяется, если:
- Вы собираете данные граждан ЕС
- Ваша компания находится в ЕС
- Вы предлагаете товары/услуги гражданам ЕС
Что считается персональными данными по GDPR
- Имена и фамилии
- Email-адреса
- Номера телефонов
- IP-адреса (!)
- Фотографии
- Местоположение
- Любые данные, позволяющие идентифицировать человека
Ключевые принципы
- Законное основание: у вас должно быть основание для сбора данных (согласие, законный интерес, исполнение договора и т.д.)
- Минимизация данных: собирайте только то, что действительно нужно
- Ограничение хранения: не храните данные дольше, чем необходимо
- Право на удаление: субъект данных может потребовать удалить свои данные
Штрафы
До 20 млн евро или 4% мирового годового оборота — в зависимости от того, что больше. Штрафы не теоретические: в 2023-2025 годах были вынесены десятки решений на сотни миллионов евро.
152-ФЗ (Россия)
Федеральный закон №152-ФЗ «О персональных данных» — российский аналог GDPR. Он регулирует сбор, хранение и обработку персональных данных граждан РФ.
Что считается персональными данными
Определение шире, чем в GDPR:
- ФИО
- Дата и место рождения
- Адрес
- Семейное, социальное и имущественное положение
- Образование, профессия
- Доходы
- Любая информация, относящаяся к определённому или определяемому физическому лицу
Ключевые требования
- Согласие на обработку: как правило, требуется согласие субъекта. Но есть исключения — например, обработка общедоступных данных (данных, которые субъект сам сделал общедоступными).
- Локализация: базы персональных данных граждан РФ должны храниться на территории России.
- Уведомление Роскомнадзора: оператор персональных данных обязан уведомить РКН о начале обработки.
- Обеспечение безопасности: необходимо принять технические и организационные меры защиты.
Штрафы
С 2024 года штрафы за нарушение 152-ФЗ существенно увеличены:
- Для юридических лиц — до 18 млн руб. за первичное нарушение
- За утечку данных — оборотные штрафы до 3% выручки
Что можно собирать без ограничений
- Публичные бизнес-данные: цены, ассортимент, описания товаров, характеристики
- Открытую корпоративную информацию: реквизиты компаний из ЕГРЮЛ/ЕГРИП
- Агрегированные данные: статистика без привязки к конкретным лицам
- Общедоступные данные: информация из публичных реестров, открытых API
robots.txt
Файл robots.txt — это текстовый файл в корне сайта, который указывает ботам, какие разделы сайта можно и нельзя сканировать.
Юридическая сила
В разных юрисдикциях robots.txt имеет разную юридическую силу:
- США: прямой юридической силы не имеет, но его нарушение может быть использовано как аргумент в суде
- ЕС: может рассматриваться как выражение воли владельца сайта
- Россия: не имеет прямой юридической силы, но может считаться добросовестной практикой
Рекомендация
Даже если robots.txt формально не обязателен — уважайте его. Это демонстрирует добросовестность и снижает юридические риски. Если robots.txt запрещает сканирование определённого раздела — лучше не собирать оттуда данные.
Пользовательские соглашения (Terms of Service)
Многие сайты в условиях использования запрещают автоматизированный сбор данных. Юридическая сила таких запретов различается:
- Если вы не создавали аккаунт — вы формально не принимали условия, и их сила ограничена
- Если вы авторизовались — вы приняли условия, и их нарушение может иметь юридические последствия
Общее правило: собирайте только то, что доступно без авторизации.
Лучшие практики легального скрейпинга
Что делать
- Собирайте только публичные данные — информацию, доступную любому посетителю без входа в аккаунт
- Проверяйте robots.txt перед началом сбора
- Не перегружайте серверы — ограничивайте частоту запросов, чтобы не влиять на работу сайта
- Не собирайте персональные данные без законного основания
- Храните данные безопасно — шифрование, ограничение доступа
- Документируйте — фиксируйте, какие данные, откуда и зачем вы собираете
- Используйте данные ответственно — только для заявленных целей
Чего не делать
- Не обходите авторизацию — не используйте чужие учётные записи
- Не собирайте защищённые данные — медицинские, финансовые, данные несовершеннолетних
- Не перепродавайте персональные данные
- Не используйте данные для спама, мошенничества или дискриминации
- Не игнорируйте запросы на удаление данных
Чек-лист перед запуском скрейпинга
- [ ] Данные публично доступны (без авторизации)?
- [ ] Проверен robots.txt?
- [ ] Не собираются персональные данные?
- [ ] Частота запросов не перегружает сервер?
- [ ] Есть документация целей и методов сбора?
- [ ] Данные хранятся в соответствии с требованиями 152-ФЗ/GDPR?
- [ ] Есть план реагирования на запросы об удалении?
Читайте также
InfraProxy помогает бизнесу собирать данные легально и ответственно. Мы предоставляем инфраструктуру, соблюдающую требования российского законодательства. Узнайте больше.
Нужны надёжные прокси для вашего проекта?
InfraProxy предоставляет серверные и резидентные прокси для российского бизнеса. Договор, постоплата, техподдержка.