Сбор данных из веба в России: 152-ФЗ и легальные способы
Правовые аспекты сбора данных для AI в России: 152-ФЗ, персональные данные, публичная информация, robots.txt. Чек-лист легального краулинга для бизнеса.
Команда InfraProxy
10 апреля 2026 г.
Контекст: AI и массовый сбор данных
AI-модели обучаются на данных из веба — это факт, с которым работает вся индустрия. Но когда ваша компания строит пайплайн сбора данных для обучения модели или RAG-базы знаний, возникает практический вопрос: что можно собирать, а что нельзя? И как защитить бизнес от правовых рисков?
Эта статья фокусируется на российском контексте: 152-ФЗ, судебная практика, практические рекомендации. Общий обзор международных правовых аспектов (GDPR, прецеденты США) — в статье Правовые аспекты веб-скрейпинга: GDPR, 152-ФЗ и robots.txt.
Что говорит 152-ФЗ о сборе данных из веба
Федеральный закон 152-ФЗ «О персональных данных» регулирует обработку данных, которые позволяют идентифицировать конкретного человека: ФИО, телефон, email, адрес, фотографии.
Ключевые принципы для автоматического сбора данных:
-
Публично доступные данные — сбор публично размещённой информации (каталоги, прайс-листы, открытые базы) не требует согласия субъекта, если эти данные не содержат персональной информации.
-
Персональные данные — для их сбора, хранения и обработки нужно основание: согласие субъекта, исполнение договора, законный интерес и т.д. Массовый сбор персональных данных без основания — нарушение.
-
Обезличенные данные — если из данных нельзя идентифицировать конкретного человека (статистика, агрегированные показатели), требования 152-ФЗ не применяются.
Какие данные можно собирать: практическая классификация
| Категория данных | Пример | Можно собирать | Ограничения | |-----------------|--------|---------------|-------------| | Публичные каталоги | Цены, характеристики товаров, наличие | Да | Уважать robots.txt и rate-limits | | Открытые API | Публичные API без авторизации | Да | Соблюдать Terms of Service | | Новости и статьи | Заголовки, тексты, даты | Да | Авторское право на тексты | | Статистика | Агрегированные показатели | Да | Не деагрегировать до ПД | | Профили с ФИО | Имена, телефоны, email | Осторожно | Нужно основание по 152-ФЗ | | Закрытые разделы | Данные за авторизацией | Нет | Нарушение ToS и возможно УК |
AI-специфика: обучающие данные и авторское право
Когда вы собираете тексты из веба для обучения AI-модели, помимо 152-ФЗ вступает авторское право (ГК РФ, часть IV):
- Тексты статей и книг защищены авторским правом. Использование для обучения AI-модели — дискуссионная зона в российском праве (нет устоявшейся судебной практики на апрель 2026 года).
- Фактическая информация (цены, характеристики, расписания) не охраняется авторским правом — охраняется только форма выражения.
- Базы данных имеют отдельную правовую защиту (смежные права изготовителя базы данных, ст. 1334 ГК РФ).
Практический подход для AI-команд: собирайте фактическую информацию (структурированные данные, метаданные, числовые показатели) и будьте осторожны с копированием полных текстов.
robots.txt: юридическая сила и практика
Файл robots.txt — это техническая конвенция, а не юридический документ. Однако его игнорирование может быть использовано против вас в суде как доказательство недобросовестного поведения.
Проверка robots.txt — первый шаг перед краулингом любого сайта:
# Проверка robots.txt целевого сайта
curl -x socks5://user:pass@fi.infraproxy.ru:1080 \
"https://target-site.com/robots.txt" -s
# Типичный ответ:
# User-agent: *
# Disallow: /admin/
# Disallow: /private/
# Allow: /catalog/
# Crawl-delay: 2
Обратите внимание на:
- Disallow — директории, которые сайт просит не индексировать
- Crawl-delay — рекомендуемая пауза между запросами (в секундах)
- User-agent — правила могут отличаться для разных ботов
from urllib.robotparser import RobotFileParser
def check_robots(site_url: str, target_path: str) -> bool:
"""Проверяет, разрешён ли краулинг указанного пути."""
rp = RobotFileParser()
rp.set_url(f"{site_url}/robots.txt")
rp.read()
can_fetch = rp.can_fetch("*", f"{site_url}{target_path}")
crawl_delay = rp.crawl_delay("*")
print(f"Доступ к {target_path}: {'разрешён' if can_fetch else 'запрещён'}")
if crawl_delay:
print(f"Рекомендуемая пауза: {crawl_delay} сек")
return can_fetch
# Пример использования
check_robots("https://example.com", "/catalog/electronics")
Судебная практика в России
Судебная практика по автоматическому сбору данных из веба в РФ пока немногочисленна, но формирует определённые принципы:
-
Сбор публичных данных сам по себе не является правонарушением, если не нарушаются другие нормы (152-ФЗ, авторское право, условия использования сайта).
-
Массовый сбор персональных данных без согласия субъектов или иного законного основания — нарушение 152-ФЗ с потенциальными штрафами.
-
Нарушение условий использования сайта (Terms of Service) может рассматриваться как нарушение договорных отношений, если вы приняли эти условия (например, при регистрации).
Практические рекомендации для AI-команд
Чек-лист легального сбора данных
| # | Проверка | Описание | |---|----------|----------| | 1 | robots.txt | Проверить и уважать директивы Disallow и Crawl-delay | | 2 | Персональные данные | Не собирать ФИО, телефоны, email без законного основания | | 3 | Авторские тексты | Собирать метаданные и факты, а не копировать полные тексты | | 4 | Terms of Service | Прочитать условия сайта, не нарушать явные запреты | | 5 | Rate-limiting | Не перегружать серверы, соблюдать Crawl-delay | | 6 | Хранение данных | Хранить только необходимое, удалять устаревшее | | 7 | Документирование | Вести лог: какие данные, откуда, для какой цели |
Что делать с персональными данными, если они нужны
Если ваша AI-задача требует данных, которые содержат персональную информацию:
- Обезличивание — удалите или замените идентифицирующую информацию перед использованием в обучении
- Агрегирование — используйте статистические показатели вместо индивидуальных записей
- Законный интерес — задокументируйте легитимный бизнес-интерес (ст. 6, п. 7 152-ФЗ) и оцените баланс интересов
- Юридическая консультация — для сложных случаев привлекайте юриста по ПД
Техническая защита: как вести себя при краулинге
Помимо правовых аспектов, техническая культура краулинга снижает риски:
import time
import requests
PROXY = "socks5://user:pass@fi.infraproxy.ru:1080"
def polite_crawl(urls: list[str], delay: float = 2.0) -> list[dict]:
"""Вежливый краулинг: паузы, идентификация, robots.txt."""
results = []
for url in urls:
try:
resp = requests.get(
url,
proxies={"https": PROXY},
timeout=15,
headers={
"User-Agent": "CompanyBot/1.0 (+https://yoursite.com/bot)",
"Accept": "text/html",
}
)
results.append({
"url": url,
"status": resp.status_code,
"text": resp.text if resp.status_code == 200 else None,
})
except requests.RequestException as e:
results.append({"url": url, "status": 0, "error": str(e)})
time.sleep(delay) # пауза между запросами
return results
Ключевые принципы:
- Идентификация — укажите в User-Agent название бота и ссылку на страницу с описанием
- Паузы — 1–2 секунды между запросами к одному домену
- Прокси — распределение нагрузки через пул IP снижает давление на один сервер целевого сайта
Договор с провайдером прокси: зачем это важно
При работе с юридическими лицами в РФ важно, чтобы провайдер прокси работал в правовом поле:
- Договор — фиксирует ответственность сторон, условия использования, SLA
- Постоплата в рублях — упрощает бухгалтерию и закрывающие документы
- Допустимое использование — провайдер должен явно описать, что разрешено, а что нет
InfraProxy работает по договору с российским юрлицом: постоплата, акты, УПД. 500+ компаний уже работают по этой модели. Подробнее о прокси-инфраструктуре для AI — на странице Прокси для AI.
Итог: три правила легального сбора данных для AI
- Собирайте факты, не контент — структурированные данные (цены, метаданные, показатели) безопаснее полных текстов
- Не трогайте ПД — обезличивайте или не собирайте данные, позволяющие идентифицировать человека
- Ведите себя вежливо — robots.txt, паузы, идентификация бота, разумные объёмы
Подробнее о международных правовых аспектах и прецедентах — в статье Правовые аспекты веб-скрейпинга: GDPR, 152-ФЗ и robots.txt.
InfraProxy — прокси-инфраструктура для российского бизнеса. Договор, постоплата, закрывающие документы. Оставить заявку →
Нужны надёжные прокси для вашего проекта?
InfraProxy предоставляет серверные и резидентные прокси для российского бизнеса. Договор, постоплата, техподдержка.