Все статьиЮридическое11 мин

Сбор данных из веба в России: 152-ФЗ и легальные способы

Правовые аспекты сбора данных для AI в России: 152-ФЗ, персональные данные, публичная информация, robots.txt. Чек-лист легального краулинга для бизнеса.

Команда InfraProxy

10 апреля 2026 г.

#152-ФЗ#право#сбор данных#AI#персональные данные#Россия

Контекст: AI и массовый сбор данных

AI-модели обучаются на данных из веба — это факт, с которым работает вся индустрия. Но когда ваша компания строит пайплайн сбора данных для обучения модели или RAG-базы знаний, возникает практический вопрос: что можно собирать, а что нельзя? И как защитить бизнес от правовых рисков?

Эта статья фокусируется на российском контексте: 152-ФЗ, судебная практика, практические рекомендации. Общий обзор международных правовых аспектов (GDPR, прецеденты США) — в статье Правовые аспекты веб-скрейпинга: GDPR, 152-ФЗ и robots.txt.

Что говорит 152-ФЗ о сборе данных из веба

Федеральный закон 152-ФЗ «О персональных данных» регулирует обработку данных, которые позволяют идентифицировать конкретного человека: ФИО, телефон, email, адрес, фотографии.

Ключевые принципы для автоматического сбора данных:

  1. Публично доступные данные — сбор публично размещённой информации (каталоги, прайс-листы, открытые базы) не требует согласия субъекта, если эти данные не содержат персональной информации.

  2. Персональные данные — для их сбора, хранения и обработки нужно основание: согласие субъекта, исполнение договора, законный интерес и т.д. Массовый сбор персональных данных без основания — нарушение.

  3. Обезличенные данные — если из данных нельзя идентифицировать конкретного человека (статистика, агрегированные показатели), требования 152-ФЗ не применяются.

Какие данные можно собирать: практическая классификация

| Категория данных | Пример | Можно собирать | Ограничения | |-----------------|--------|---------------|-------------| | Публичные каталоги | Цены, характеристики товаров, наличие | Да | Уважать robots.txt и rate-limits | | Открытые API | Публичные API без авторизации | Да | Соблюдать Terms of Service | | Новости и статьи | Заголовки, тексты, даты | Да | Авторское право на тексты | | Статистика | Агрегированные показатели | Да | Не деагрегировать до ПД | | Профили с ФИО | Имена, телефоны, email | Осторожно | Нужно основание по 152-ФЗ | | Закрытые разделы | Данные за авторизацией | Нет | Нарушение ToS и возможно УК |

AI-специфика: обучающие данные и авторское право

Когда вы собираете тексты из веба для обучения AI-модели, помимо 152-ФЗ вступает авторское право (ГК РФ, часть IV):

  • Тексты статей и книг защищены авторским правом. Использование для обучения AI-модели — дискуссионная зона в российском праве (нет устоявшейся судебной практики на апрель 2026 года).
  • Фактическая информация (цены, характеристики, расписания) не охраняется авторским правом — охраняется только форма выражения.
  • Базы данных имеют отдельную правовую защиту (смежные права изготовителя базы данных, ст. 1334 ГК РФ).

Практический подход для AI-команд: собирайте фактическую информацию (структурированные данные, метаданные, числовые показатели) и будьте осторожны с копированием полных текстов.

robots.txt: юридическая сила и практика

Файл robots.txt — это техническая конвенция, а не юридический документ. Однако его игнорирование может быть использовано против вас в суде как доказательство недобросовестного поведения.

Проверка robots.txt — первый шаг перед краулингом любого сайта:

# Проверка robots.txt целевого сайта
curl -x socks5://user:pass@fi.infraproxy.ru:1080 \
  "https://target-site.com/robots.txt" -s

# Типичный ответ:
# User-agent: *
# Disallow: /admin/
# Disallow: /private/
# Allow: /catalog/
# Crawl-delay: 2

Обратите внимание на:

  • Disallow — директории, которые сайт просит не индексировать
  • Crawl-delay — рекомендуемая пауза между запросами (в секундах)
  • User-agent — правила могут отличаться для разных ботов
from urllib.robotparser import RobotFileParser

def check_robots(site_url: str, target_path: str) -> bool:
    """Проверяет, разрешён ли краулинг указанного пути."""
    rp = RobotFileParser()
    rp.set_url(f"{site_url}/robots.txt")
    rp.read()

    can_fetch = rp.can_fetch("*", f"{site_url}{target_path}")
    crawl_delay = rp.crawl_delay("*")

    print(f"Доступ к {target_path}: {'разрешён' if can_fetch else 'запрещён'}")
    if crawl_delay:
        print(f"Рекомендуемая пауза: {crawl_delay} сек")

    return can_fetch

# Пример использования
check_robots("https://example.com", "/catalog/electronics")

Судебная практика в России

Судебная практика по автоматическому сбору данных из веба в РФ пока немногочисленна, но формирует определённые принципы:

  1. Сбор публичных данных сам по себе не является правонарушением, если не нарушаются другие нормы (152-ФЗ, авторское право, условия использования сайта).

  2. Массовый сбор персональных данных без согласия субъектов или иного законного основания — нарушение 152-ФЗ с потенциальными штрафами.

  3. Нарушение условий использования сайта (Terms of Service) может рассматриваться как нарушение договорных отношений, если вы приняли эти условия (например, при регистрации).

Практические рекомендации для AI-команд

Чек-лист легального сбора данных

| # | Проверка | Описание | |---|----------|----------| | 1 | robots.txt | Проверить и уважать директивы Disallow и Crawl-delay | | 2 | Персональные данные | Не собирать ФИО, телефоны, email без законного основания | | 3 | Авторские тексты | Собирать метаданные и факты, а не копировать полные тексты | | 4 | Terms of Service | Прочитать условия сайта, не нарушать явные запреты | | 5 | Rate-limiting | Не перегружать серверы, соблюдать Crawl-delay | | 6 | Хранение данных | Хранить только необходимое, удалять устаревшее | | 7 | Документирование | Вести лог: какие данные, откуда, для какой цели |

Что делать с персональными данными, если они нужны

Если ваша AI-задача требует данных, которые содержат персональную информацию:

  1. Обезличивание — удалите или замените идентифицирующую информацию перед использованием в обучении
  2. Агрегирование — используйте статистические показатели вместо индивидуальных записей
  3. Законный интерес — задокументируйте легитимный бизнес-интерес (ст. 6, п. 7 152-ФЗ) и оцените баланс интересов
  4. Юридическая консультация — для сложных случаев привлекайте юриста по ПД

Техническая защита: как вести себя при краулинге

Помимо правовых аспектов, техническая культура краулинга снижает риски:

import time
import requests

PROXY = "socks5://user:pass@fi.infraproxy.ru:1080"

def polite_crawl(urls: list[str], delay: float = 2.0) -> list[dict]:
    """Вежливый краулинг: паузы, идентификация, robots.txt."""
    results = []

    for url in urls:
        try:
            resp = requests.get(
                url,
                proxies={"https": PROXY},
                timeout=15,
                headers={
                    "User-Agent": "CompanyBot/1.0 (+https://yoursite.com/bot)",
                    "Accept": "text/html",
                }
            )
            results.append({
                "url": url,
                "status": resp.status_code,
                "text": resp.text if resp.status_code == 200 else None,
            })
        except requests.RequestException as e:
            results.append({"url": url, "status": 0, "error": str(e)})

        time.sleep(delay)  # пауза между запросами

    return results

Ключевые принципы:

  • Идентификация — укажите в User-Agent название бота и ссылку на страницу с описанием
  • Паузы — 1–2 секунды между запросами к одному домену
  • Прокси — распределение нагрузки через пул IP снижает давление на один сервер целевого сайта

Договор с провайдером прокси: зачем это важно

При работе с юридическими лицами в РФ важно, чтобы провайдер прокси работал в правовом поле:

  • Договор — фиксирует ответственность сторон, условия использования, SLA
  • Постоплата в рублях — упрощает бухгалтерию и закрывающие документы
  • Допустимое использование — провайдер должен явно описать, что разрешено, а что нет

InfraProxy работает по договору с российским юрлицом: постоплата, акты, УПД. 500+ компаний уже работают по этой модели. Подробнее о прокси-инфраструктуре для AI — на странице Прокси для AI.

Итог: три правила легального сбора данных для AI

  1. Собирайте факты, не контент — структурированные данные (цены, метаданные, показатели) безопаснее полных текстов
  2. Не трогайте ПД — обезличивайте или не собирайте данные, позволяющие идентифицировать человека
  3. Ведите себя вежливо — robots.txt, паузы, идентификация бота, разумные объёмы

Подробнее о международных правовых аспектах и прецедентах — в статье Правовые аспекты веб-скрейпинга: GDPR, 152-ФЗ и robots.txt.


InfraProxy — прокси-инфраструктура для российского бизнеса. Договор, постоплата, закрывающие документы. Оставить заявку →

Нужны надёжные прокси для вашего проекта?

InfraProxy предоставляет серверные и резидентные прокси для российского бизнеса. Договор, постоплата, техподдержка.