Чем InfraProxy отличается от зарубежных провайдеров?

InfraProxy — российский провайдер прокси и скрапинга. Работаем по договору по российскому праву, оплата в рублях по постоплате, полный пакет закрывающих документов (акты, УПД, счета-фактуры).

Как быстро я получу доступ после обращения?

Scraper API — моментально: регистрируетесь и получаете 10 000 тестовых токенов. Прокси — в течение дня: подбираем конфигурацию и выдаём тестовый доступ.

Какие типы прокси вы предлагаете?

Datacenter (90 000+ IP) — высокоскоростные прокси. ISP / Residential Static (10 000+ IP) — IP-адреса реальных провайдеров. Оба типа поддерживают HTTP, HTTPS и SOCKS5.

Как происходит оплата?

Постоплата по итогам месяца. Счёт в рублях, безналичный расчёт. Полный пакет закрывающих документов через ЭДО.

Все статьиЮридическое11 мин

Сбор данных из веба в России: 152-ФЗ и легальные способы

Правовые аспекты сбора данных для AI в России: 152-ФЗ, персональные данные, публичная информация, robots.txt. Чек-лист легального краулинга для бизнеса.

Команда InfraProxy

10 апреля 2026 г.

#152-ФЗ#право#сбор данных#AI#персональные данные#Россия

Контекст: AI и массовый сбор данных

AI-модели обучаются на данных из веба — это факт, с которым работает вся индустрия. Но когда ваша компания строит пайплайн сбора данных для обучения модели или RAG-базы знаний, возникает практический вопрос: что можно собирать, а что нельзя? И как защитить бизнес от правовых рисков?

Эта статья фокусируется на российском контексте: 152-ФЗ, судебная практика, практические рекомендации. Общий обзор международных правовых аспектов (GDPR, прецеденты США) — в статье Правовые аспекты веб-скрейпинга: GDPR, 152-ФЗ и robots.txt.

Что говорит 152-ФЗ о сборе данных из веба

Федеральный закон 152-ФЗ «О персональных данных» регулирует обработку данных, которые позволяют идентифицировать конкретного человека: ФИО, телефон, email, адрес, фотографии.

Ключевые принципы для автоматического сбора данных:

Публично доступные данные — сбор публично размещённой информации (каталоги, прайс-листы, открытые базы) не требует согласия субъекта, если эти данные не содержат персональной информации.
Персональные данные — для их сбора, хранения и обработки нужно основание: согласие субъекта, исполнение договора, законный интерес и т.д. Массовый сбор персональных данных без основания — нарушение.
Обезличенные данные — если из данных нельзя идентифицировать конкретного человека (статистика, агрегированные показатели), требования 152-ФЗ не применяются.

Какие данные можно собирать: практическая классификация

Категория данных	Пример	Можно собирать	Ограничения
Публичные каталоги	Цены, характеристики товаров, наличие	Да	Уважать robots.txt и rate-limits
Открытые API	Публичные API без авторизации	Да	Соблюдать Terms of Service
Новости и статьи	Заголовки, тексты, даты	Да	Авторское право на тексты
Статистика	Агрегированные показатели	Да	Не деагрегировать до ПД
Профили с ФИО	Имена, телефоны, email	Осторожно	Нужно основание по 152-ФЗ
Закрытые разделы	Данные за авторизацией	Нет	Нарушение ToS и возможно УК

AI-специфика: обучающие данные и авторское право

Когда вы собираете тексты из веба для обучения AI-модели, помимо 152-ФЗ вступает авторское право (ГК РФ, часть IV):

Тексты статей и книг защищены авторским правом. Использование для обучения AI-модели — дискуссионная зона в российском праве (нет устоявшейся судебной практики на апрель 2026 года).
Фактическая информация (цены, характеристики, расписания) не охраняется авторским правом — охраняется только форма выражения.
Базы данных имеют отдельную правовую защиту (смежные права изготовителя базы данных, ст. 1334 ГК РФ).

Практический подход для AI-команд: собирайте фактическую информацию (структурированные данные, метаданные, числовые показатели) и будьте осторожны с копированием полных текстов.

robots.txt: юридическая сила и практика

Файл robots.txt — это техническая конвенция, а не юридический документ. Однако его игнорирование может быть использовано против вас в суде как доказательство недобросовестного поведения.

Проверка robots.txt — первый шаг перед краулингом любого сайта:

# Проверка robots.txt целевого сайта
curl -x socks5://user:pass@fi.infraproxy.ru:1080 \
  "https://target-site.com/robots.txt" -s

# Типичный ответ:
# User-agent: *
# Disallow: /admin/
# Disallow: /private/
# Allow: /catalog/
# Crawl-delay: 2

Обратите внимание на:

Disallow — директории, которые сайт просит не индексировать
Crawl-delay — рекомендуемая пауза между запросами (в секундах)
User-agent — правила могут отличаться для разных ботов

from urllib.robotparser import RobotFileParser

def check_robots(site_url: str, target_path: str) -> bool:
    """Проверяет, разрешён ли краулинг указанного пути."""
    rp = RobotFileParser()
    rp.set_url(f"{site_url}/robots.txt")
    rp.read()

    can_fetch = rp.can_fetch("*", f"{site_url}{target_path}")
    crawl_delay = rp.crawl_delay("*")

    print(f"Доступ к {target_path}: {'разрешён' if can_fetch else 'запрещён'}")
    if crawl_delay:
        print(f"Рекомендуемая пауза: {crawl_delay} сек")

    return can_fetch

# Пример использования
check_robots("https://example.com", "/catalog/electronics")

Судебная практика в России

Судебная практика по автоматическому сбору данных из веба в РФ пока немногочисленна, но формирует определённые принципы:

Сбор публичных данных сам по себе не является правонарушением, если не нарушаются другие нормы (152-ФЗ, авторское право, условия использования сайта).
Массовый сбор персональных данных без согласия субъектов или иного законного основания — нарушение 152-ФЗ с потенциальными штрафами.
Нарушение условий использования сайта (Terms of Service) может рассматриваться как нарушение договорных отношений, если вы приняли эти условия (например, при регистрации).

Практические рекомендации для AI-команд

Чек-лист легального сбора данных

#	Проверка	Описание
1	robots.txt	Проверить и уважать директивы Disallow и Crawl-delay
2	Персональные данные	Не собирать ФИО, телефоны, email без законного основания
3	Авторские тексты	Собирать метаданные и факты, а не копировать полные тексты
4	Terms of Service	Прочитать условия сайта, не нарушать явные запреты
5	Rate-limiting	Не перегружать серверы, соблюдать Crawl-delay
6	Хранение данных	Хранить только необходимое, удалять устаревшее
7	Документирование	Вести лог: какие данные, откуда, для какой цели

Что делать с персональными данными, если они нужны

Если ваша AI-задача требует данных, которые содержат персональную информацию:

Обезличивание — удалите или замените идентифицирующую информацию перед использованием в обучении
Агрегирование — используйте статистические показатели вместо индивидуальных записей
Законный интерес — задокументируйте легитимный бизнес-интерес (ст. 6, п. 7 152-ФЗ) и оцените баланс интересов
Юридическая консультация — для сложных случаев привлекайте юриста по ПД

Техническая защита: как вести себя при краулинге

Помимо правовых аспектов, техническая культура краулинга снижает риски:

import time
import requests

PROXY = "socks5://user:pass@fi.infraproxy.ru:1080"

def polite_crawl(urls: list[str], delay: float = 2.0) -> list[dict]:
    """Вежливый краулинг: паузы, идентификация, robots.txt."""
    results = []

    for url in urls:
        try:
            resp = requests.get(
                url,
                proxies={"https": PROXY},
                timeout=15,
                headers={
                    "User-Agent": "CompanyBot/1.0 (+https://yoursite.com/bot)",
                    "Accept": "text/html",
                }
            )
            results.append({
                "url": url,
                "status": resp.status_code,
                "text": resp.text if resp.status_code == 200 else None,
            })
        except requests.RequestException as e:
            results.append({"url": url, "status": 0, "error": str(e)})

        time.sleep(delay)  # пауза между запросами

    return results

Ключевые принципы:

Идентификация — укажите в User-Agent название бота и ссылку на страницу с описанием
Паузы — 1–2 секунды между запросами к одному домену
Прокси — распределение нагрузки через пул IP снижает давление на один сервер целевого сайта

Договор с провайдером прокси: зачем это важно

При работе с юридическими лицами в РФ важно, чтобы провайдер прокси работал в правовом поле:

Договор — фиксирует ответственность сторон, условия использования, SLA
Постоплата в рублях — упрощает бухгалтерию и закрывающие документы
Допустимое использование — провайдер должен явно описать, что разрешено, а что нет

InfraProxy работает по договору с российским юрлицом: постоплата, акты, УПД. 500+ компаний уже работают по этой модели. Подробнее о прокси-инфраструктуре для AI — на странице Прокси для AI.

Итог: три правила легального сбора данных для AI

Собирайте факты, не контент — структурированные данные (цены, метаданные, показатели) безопаснее полных текстов
Не трогайте ПД — обезличивайте или не собирайте данные, позволяющие идентифицировать человека
Ведите себя вежливо — robots.txt, паузы, идентификация бота, разумные объёмы

Подробнее о международных правовых аспектах и прецедентах — в статье Правовые аспекты веб-скрейпинга: GDPR, 152-ФЗ и robots.txt.

InfraProxy — прокси-инфраструктура для российского бизнеса. Договор, постоплата, закрывающие документы. Оставить заявку →

Нужны надёжные прокси для вашего проекта?

InfraProxy предоставляет серверные и резидентные прокси для российского бизнеса. Договор, постоплата, техподдержка.

Оставить заявку Рассчитать стоимость