Как обойти защиту Cloudflare при сборе данных
Разбираемся, как устроена антибот-защита Cloudflare и какие методы позволяют легально собирать данные с защищённых сайтов: от настройки заголовков до использования API.
Команда InfraProxy
8 февраля 2026 г.
Что такое защита Cloudflare
Cloudflare (защита от ботов) — это система безопасности на уровне сети (CDN), которая анализирует входящий HTTP/HTTPS трафик на наличие автоматизации перед тем, как пропустить его к серверу целевого сайта. Обход защиты Cloudflare при веб-скрейпинге (Turnstile/UAM) требует эмуляции TLS-отпечатков (JA3/JA4), настройки заголовков и использования headless-браузеров.
Cloudflare — это CDN и платформа безопасности, которую используют миллионы сайтов по всему миру. По разным оценкам, через Cloudflare проходит 20-25% всего интернет-трафика. Если вы занимаетесь сбором данных, вы неизбежно столкнётесь с их защитой.
Cloudflare работает как «прослойка» между посетителем и сервером сайта. Каждый запрос сначала проходит через серверы Cloudflare, где анализируется на предмет автоматизации. Только после успешной проверки запрос пропускается дальше.
Уровни защиты Cloudflare
Базовый уровень (Under Attack Mode)
Знакомый многим экран «Checking your browser...». На этом уровне Cloudflare отправляет JavaScript-челлендж, который должен выполнить браузер. Обычная HTTP-библиотека (Python requests, curl) не может выполнить JavaScript, и запрос отклоняется.
Managed Challenge
Более продвинутый вариант, где Cloudflare сам решает, какой тип проверки показать. Для «хороших» посетителей проверка проходит незаметно (без видимой задержки). Для подозрительных — появляется CAPTCHA или интерактивный челлендж.
Turnstile
Замена традиционной CAPTCHA от Cloudflare. Работает в фоновом режиме, анализируя поведение пользователя без необходимости решать головоломки. Использует машинное обучение для оценки «человечности» посетителя.
Bot Fight Mode
Активная защита, которая не просто блокирует ботов, а замедляет их — отправляет бесконечные JavaScript-вычисления, расходуя ресурсы атакующего.
Почему стандартные методы не работают
Простой HTTP-запрос
Отправка GET-запроса через requests или axios не работает, потому что эти библиотеки не выполняют JavaScript. Cloudflare получает запрос, видит отсутствие выполненного челленджа и возвращает страницу проверки (код 403 или 503).
Подмена User-Agent
Изменение строки User-Agent само по себе бесполезно. Cloudflare проверяет не только заголовок, но и TLS-отпечаток, который у Python-библиотеки кардинально отличается от реального Chrome.
Использование серверных прокси
Серверные (datacenter) прокси имеют низкий уровень доверия у Cloudflare. Диапазоны IP крупных дата-центров (AWS, Google Cloud, Hetzner) уже давно в базе Cloudflare и автоматически получают повышенный уровень проверки.
Методы, которые работают
1. Headless-браузер с правильной настройкой
Инструменты вроде Playwright или Puppeteer запускают полноценный Chrome, который выполняет JavaScript-челленджи. Однако важно правильно настроить браузер:
- Убрать следы автоматизации: по умолчанию headless-браузеры выставляют флаг
navigator.webdriver = true. Нужно его перезаписать. - Настроить реальный профиль: установить корректные значения
navigator.platform,navigator.languages, размер окна. - Использовать Stealth-плагины: Playwright Extra и Puppeteer Extra с плагинами stealth скрывают большинство признаков автоматизации.
2. Резидентные прокси
Cloudflare использует базу данных IP-адресов и классифицирует их по типу. Резидентные IP (принадлежащие домашним провайдерам) получают минимальный уровень проверки, потому что блокировка резидентного IP затронет реального пользователя.
Ключевое правило: не более 5-10 запросов с одного IP на один домен в минуту. При соблюдении этого лимита большинство Cloudflare-сайтов пропускают трафик без дополнительных проверок.
3. API для скрейпинга
Наиболее надёжный подход — использование специализированных API (например, FineData Scraper API), которые берут на себя:
- Управление пулом прокси
- Подстановку корректных TLS-отпечатков
- Решение JavaScript-челленджей
- Автоматические повторные попытки при блокировках
Вы просто отправляете URL и получаете готовые данные. Вся сложность обхода защиты скрыта за API.
4. Ожидание и тайминг
Cloudflare анализирует временные паттерны запросов. Реальный пользователь:
- Проводит время на странице (10-60 секунд)
- Переходит по ссылкам неравномерно
- Делает паузы между действиями
Добавление случайных задержек (3-10 секунд) между запросами существенно снижает вероятность блокировки.
5. Работа с cookies и сессиями
После успешного прохождения челленджа Cloudflare выдаёт cookie (cf_clearance), который действует ограниченное время. Сохраняйте и переиспользуйте эти cookies в рамках одной сессии — это избавит от необходимости проходить проверку заново.
Этика и легальность
Важно помнить:
- Собирайте только публичные данные — информацию, доступную любому посетителю без авторизации.
- Проверяйте robots.txt — если сайт явно запрещает скрейпинг определённых разделов, уважайте это.
- Не перегружайте серверы — ограничивайте частоту запросов, чтобы не влиять на работу сайта для других пользователей.
- Используйте данные ответственно — не собирайте персональные данные без законного основания.
Практический чек-лист
- Определите уровень защиты Cloudflare на целевом сайте
- Выберите инструмент: headless-браузер для небольших задач, API для масштабных
- Подключите резидентные прокси с ротацией
- Настройте задержки между запросами (3-10 секунд)
- Сохраняйте cookies для переиспользования в сессии
- Мониторьте процент успешных запросов и корректируйте стратегию
Нужны резидентные прокси для работы с Cloudflare-сайтами? InfraProxy предоставляет пулы IP с чистой репутацией и автоматической ротацией. Рассчитайте стоимость.
Нужны надёжные прокси для вашего проекта?
InfraProxy предоставляет серверные и резидентные прокси для российского бизнеса. Договор, постоплата, техподдержка.
Читайте также
Настройка прокси для мониторинга цен конкурентов
Пошаговое руководство по настройке прокси для мониторинга цен: ротация IP, geo-targeting, sticky-сессии, обход антибот-защит. Код на Python и bash.
РуководстваКак настроить прокси для RAG-пайплайна
Практическое руководство по настройке прокси для RAG-пайплайна: архитектура, код на Python, sticky-сессии, расписание обходов. InfraProxy, SOCKS5, 100 000+ IP.
РуководстваNo-code веб-скрейпинг: извлечение данных без программирования
Как настроить сбор данных в 2026 году без написания кода: API для скрейпинга, extract_rules, автоматизация через n8n и Make.com, батчевая обработка 100+ страниц.