Как обрабатывать CAPTCHA при веб-скрейпинге в 2026 году
Обзор типов CAPTCHA (reCAPTCHA, hCaptcha, Turnstile), как они обнаруживают ботов, и стратегии работы с ними в пайплайнах сбора данных.
Команда InfraProxy
5 февраля 2026 г.
Почему CAPTCHA — проблема для скрейпинга
CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) — это тест, который отличает человека от бота. Для веб-скрейпинга это главное препятствие после IP-блокировок: даже если ваш запрос прошёл все проверки, CAPTCHA может остановить весь пайплайн.
В 2026 году CAPTCHA стали умнее — многие работают в фоновом режиме, без видимых головоломок.
Типы CAPTCHA
reCAPTCHA (Google)
Самая распространённая система. Три версии:
v2 («Я не робот») — классический чекбокс. При подозрении показывает картинки для выбора (светофоры, автобусы, пешеходные переходы). Анализирует поведение мыши при клике.
v3 (невидимая) — работает полностью в фоне. Присваивает каждому посетителю оценку от 0.0 до 1.0. Владелец сайта решает, при каком пороге блокировать. Анализирует:
- Движения мыши и клавиатуры
- Историю взаимодействий с сайтом
- Cookie и fingerprint браузера
Enterprise — расширенная версия с ML-моделями для каждого клиента и обнаружением сложных ботов.
hCaptcha
Альтернатива от Intuition Machines. Похожа на reCAPTCHA v2, но:
- Оплачивает владельцам сайтов за показ (в отличие от бесплатной reCAPTCHA)
- Используется Cloudflare, Discord и многими другими
- Задания: выбор объектов на картинках, текстовые задачи
Cloudflare Turnstile
Современная CAPTCHA от Cloudflare. Ключевые особенности:
- Работает без видимых заданий для большинства посетителей
- Анализирует поведение, TLS-отпечаток и среду браузера
- Интегрируется с остальной инфраструктурой Cloudflare
- Очень сложна для автоматического решения
GeeTest, FunCaptcha и другие
Менее распространённые, но встречаются на специализированных сайтах:
- GeeTest — скользящие пазлы, выбор иконок
- FunCaptcha — интерактивные 3D-задачи
- Yandex SmartCaptcha — используется на сервисах Яндекса
Как CAPTCHA обнаруживает ботов
До показа CAPTCHA
Система собирает данные ещё до того, как решит показать тест:
- TLS-отпечаток (JA3/JA4)
- JavaScript-среда (наличие WebGL, Canvas, AudioContext)
- Заголовки HTTP-запроса
- Cookie и история взаимодействий
Во время решения
Если показывается визуальный тест:
- Время от показа до решения (слишком быстро = бот)
- Траектория мыши при нажатии «Я не робот»
- Паттерн выбора изображений
После решения
- Проверка токена на стороне сервера
- Анализ частоты успешных решений с одного IP
Стратегии работы с CAPTCHA
1. Предотвращение (лучшая стратегия)
Самый эффективный подход — не допустить появления CAPTCHA:
- Резидентные прокси — снижают вероятность CAPTCHA на порядок. IP домашних провайдеров имеют высокий уровень доверия.
- Ротация IP — не более 5-10 запросов с одного адреса на один домен.
- Корректный TLS-стек — headless-браузер с реальным Chrome-отпечатком.
- Задержки — случайные паузы 3-10 секунд между запросами.
- Cookie-сессии — сохраняйте и переиспользуйте cookie после успешного прохождения.
При правильной настройке CAPTCHA не появляется в 95%+ случаев.
2. Сервисы решения CAPTCHA
Когда CAPTCHA всё-таки появляется:
Автоматические сервисы — ИИ-модели, которые решают визуальные задачи. Работают быстро (3-10 секунд), но не всегда точно.
Ручные сервисы — реальные люди решают CAPTCHA через API. Медленнее (15-30 секунд), но надёжнее.
Гибридные — сначала пробуют ИИ, при неудаче — передают человеку.
3. API для скрейпинга
Специализированные API (FineData Scraper API) берут решение CAPTCHA на себя:
- Встроенное решение reCAPTCHA, hCaptcha, Turnstile
- Автоматические повторные попытки
- Оплата только за успешный результат
4. Обход через API сайта
Некоторые сайты имеют мобильные API или партнёрские эндпоинты, которые не требуют CAPTCHA. Если такой API существует — это самый надёжный путь.
Стоимость решения CAPTCHA
- reCAPTCHA v2: 1-3 руб./решение
- hCaptcha: 2-5 руб./решение
- Turnstile: 5-15 руб./решение
- reCAPTCHA Enterprise: 10-30 руб./решение
При объёмах 10 000 CAPTCHA в день затраты составят 10 000-150 000 руб./мес. Поэтому предотвращение — всегда дешевле решения.
Рекомендации
- Инвестируйте в качественные резидентные прокси — это снижает CAPTCHA на 90%+
- Настройте правильный fingerprint браузера
- Соблюдайте тайминг и ротацию
- Используйте API для скрейпинга для сложных сайтов
- Мониторьте процент появления CAPTCHA — рост означает проблемы с прокси
Резидентные прокси InfraProxy минимизируют вероятность CAPTCHA благодаря IP-адресам реальных провайдеров с чистой репутацией. Рассчитайте стоимость.
Нужны надёжные прокси для вашего проекта?
InfraProxy предоставляет серверные и резидентные прокси для российского бизнеса. Договор, постоплата, техподдержка.
Читайте также
Настройка прокси для мониторинга цен конкурентов
Пошаговое руководство по настройке прокси для мониторинга цен: ротация IP, geo-targeting, sticky-сессии, обход антибот-защит. Код на Python и bash.
РуководстваКак настроить прокси для RAG-пайплайна
Практическое руководство по настройке прокси для RAG-пайплайна: архитектура, код на Python, sticky-сессии, расписание обходов. InfraProxy, SOCKS5, 100 000+ IP.
РуководстваNo-code веб-скрейпинг: извлечение данных без программирования
Как настроить сбор данных в 2026 году без написания кода: API для скрейпинга, extract_rules, автоматизация через n8n и Make.com, батчевая обработка 100+ страниц.