Все статьиРуководства9 мин

Как обрабатывать CAPTCHA при веб-скрейпинге в 2026 году

Обзор типов CAPTCHA (reCAPTCHA, hCaptcha, Turnstile), как они обнаруживают ботов, и стратегии работы с ними в пайплайнах сбора данных.

Команда InfraProxy

5 февраля 2026 г.

#CAPTCHA#reCAPTCHA#hCaptcha#Turnstile#антибот#прокси

Почему CAPTCHA — проблема для скрейпинга

CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) — это тест, который отличает человека от бота. Для веб-скрейпинга это главное препятствие после IP-блокировок: даже если ваш запрос прошёл все проверки, CAPTCHA может остановить весь пайплайн.

В 2026 году CAPTCHA стали умнее — многие работают в фоновом режиме, без видимых головоломок.

Типы CAPTCHA

reCAPTCHA (Google)

Самая распространённая система. Три версии:

v2 («Я не робот») — классический чекбокс. При подозрении показывает картинки для выбора (светофоры, автобусы, пешеходные переходы). Анализирует поведение мыши при клике.

v3 (невидимая) — работает полностью в фоне. Присваивает каждому посетителю оценку от 0.0 до 1.0. Владелец сайта решает, при каком пороге блокировать. Анализирует:

  • Движения мыши и клавиатуры
  • Историю взаимодействий с сайтом
  • Cookie и fingerprint браузера

Enterprise — расширенная версия с ML-моделями для каждого клиента и обнаружением сложных ботов.

hCaptcha

Альтернатива от Intuition Machines. Похожа на reCAPTCHA v2, но:

  • Оплачивает владельцам сайтов за показ (в отличие от бесплатной reCAPTCHA)
  • Используется Cloudflare, Discord и многими другими
  • Задания: выбор объектов на картинках, текстовые задачи

Cloudflare Turnstile

Современная CAPTCHA от Cloudflare. Ключевые особенности:

  • Работает без видимых заданий для большинства посетителей
  • Анализирует поведение, TLS-отпечаток и среду браузера
  • Интегрируется с остальной инфраструктурой Cloudflare
  • Очень сложна для автоматического решения

GeeTest, FunCaptcha и другие

Менее распространённые, но встречаются на специализированных сайтах:

  • GeeTest — скользящие пазлы, выбор иконок
  • FunCaptcha — интерактивные 3D-задачи
  • Yandex SmartCaptcha — используется на сервисах Яндекса

Как CAPTCHA обнаруживает ботов

До показа CAPTCHA

Система собирает данные ещё до того, как решит показать тест:

  • TLS-отпечаток (JA3/JA4)
  • JavaScript-среда (наличие WebGL, Canvas, AudioContext)
  • Заголовки HTTP-запроса
  • Cookie и история взаимодействий

Во время решения

Если показывается визуальный тест:

  • Время от показа до решения (слишком быстро = бот)
  • Траектория мыши при нажатии «Я не робот»
  • Паттерн выбора изображений

После решения

  • Проверка токена на стороне сервера
  • Анализ частоты успешных решений с одного IP

Стратегии работы с CAPTCHA

1. Предотвращение (лучшая стратегия)

Самый эффективный подход — не допустить появления CAPTCHA:

  • Резидентные прокси — снижают вероятность CAPTCHA на порядок. IP домашних провайдеров имеют высокий уровень доверия.
  • Ротация IP — не более 5-10 запросов с одного адреса на один домен.
  • Корректный TLS-стек — headless-браузер с реальным Chrome-отпечатком.
  • Задержки — случайные паузы 3-10 секунд между запросами.
  • Cookie-сессии — сохраняйте и переиспользуйте cookie после успешного прохождения.

При правильной настройке CAPTCHA не появляется в 95%+ случаев.

2. Сервисы решения CAPTCHA

Когда CAPTCHA всё-таки появляется:

Автоматические сервисы — ИИ-модели, которые решают визуальные задачи. Работают быстро (3-10 секунд), но не всегда точно.

Ручные сервисы — реальные люди решают CAPTCHA через API. Медленнее (15-30 секунд), но надёжнее.

Гибридные — сначала пробуют ИИ, при неудаче — передают человеку.

3. API для скрейпинга

Специализированные API (FineData Scraper API) берут решение CAPTCHA на себя:

  • Встроенное решение reCAPTCHA, hCaptcha, Turnstile
  • Автоматические повторные попытки
  • Оплата только за успешный результат

4. Обход через API сайта

Некоторые сайты имеют мобильные API или партнёрские эндпоинты, которые не требуют CAPTCHA. Если такой API существует — это самый надёжный путь.

Стоимость решения CAPTCHA

  • reCAPTCHA v2: 1-3 руб./решение
  • hCaptcha: 2-5 руб./решение
  • Turnstile: 5-15 руб./решение
  • reCAPTCHA Enterprise: 10-30 руб./решение

При объёмах 10 000 CAPTCHA в день затраты составят 10 000-150 000 руб./мес. Поэтому предотвращение — всегда дешевле решения.

Рекомендации

  1. Инвестируйте в качественные резидентные прокси — это снижает CAPTCHA на 90%+
  2. Настройте правильный fingerprint браузера
  3. Соблюдайте тайминг и ротацию
  4. Используйте API для скрейпинга для сложных сайтов
  5. Мониторьте процент появления CAPTCHA — рост означает проблемы с прокси

Резидентные прокси InfraProxy минимизируют вероятность CAPTCHA благодаря IP-адресам реальных провайдеров с чистой репутацией. Рассчитайте стоимость.

Нужны надёжные прокси для вашего проекта?

InfraProxy предоставляет серверные и резидентные прокси для российского бизнеса. Договор, постоплата, техподдержка.