El mismo sitio web muestra un desafío reCAPTCHA en inglés a un visitante y en japonés a otro. Un widget Cloudflare Turnstile muestra el texto de carga en el idioma del navegador. Algunos sitios ofrecen tipos de CAPTCHA completamente diferentes según la región detectada del visitante. Comprender cómo afecta la localización a los CAPTCHA le ayudará a manejarlos correctamente en la automatización.
Qué cambia con la configuración regional
| Proveedor de CAPTCHA | que localiza | que sigue igual |
|---|---|---|
| reCAPTCHA | Texto de la interfaz de usuario, etiquetas de imágenes, idioma del audio | Sitekey, flujo de verificación, formato de token |
| Turnstile | Mensajes de error y texto del widget | Sitekey, formato de token, mecanismo de resolución |
| hCaptcha | Instrucciones de desafío, etiquetas de categorías. | Clave de sitio, formato de token |
| Imagen/OCR | Juego de caracteres, idioma del texto. | Formato de imagen, enviar flujo /poll |
Cómo se detecta el lenguaje
Los proveedores de CAPTCHA determinan el idioma a través de varias señales:
1. Encabezado de idioma aceptado
Accept-Language: ja-JP,ja;q=0.9,en-US;q=0.8,en;q=0.7
Esto le dice al servidor: prefiera japonés (Japón), luego inglés (EE. UU.) y luego inglés genérico. reCAPTCHA y Turnstile usan esto para seleccionar el idioma de la interfaz de usuario.
2. Parámetro HTML hl
reCAPTCHA acepta un parámetro de idioma explícito cuando se carga:
<!-- Force English reCAPTCHA -->
<script src="https://www.google.com/recaptcha/api.js?hl=en"></script>
<!-- Force Japanese -->
<script src="https://www.google.com/recaptcha/api.js?hl=ja"></script>
El parámetro hl anula el encabezado Accept-Language. Al resolver, no es necesario que coincida con esto: CaptchaAI devuelve un token independientemente del idioma de la interfaz de usuario.
3. Ubicación geográfica de IP
Algunas configuraciones de CAPTCHA varían según la región:
| señal | Efecto |
|---|---|
| propiedad intelectual de china | Puede obtener GeeTest en lugar de reCAPTCHA (reCAPTCHA está bloqueado en China) |
| IP de la UE | Puede ver el consentimiento del RGPD antes del CAPTCHA |
| IP de región restringida | Puede recibir desafíos más estrictos |
4. Navegador navigator.language
Los CAPTCHA basados en JavaScript leen el idioma del navegador:
navigator.language // "en-US"
navigator.languages // ["en-US", "en", "ja"]
En los navegadores sin cabeza, estos utilizan de forma predeterminada la configuración regional del sistema. Configúrelos explícitamente para que coincidan con su objetivo:
// Playwright
const context = await browser.newContext({
locale: 'ja-JP',
});
// Puppeteer
const page = await browser.newPage();
await page.setExtraHTTPHeaders({
'Accept-Language': 'ja-JP,ja;q=0.9',
});
Impacto en la resolución
CAPTCHA basados en tokens (reCAPTCHA, Turnstile, hCaptcha)
La configuración de idioma afecta la UI pero no el token. El proceso de resolución de CaptchaAI es independiente del idioma:
- Envíe la clave del sitio y la URL de la página.
- CaptchaAI devuelve un token válido
- El token funciona independientemente del idioma que muestre el widget CAPTCHA
No se necesita ningún parámetro de idioma al llamar a CaptchaAI para CAPTCHA basados en tokens.
CAPTCHA de imagen
El idioma afecta directamente a los personajes de la imagen:
| Idioma del sitio | Contenido CAPTCHA | Parámetro de idioma CaptchaAI |
|---|---|---|
| ingles | "Ingrese el texto: XKCD42" | 0 (predeterminado/Latin) |
| ruso | "Введите текст: ШКАФ" | 1 (cirílico) o 2 |
| chino | "请输入验证码: 汉字" | 2 (no latino) |
| árabe | "أدخل النص: عربي" | 2 (no latino) |
| japonés | "文字を入力: ひらがな" | 2 (no latino) |
CAPTCHA de audio
Los desafíos de audio de reCAPTCHA se hablan en el idioma que coincide con el parámetro hl o el encabezado Accept-Language. CaptchaAI los maneja a través de su flujo de resolución reCAPTCHA estándar; el método de resolución no depende del lenguaje de audio.
Problemas comunes de localización
Idioma no coincidente entre el raspador y el objetivo
Si su raspador envía Accept-Language: en-US a un sitio japonés, el CAPTCHA puede mostrarse en inglés, lo cual está bien para los CAPTCHA basados en tokens, pero puede causar problemas si el sitio valida la coherencia del idioma.
Diferencias regionales entre proveedores de CAPTCHA
Algunos países utilizan diferentes proveedores de CAPTCHA:
| Región | Proveedores típicos |
|---|---|
| Mercados occidentales | reCAPTCHA, Turnstile, hCaptcha |
| China | GeeTest, Tencent CAPTCHA, imagen personalizada |
| Rusia/CIS | CAPTCHA de imágenes personalizadas, reCAPTCHA |
| Corea del Sur | Controles deslizantes personalizados, CAPTCHA de imágenes |
Solución de problemas
| Problema | causa | Solución |
|---|---|---|
| reCAPTCHA muestra un lenguaje diferente al esperado | Parámetro hl en la etiqueta de secuencia de comandos frente a discrepancia en el idioma de aceptación |
El token es independiente del idioma: no afecta la resolución |
| Imagen CAPTCHA caracteres incorrectos reconocidos | El parámetro de idioma no coincide con el script CAPTCHA | Configure language=2 para CAPTCHA no latinos |
| El sitio ofrece diferentes tipos de CAPTCHA por región | Selección de proveedores basada en IP geográfica | Utilice un proxy que coincida con la región de destino |
| El navegador sin cabeza muestra una configuración regional incorrecta | Configuración regional del sistema predeterminada utilizada | Establecer la configuración regional explícitamente en el contexto del navegador |
| CAPTCHA de audio en un lenguaje inesperado | El parámetro hl anula el encabezado |
No afecta la resolución basada en tokens CaptchaAI |
Preguntas frecuentes
¿Necesita CaptchaAI conocer el idioma de visualización del CAPTCHA?
Para CAPTCHA basados en tokens (reCAPTCHA, Turnstile, hCaptcha), no. El proceso de resolución es independiente del idioma. Para los CAPTCHA de Image/OCR, sí: configure el parámetro language para que coincida con el conjunto de caracteres que se muestra en la imagen.
¿Debo hacer coincidir mi encabezado Accept-Language con el sitio de destino?
Es una buena práctica para mantener la coherencia. Algunos sitios comprueban si hay discrepancias de idioma entre los encabezados y otras señales. Configure su encabezado Accept-Language para que coincida con el idioma principal del sitio para minimizar el riesgo de detección.
¿Puede la misma clave de sitio mostrar diferente dificultad CAPTCHA según la configuración regional?
Sí. Los proveedores de CAPTCHA pueden ajustar la dificultad según las puntuaciones de riesgo regionales. El tráfico desde ciertas regiones puede enfrentar desafíos más difíciles. Esto no afecta la resolución de CaptchaAI: la API maneja desafíos de cualquier dificultad.
Maneja CAPTCHA en cualquier idioma: obtén tu API key de CaptchaAI y configura los ajustes de idioma correctamente.
Guías relacionadas:
- Resolver CAPTCHA en sitios web chinos
- Resolver CAPTCHA en sitios web japoneses y coreanos