Si trabajas en reclutamiento o análisis de HR, seguramente te has encontrado con la situación: necesitas recopilar rápidamente más de 500 ofertas de trabajo de competidores, rastrear el mercado salarial o extraer contactos de empleadores, y las plataformas te bloquean después de 20-30 solicitudes. LinkedIn y HeadHunter protegen activamente sus datos, y sin el enfoque correcto, la extracción se convierte en una lucha interminable contra los CAPTCHA y los bloqueos.
En esta guía, analizaremos qué herramientas funcionan realmente en 2024, cómo configurar proxies para una recopilación de datos estable y qué errores evitar para no perder tu cuenta.
Por qué LinkedIn y HeadHunter bloquean la extracción
Ambas plataformas ganan dinero con los datos. LinkedIn vende acceso a su base a través de tarifas pagadas de Recruiter y Recruiter Lite, mientras que HeadHunter lo hace a través de API y publicaciones pagadas. Cuando alguien comienza a recopilar estos datos masivamente de forma gratuita, las plataformas reaccionan con dureza. Aquí están los mecanismos de protección específicos con los que te encontrarás:
Limitación de tasa — restricción de la frecuencia de solicitudes
LinkedIn rastrea la cantidad de vistas de perfiles y páginas de ofertas en un período de tiempo. Una cuenta gratuita puede ver alrededor de 300 perfiles al mes; después de eso, recibes una advertencia o un bloqueo temporal. Al realizar extracción automática sin pausas entre solicitudes, este límite se agota en cuestión de minutos. HeadHunter limita la cantidad de solicitudes de búsqueda desde una sola IP; al excederlo, muestra un CAPTCHA o bloquea temporalmente el acceso.
Análisis de comportamiento y User-Agent
Las plataformas analizan patrones de comportamiento: un usuario real desplaza la página, se detiene en el contenido y hace clic de manera no secuencial. Un bot hace solicitudes con intervalos iguales, no desplaza la página y envía encabezados atípicos. LinkedIn verifica adicionalmente la existencia de una sesión autorizada; sin iniciar sesión en la cuenta, ves datos limitados y rápidamente recibes un bloqueo por IP.
Bloqueo por dirección IP
Esta es la protección más común. Si desde una IP se realizan demasiadas solicitudes, esa IP entra en la lista negra. Las IP de centros de datos (AWS, Google Cloud, Hetzner) se bloquean especialmente rápido: las plataformas conocen estos rangos de direcciones y los consideran sospechosos. Las IP domésticas y móviles se bloquean con menos frecuencia, ya que pueden pertenecer a usuarios reales.
⚠️ Importante saber
LinkedIn en 2023 ha endurecido significativamente su protección: ahora, incluso al ver perfiles manualmente con VPN o proxies de centros de datos, la cuenta puede ser bloqueada. Para trabajar con LinkedIn, es crítico usar proxies residenciales o móviles.
Qué exactamente extraen los reclutadores y analistas de HR
Antes de configurar las herramientas, determina la tarea; de ella depende la elección del enfoque y el tipo de proxy. Aquí están los principales escenarios con los que trabajan los especialistas en HR y las agencias de reclutamiento:
| Tarea | Plataforma | Volumen de datos |
|---|---|---|
| Monitoreo de salarios en el mercado | HeadHunter, LinkedIn | 500–5000 ofertas/día |
| Recopilación de contactos de empleadores | 100–1000 perfiles/día | |
| Análisis de requisitos para candidatos | HeadHunter, LinkedIn | 1000–10 000 ofertas |
| Seguimiento de nuevas ofertas de competidores | HeadHunter | Monitoreo diario |
| Búsqueda de candidatos pasivos | 50–500 perfiles/día |
Un punto clave: las tareas con un gran volumen de datos (miles de ofertas al día) requieren un grupo de proxies con rotación. Las tareas con un volumen pequeño (monitoreo de 50-100 posiciones diariamente) se pueden resolver con 1-2 proxies estáticos, siempre que se respeten las pausas entre solicitudes.
Herramientas listas para la extracción de ofertas de trabajo
La buena noticia: no necesitas escribir código desde cero. Existen soluciones listas para diferentes tareas y niveles de preparación técnica. Analicemos las principales categorías.
Herramientas sin código (no programación)
Apify — plataforma en la nube con "actores" listos para LinkedIn y HeadHunter. Hay un LinkedIn Jobs Scraper y un HH.ru Scraper listos. Solo indicas los parámetros de búsqueda, la plataforma hace el resto. Soporta la conexión de proxies propios. Tarifas desde $49/mes, hay un límite gratuito.
Phantombuster — se especializa en LinkedIn. Puede recopilar ofertas, perfiles y contactos de empresas. Funciona a través de una cuenta autorizada de LinkedIn. Soporta proxies. Importante: una cuenta de LinkedIn = un perfil de proxy, de lo contrario recibirás un baneo por cambio de IP.
Octoparse — constructor visual de parsers. Permite configurar la recopilación de datos de cualquier sitio sin código, indicando los elementos necesarios con el ratón. Soporta rotación de proxies. Adecuado para HeadHunter — la interfaz es simple y comprensible.
Herramientas para usuarios técnicos
ParseHub — aplicación de escritorio con interfaz visual, pero más flexible que Octoparse. Puede trabajar con contenido dinámico (páginas JavaScript). Para LinkedIn esto es crítico: la mayoría de los datos se cargan dinámicamente.
Bright Data (Web Scraper IDE) — plataforma profesional con proxies integrados. Hay plantillas listas para LinkedIn. Caro, pero confiable para volúmenes industriales.
HH.ru API — API oficial de HeadHunter. Gratuito para uso no comercial, de pago para negocios. Si tu tarea es monitorear ofertas, y no recopilar contactos masivamente, la API oficial es la opción más estable. Límites: 50 solicitudes por segundo para aplicaciones autorizadas.
💡 Consejo
Para HeadHunter, comienza con la API oficial: es legal, estable y gratuita hasta ciertos límites. Para LinkedIn, no puedes prescindir de herramientas externas y proxies, ya que no hay API pública oficial para ofertas.
Por qué se necesitan proxies y qué tipo elegir
Un proxy es un servidor intermedio a través del cual pasan tus solicitudes. La plataforma ve la IP del proxy, no tu dirección real. Al rotar proxies (cambio automático de IP), cada solicitud parece provenir de un nuevo usuario, lo que permite eludir límites y bloqueos.
Pero no todos los proxies son igualmente efectivos para LinkedIn y HeadHunter. La elección del tipo de proxy influye críticamente en el resultado:
| Tipo de proxy | HeadHunter | Velocidad | Precio | |
|---|---|---|---|---|
| Residenciales | ✅ Excelente | ✅ Excelente | Media | $$ |
| Móviles | ✅ Excelente | ✅ Bueno | Media | $$$ |
| Centros de datos | ❌ Frecuentemente bloqueados | ⚠️ Moderadamente | Alta | $ |
Proxies residenciales — la mejor opción para LinkedIn
Los proxies residenciales utilizan direcciones IP reales de usuarios domésticos. Desde la perspectiva de LinkedIn, esto es un usuario normal en casa. Estas IP rara vez entran en listas negras, y la plataforma no puede diferenciarlas de un usuario real. Para la extracción de LinkedIn, esto es el estándar de la industria.
Parámetros clave al elegir proxies residenciales para la extracción de ofertas:
- Geolocalización: elige IP del país cuyas ofertas estás extrayendo (para HeadHunter — Rusia, para LinkedIn — el país necesario)
- Rotación: cambio automático de IP después de cada solicitud o por temporizador
- Piscina de IP: cuanto más grande, mejor, reduce el riesgo de reutilización de IP bloqueadas
- Soporte para HTTP/HTTPS y SOCKS5 — la mayoría de las herramientas de extracción requieren estos protocolos
Proxies móviles — para trabajar con cuentas de LinkedIn
Si estás extrayendo LinkedIn a través de una cuenta autorizada (como funciona Phantombuster), los proxies móviles ofrecen una ventaja adicional: LinkedIn ve al operador móvil como fuente y confía aún más en estas IP. Una IP móvil puede servir a miles de usuarios reales (detrás del NAT del operador), por lo que incluso una alta actividad desde ella no despierta sospechas.
Proxies de centros de datos — solo para HeadHunter
Los proxies de centros de datos son rápidos y baratos, pero LinkedIn los bloquea agresivamente. Para HeadHunter funcionan mejor: la plataforma es menos paranoica con las IP de centros de datos, especialmente si se respetan las pausas entre solicitudes. Son adecuados para monitorear ofertas en HH con un presupuesto y volúmenes pequeños.
Extracción de LinkedIn: configuración paso a paso
LinkedIn es la plataforma más complicada para la extracción. Aquí es importante actuar con cuidado para no perder tu cuenta. Analicemos un esquema de trabajo usando Phantombuster, una de las herramientas más populares entre los reclutadores.
Paso 1: Prepara tu cuenta de LinkedIn
Nunca uses tu cuenta de trabajo principal para la extracción. Crea una cuenta separada o usa una secundaria. Si se bloquea, no perderás conexiones valiosas e historial. La cuenta debe estar "calentada": perfil completo, varios contactos, al menos una semana de actividad antes de comenzar la extracción.
Paso 2: Vincula el proxy a la cuenta
Regla crítica: una cuenta de LinkedIn = una dirección IP. Si hoy inicias sesión con la IP 1 y mañana con la IP 2, eso es una señal de alerta para el sistema de seguridad de LinkedIn. Usa un proxy residencial estático (sesión fija) para cada cuenta.
En Phantombuster, la configuración del proxy se ve así:
- Ve a Settings → Proxies en tu cuenta de Phantombuster
- Haz clic en Add Proxy
- Ingresa los datos del proxy: host, puerto, usuario, contraseña
- Selecciona el tipo: HTTP o SOCKS5 (depende de tu proveedor de proxies)
- Haz clic en Test Proxy — asegúrate de que el proxy funcione
- Asigna este proxy a un "fantasma" específico (tarea) que trabaja con tu cuenta
Paso 3: Configura la exportación de trabajos de LinkedIn
En Phantombuster, busca el fantasma "LinkedIn Jobs Search Export". Configuraciones:
- Search URL: inserta la URL de búsqueda de ofertas de LinkedIn con los filtros necesarios (posición, ciudad, tipo de empleo)
- Number of jobs per launch: comienza con 25-50. No pongas 500 desde el primer día
- Launch frequency: 1 vez cada 2-3 horas. No inicies continuamente
- Session cookie: copia la cookie li_at de tu navegador (hay instrucciones en Phantombuster)
Paso 4: Configura límites seguros
LinkedIn bloquea por agresividad, no por el hecho de extraer. Límites seguros para una cuenta:
- No más de 80-100 vistas de ofertas al día
- Pausa entre solicitudes: mínimo 3-5 segundos
- Haz pausas durante la noche (imita el comportamiento humano)
- No inicies la extracción durante los fines de semana — esto se ve sospechoso para una plataforma B2B
⚠️ Si necesitas un gran volumen de datos de LinkedIn
Si necesitas extraer miles de ofertas al día, usa varias cuentas, cada una con su proxy residencial. Una cuenta + una IP = máximo 100 ofertas al día sin riesgo de bloqueo. 10 cuentas × 100 = 1000 ofertas al día.
Extracción de HeadHunter: características y configuración
HeadHunter es más fácil que LinkedIn en términos de extracción por dos razones: hay una API oficial y la protección es menos agresiva. Pero al recopilar datos masivamente sin la configuración correcta, aún recibirás un bloqueo.
Opción 1: API oficial de HeadHunter (recomendada)
Si tu tarea es monitorear ofertas y analizar el mercado (sin recopilar contactos), usa la API oficial de hh.ru. Esto es completamente legal y proporciona acceso estable a los datos.
- Registra la aplicación en dev.hh.ru
- Obtén client_id y client_secret
- Usa el endpoint GET /vacancies para buscar ofertas
- Parámetros de filtrado: text, area (región), salary, experience, schedule
- Límite: 50 solicitudes por segundo para aplicaciones autorizadas
El resultado llega en formato JSON — es fácil cargarlo en Excel o Google Sheets a través de herramientas como Zapier o Make (anteriormente Integromat) sin necesidad de escribir código.
Opción 2: Extracción a través de Apify (sin código)
Si necesitas datos que no están en la API oficial (por ejemplo, contactos de empleadores o datos en un formato no estándar), usa Apify con un actor listo para HH.ru:
- Ve a apify.com y busca el actor "HH.ru Scraper"
- Haz clic en Try for free
- En la configuración, indica la consulta de búsqueda (posición, ciudad)
- En la sección Proxy configuration, selecciona "Custom proxies" e inserta los datos de tus proxies
- Para HeadHunter, son adecuados los proxies residenciales con IP rusas — la plataforma es regional
- Haz clic en Start y espera los resultados
- Exporta los datos en CSV, JSON o Excel
Opción 3: Octoparse para tareas avanzadas
Octoparse permite configurar la extracción de cualquier elemento de la página HH.ru — incluyendo aquellos que no están en la API. Por ejemplo, se pueden recopilar descripciones de ofertas completas, datos de contacto (si son visibles), enlaces a empresas.
- Descarga e instala Octoparse
- Crea una nueva tarea, inserta la URL de búsqueda de ofertas en hh.ru
- Usa el modo Auto-detect — Octoparse determinará automáticamente la estructura de la lista
- Verifica que todos los campos necesarios estén seleccionados (título, empresa, salario, ciudad)
- En la configuración de la tarea, activa IP Rotation y añade tus proxies
- Establece una pausa entre solicitudes: 2-4 segundos
- Ejecuta en la nube (Cloud Extraction) para una recopilación continua
💡 Geolocalización de proxies para HeadHunter
HeadHunter determina la región del usuario por IP y muestra ofertas regionales. Si deseas extraer ofertas de una ciudad específica (por ejemplo, solo Moscú o San Petersburgo), usa proxies con IP de esa región. Para monitoreo general en Rusia, basta con cualquier IP rusa.
Errores comunes y cómo evitarlos
La mayoría de los problemas al extraer de LinkedIn y HeadHunter surgen de los mismos errores. Aquí tienes una lista de verificación de lo que no se debe hacer:
❌ Error 1: Usar una sola IP para todo
El error más común de los principiantes es iniciar la extracción desde su IP doméstica o desde un solo proxy. Tan pronto como la plataforma detecte actividad anómala, la IP se bloquea para siempre. Solución: proxies rotativos con cambio automático de IP o un grupo de varios proxies estáticos.
❌ Error 2: Velocidad de solicitudes demasiado alta
Extraer 1000 páginas en 10 minutos es un camino seguro hacia un baneo. Un usuario real no puede ver páginas a tal velocidad. Establece pausas: mínimo 2-3 segundos entre solicitudes para HeadHunter, 5-10 segundos para LinkedIn. Añade variación aleatoria a la pausa (no exactamente 3 segundos, sino de 2 a 5 — esto imita a un humano).
❌ Error 3: Cambio de IP para la cuenta de LinkedIn
Si usas proxies rotativos para trabajar con una cuenta autorizada de LinkedIn, cada solicitud proviene de una nueva IP. LinkedIn lo ve como un hackeo de cuenta (alguien se conecta desde diferentes lugares) y la bloquea. Para sesiones autorizadas, usa solo proxies estáticos (IP fija por un tiempo prolongado) o proxies residenciales estáticos.
❌ Error 4: Ignorar el User-Agent
User-Agent es la cadena que el navegador envía al servidor, identificándose. Muchas herramientas de extracción envían por defecto un User-Agent como "python-requests/2.28.0" — esto revela instantáneamente que es un bot. Configura un User-Agent realista de un navegador moderno. En Apify y Phantombuster esto se hace automáticamente, en Octoparse — en la configuración de la tarea.
❌ Error 5: Extracción sin verificar robots.txt
LinkedIn prohíbe la extracción en su robots.txt y demanda activamente a las empresas que lo hacen a gran escala. Esto no significa que no se puedan recopilar datos para análisis personal, pero es importante entender los riesgos legales en el uso comercial. HeadHunter es más tolerante, especialmente si se utiliza la API oficial.
❌ Error 6: Proxies públicos baratos
Proxies gratuitos o muy baratos de listas públicas son una trampa. Ya están bloqueados por la mayoría de las plataformas, funcionan de manera inestable y a menudo interceptan datos. Para un trabajo serio, se necesitan proxies de pago de proveedores confiables con IP residenciales o móviles reales.
Lista de verificación antes de iniciar la extracción
- ✅ Se utiliza una cuenta separada (no la principal de trabajo)
- ✅ Se han conectado proxies residenciales o móviles
- ✅ Para LinkedIn: una cuenta = una IP fija
- ✅ Se han configurado pausas entre solicitudes (mínimo 3 seg)
- ✅ User-Agent configurado como el de un navegador real
- ✅ Límite diario de solicitudes limitado a valores razonables
- ✅ Proxies probados antes de iniciar
- ✅ Geolocalización de proxies correspondiente a la región objetivo
Conclusión
La extracción de ofertas de trabajo de LinkedIn y HeadHunter es una herramienta efectiva para reclutadores, analistas de HR e investigadores del mercado laboral. Lo principal es elegir el enfoque correcto: para HeadHunter, comienza con la API oficial; para LinkedIn, utiliza herramientas especializadas como Phantombuster o Apify con proxies correctamente configurados.
Conclusiones clave de la guía: LinkedIn requiere proxies residenciales o móviles con IP fija por cuenta, HeadHunter es menos estricto, pero también necesita proxies para grandes volúmenes. Respeta los límites de solicitudes, imita el comportamiento humano y nunca uses tu cuenta principal para la automatización.
Si planeas un monitoreo regular de ofertas o una recopilación masiva de datos de LinkedIn, te recomendamos usar proxies residenciales — proporcionan la máxima compatibilidad con ambas plataformas y el mínimo riesgo de bloqueos incluso con un uso prolongado.