부동산 시장 분석을 하고 있다면 - 부동산 중개업체, 투자자 또는 분석가 - 아마도 같은 문제에 직면했을 것입니다: ЦИАН, Домклик 및 야ндекс 부동산은 수십 페이지 후에 대량 요청을 차단합니다. 프록시 없이 актуальная 데이터베이스를 수집하는 것은 거의 불가능합니다. 이 기사에서는 어떤 프록시를 선택하고, 어떻게 설정하며, 데이터 수집의 안정적인 프로세스를 구축하는지에 대해 설명합니다.
왜 ЦИАН, Домклик 및 야ндекс가 파싱을 차단하는가
세 플랫폼 모두 유료 분석에 대한 상업적 집계기입니다. ЦИАН은 분석 보고서에 대한 구독을 판매하고, 야ндекс 부동산은 광고 게재를 통해 수익을 창출하며, Домклик(스베르뱅크)은 데이터를 주택담보대출 상품에 사용합니다. 대량 파싱은 그들의 비즈니스 모델에 직접적인 타격을 주기 때문에 세 서비스 모두 자동 요청으로부터 적극적으로 방어하고 있습니다.
프록시 없이 데이터를 수집하려고 할 때 발생하는 일은 다음과 같습니다:
- IP 차단 - 한 주소에서 50-200개의 요청 후 사이트는 응답을 중단하거나 403/429 오류를 반환합니다.
- CAPTCHA - 특히 ЦИАН에서 공격적으로 적용됩니다: 야ндекс SmartCaptcha는 몇 페이지의 목록 후에 나타납니다.
- 응답 지연 - 서버는 데이터 수집 속도를 줄이기 위해 의도적으로 응답을 지연시킵니다.
- 데이터 변조 - 드물게 플랫폼은 "쓰레기" 데이터를 봇에게 제공하여 데이터베이스를 손상시킵니다.
- User-Agent 차단 - 파서의 표준 헤더는 쉽게 감지되고 차단됩니다.
상황은 ЦИАН이 최근 몇 년 동안 보안을 크게 강화했기 때문에 더욱 악화됩니다: 이제 그들은 IP뿐만 아니라 행동 패턴도 분석합니다 - 스크롤 속도, 요청 간 시간, 페이지 열람 순서. 이는 단순히 IP를 변경하는 것으로는 부족하다는 것을 의미합니다 - 종합적인 설정이 필요합니다.
중요한 점:
이 플랫폼의 차단은 누적 방식으로 작동합니다. 처음 100개의 요청은 정상적으로 통과할 수 있지만, 이후 IP는 24-72시간 동안 블랙리스트에 올라갑니다. 그렇기 때문에 프록시 회전은 선택 사항이 아니라 안정적인 작업을 위한 필수 조건입니다.
부동산 시장 전문가들이 수집하는 데이터
기술적인 측면에 대해 이야기하기 전에, 이러한 플랫폼을 파싱하는 이유와 실제로 해결하는 문제를 이해해 봅시다. 목표를 이해하는 것은 도구와 프록시 유형 선택에 직접적인 영향을 미칩니다.
부동산 중개업체 및 개발업체
경쟁자의 광고 데이터베이스를 수집합니다: 지역별 제곱미터당 가격, 가격 변화의 동향, 물건의 평균 노출 시간. 이는 자사의 물건을 올바르게 포지셔닝하고 가격 정책을 형성하는 데 도움이 됩니다. 대형 중개업체는 매일 수천 개의 광고를 모니터링합니다 - 수작업으로는 불가능합니다.
부동산 투자자
판매 가격과 임대 가격의 비율(수익률)을 분석하고, 저평가된 물건을 찾으며, 할인된 새로운 광고의 출현을 추적합니다. 투자자에게는 속도가 중요합니다 - 시장 가격보다 낮은 광고는 몇 시간 안에 사라지므로 실시간 모니터링이 필요합니다.
분석가 및 마케팅 전문가
시장 상태에 대한 보고서를 작성하고, 고객을 위한 프레젠테이션을 준비하며, 세그먼트별 수요를 조사합니다(스튜디오, 이인용 아파트, 전원 주택). 그들은 역사적 데이터가 필요합니다 - 특정 지역 및 물건 유형에 대한 3-6-12개월 가격 동향.
데이터 수집을 위한 일반적인 필드
| 필드 | 출처 | 용도 |
|---|---|---|
| 광고 가격 | ЦИАН, Домклик, 야ндекс | 가격 범위 분석 |
| 면적, 층, 주택 유형 | ЦИАН, Домклик | 세분화 및 필터링 |
| 지역, 지하철, 주소 | 세 플랫폼 모두 | 지리 분석 |
| 게시 및 업데이트 날짜 | ЦИАН, 야ндекс | 노출 시간 |
| 물건 사진 | 세 플랫폼 모두 | 품질 분석 |
| 판매자 연락처 | ЦИАН(부분적으로) | 고객 데이터베이스 형성 |
부동산 파싱에 적합한 프록시
프록시 유형 선택은 차단과 싸울 것인지 아니면 필요한 데이터베이스를 조용히 수집할 것인지에 따라 결정되는 핵심적인 결정입니다. ЦИАН, Домклик 및 야ндекс 부동산의 파싱 작업에 적용할 수 있는 세 가지 주요 옵션을 살펴보겠습니다.
레지던셜 프록시 - ЦИАН에 최적의 선택
레지던셜 프록시는 실제 가정 사용자들의 IP 주소를 사용합니다 - 이러한 주소는 플랫폼에서 일반 트래픽으로 인식됩니다. ЦИАН 또는 야ндекс의 관점에서 요청은 집에서 광고를 스크롤하는 일반 사람처럼 보입니다. 이는 레지던셜 프록시를 표준 보호 방법으로 거의 탐지할 수 없게 만듭니다.
주요 장점은 IP 주소의 큰 풀로, 각 요청 또는 각 페이지 후에 회전할 수 있습니다. 단점은 데이터 센터 프록시보다 속도가 약간 느리고 가격이 더 비쌉니다. 부동산 파싱에서는 안정성이 속도보다 더 중요하므로 최적의 선택입니다.
모바일 프록시 - 강력한 보호가 필요한 경우
모바일 프록시는 모바일 운영자의 IP 주소(MTS, Beeline, MegaFon)입니다. 그들의 특징은 하나의 모바일 IP가 NAT를 통해 수백 명의 실제 사용자에 의해 동시에 사용될 수 있다는 것입니다. 이로 인해 플랫폼은 모바일 주소를 차단하는 경우가 극히 드뭅니다 - 하나의 IP를 차단하는 것은 수백 명의 실제 사람을 차단하는 것이므로 비즈니스 관점에서 용납될 수 없습니다.
ЦИАН이 이미 작업 패턴을 "기억"하고 레지던셜 주소조차 차단하는 경우 모바일 프록시를 사용하는 것이 좋습니다. 이는 탐지에 가장 강한 옵션이지만 가장 비쌉니다.
데이터 센터 프록시 - 대량 작업 시 주의
데이터 센터 프록시는 빠르고 저렴하지만 쉽게 탐지됩니다. ЦИАН과 야ндекс는 이미 대부분의 인기 있는 데이터 센터 서브넷을 블랙리스트에 올렸습니다. 2024년에 ЦИАН을 파싱하는 데 사용하면 차단에 계속 직면하고 풀을 변경하는 데 시간을 낭비하게 됩니다.
데이터 센터 프록시는 Домклик에 적합할 수 있으며, 이는 약간 덜 공격적인 보호를 가지고 있거나 주요 파서를 설정하기 전에 페이지 구조를 미리 테스트하는 데 사용할 수 있습니다.
| 프록시 유형 | ЦИАН | Домклик | 야ндекс 부동산 | 비용 |
|---|---|---|---|---|
| 레지던셜 | ✅ 훌륭함 | ✅ 훌륭함 | ✅ 훌륭함 | 중간 |
| 모바일 | ✅ 훌륭함 | ✅ 훌륭함 | ✅ 훌륭함 | 높음 |
| 데이터 센터 | ❌ 차단됨 | ⚠️ 부분적으로 | ❌ 차단됨 | 낮음 |
ЦИАН을 위한 프록시 설정: 단계별 분석
ЦИАН은 세 플랫폼 중 기술적으로 가장 복잡한 플랫폼입니다. 여기에는 IP에 대한 속도 제한, 행동 분석, 야ндекс SmartCaptcha 및 브라우저 헤더 검사와 같은 다단계 보호가 사용됩니다. 올바른 작업 방식을 구축하는 방법을 설명하겠습니다.
1단계. 러시아 IP가 있는 프록시를 받으세요
ЦИАН은 러시아 플랫폼이며, 해외 IP에서의 요청은 즉시 의심을 불러일으킵니다. 귀하의 레지던셜 프록시가 러시아 지리적 위치를 가지고 있는지 확인하십시오 - 가능하면 모스크바 또는 상트페테르부르크가 좋습니다. 대부분의 광고가 바로 그곳에 집중되어 있습니다. 공급자를 선택할 때 러시아 레지던셜 IP가 풀에 있는지 확인하십시오.
2단계. IP 회전을 설정하십시오
ЦИАН의 경우 요청마다 IP를 5-10회 변경하는 것이 좋습니다. 대부분의 레지던셜 프록시 공급자는 회전하는 엔드포인트를 제공합니다 - 하나의 주소와 포트가 있으며, 매번 연결할 때마다 새로운 IP를 자동으로 제공합니다. 이는 설정을 크게 단순화합니다: 주소 간에 수동으로 전환할 필요가 없습니다.
3단계. 요청 간 지연을 설정하십시오
프록시를 사용하더라도 최대 속도로 요청을 보내는 것은 좋지 않습니다. 실제 사람은 페이지를 보는 데 5-30초를 소요합니다. 이 행동을 모방하십시오: 요청 간 3-8초의 지연은 차단 위험을 크게 줄입니다. 준비된 파서나 노코드 도구를 사용하는 경우 - 매개변수에서 "지연" 또는 "delay" 설정을 찾으십시오.
4단계. 요청 헤더를 올바르게 설정하십시오
ЦИАН은 HTTP 헤더를 분석합니다. User-Agent 없이 요청하거나 "python-requests/2.28" 헤더로 요청하면 즉시 봇으로 식별됩니다. 최신 브라우저(Chrome, Firefox)의 실제 User-Agent 문자열을 사용하십시오. 또한 Accept-Language (ru-RU), Referer 및 Accept-Encoding 헤더를 전달하는 것이 중요합니다 - 이는 요청을 브라우저와 유사하게 만듭니다.
5단계. 페이지네이션을 순차적으로 작업하십시오
페이지 50 또는 100으로 바로 점프하지 마십시오 - 이는 비정상적인 행동입니다. 첫 페이지에서 시작하여 순차적으로 다음 페이지로 이동하십시오. 여러 도시의 데이터를 수집해야 하는 경우 - 각 지역에서 작업하는 여러 개의 병렬 세션을 시작하는 것이 좋습니다.
Домклик 및 야ндекс 부동산 파싱의 특징
Домклик (스베르뱅크)
Домклик은 ЦИАН보다 더 관대한 보호를 가지고 있지만, 그렇다고 해서 파싱이 간단하다는 의미는 아닙니다. 이 플랫폼은 API를 통해 데이터의 동적 로딩을 사용합니다 - 즉, HTML 페이지를 다운로드하는 것만으로는 충분하지 않습니다: 광고 데이터는 내부 API에 대한 JavaScript 요청을 통해 로드됩니다.
좋은 소식은 Домклик의 API가 JSON 형식으로 데이터를 반환하여 HTML 분석보다 파싱하기에 훨씬 편리하다는 것입니다. 나쁜 소식은 API 요청도 IP에 따라 추적되며, 한 주소에서 많은 요청을 보내면 일시적인 차단을 받을 수 있다는 것입니다.
Домклик에 대한 권장 접근 방식: 요청마다 15-20회 회전하는 레지던셜 프록시를 사용하는 것입니다. 이는 지속적으로 데이터를 안정적으로 수집할 수 있게 해줍니다.
야ндекс 부동산
야ндекс 부동산은 보호 우회를 고려할 때 아마도 가장 복잡한 플랫폼일 것입니다. 그 이유는 간단합니다: 야ндекс는 생태계 전체에 통합된 자체 봇 방지 보호 인프라를 사용합니다. 야ндекс의 SmartCaptcha는 러시아 시장에서 가장 발전된 시스템 중 하나입니다.
야ндекс는 IP뿐만 아니라 쿠키, 브라우저 지문, 세션 기록도 분석합니다. 이는 야ндекс 부동산을 안정적으로 파싱하기 위해서는 완전한 헤드리스 브라우저(Playwright, Puppeteer)를 사용하거나 이미 야ндекс 보호 우회를 내장한 전문 파싱 서비스를 통해 작업해야 함을 의미합니다.
실무 팁:
세 플랫폼 모두에서 데이터를 수집해야 하는 경우, Домклик에서 시작하는 것이 좋습니다 - 안정적인 수집을 설정하기 가장 쉽습니다. ЦИАН과 야ндекс 부동산의 데이터는 종종 겹치므로, Домклик은 불필요한 복잡성 없이 시장의 상당 부분을 커버할 수 있습니다.
코드 없이 파싱을 위한 준비된 도구
프로그래머가 아니지만 부동산 데이터를 수집하고 싶다면 - 프록시 연결을 지원하고 코드 작성을 요구하지 않는 몇 가지 준비된 솔루션이 있습니다.
Octoparse
프록시를 지원하는 시각적 파서 생성기입니다. 필요한 페이지 요소를 클릭하고 수집할 내용을 지정하면 프로그램이 자동으로 파싱 로직을 구축합니다. 외부 프록시 연결을 지원하며 - 설정에서 주소, 포트, 로그인 및 비밀번호를 입력하기만 하면 됩니다. Домклик에서 잘 작동합니다.
ParseHub
더 간단한 인터페이스를 가진 유사한 도구입니다. JavaScript가 있는 동적 페이지를 지원합니다 - 이는 Домклик 및 야ндекс 부동산에 중요합니다. 프록시는 프로젝트 설정에서 연결됩니다. 무료 플랜은 페이지 수에 제한이 있으며, 심각한 모니터링을 위해서는 유료 버전이 필요합니다.
Apify
준비된 "액터"(파서 템플릿)가 있는 클라우드 파싱 플랫폼입니다. 부동산 집계기를 위한 준비된 솔루션이 있습니다. 설정을 통해 자체 프록시 연결을 지원합니다. 클라우드에서 작동하므로 장기간 모니터링을 위해 컴퓨터를 켜둘 필요가 없습니다.
n8n + HTTP 요청
깊은 프로그래밍 없이 프로세스를 자동화하고 싶은 분들을 위해: n8n은 프록시를 통해 HTTP 요청을 보낼 수 있는 시각적 자동화 생성기입니다. Домклик API와 작업에 적합하며 - 일정에 따라 자동 데이터 수집 및 Google Sheets 또는 데이터베이스로의 내보내기를 설정할 수 있습니다.
| 도구 | 코드 없음 | 프록시 지원 | JS 페이지 | 난이도 |
|---|---|---|---|---|
| Octoparse | ✅ 예 | ✅ 예 | ✅ 예 | 낮음 |
| ParseHub | ✅ 예 | ✅ 예 | ✅ 예 | 낮음 |
| Apify | ⚠️ 부분적으로 | ✅ 예 | ✅ 예 | 중간 |
| n8n | ⚠️ 부분적으로 | ✅ 예 | ⚠️ 부분적으로 | 중간 |
프록시 회전 및 안티밴: 안전한 작업 규칙
가장 품질 좋은 프록시도 잘못 사용하면 소용이 없습니다. 회전은 단순한 IP 변경이 아니라, 파서를 실제 사용자처럼 보이게 만드는 행동 전략입니다.
회전을 올바르게 설정하는 방법
IP 변경 빈도: ЦИАН의 경우 - 매 5-10 요청마다, Домклик의 경우 - 매 15-20 요청마다, 야ндекс 부동산의 경우 - 매 3-5 요청마다(가장 공격적인 보호). 공급자의 회전 엔드포인트를 사용하는 경우 자동으로 발생합니다.
스티키 세션 vs. 회전: 일부 작업은 세션 동안 하나의 IP로 작업해야 합니다 - 예를 들어 계정에 로그인해야 하는 경우. 이 경우 스티키 세션을 사용하십시오(5-30분 동안 고정된 IP). 인증 없이 광고를 수집하는 경우 - 각 요청 후 회전하십시오.
지리적 분포: 여러 도시의 데이터를 수집하는 경우 해당 지역의 프록시를 사용하십시오. 모스크바 IP에서 모스크바 광고에 대한 요청은 노보시비르스크 IP에서 요청하는 것보다 더 자연스럽게 보입니다.
차단 가능성에 영향을 미치는 다른 요소
- 요청 속도 - 한 IP에서 2초에 1개 이상의 요청은 차단 위험을 몇 배로 증가시킵니다.
- 시간대 - 밤 2시에서 6시 사이의 파싱은 트래픽이 적어 덜 눈에 띕니다.
- 병렬성 - 높은 속도의 1개 스트림보다 다양한 IP를 가진 10개 스트림이 더 좋습니다.
- 쿠키 및 세션 - IP 변경 시 쿠키를 재설정하십시오, 그렇지 않으면 세션이 이전 주소에 묶입니다.
- Referer - 검색 엔진이나 사이트의 메인 페이지에서 전환하는 것처럼 모방하십시오.
- 올바른 User-Agent - 최신 버전의 Chrome 또는 Firefox를 사용하십시오, 오래된 버전은 사용하지 마십시오.
차단에 대한 대응 방법
파서가 403 또는 429 응답을 받기 시작하면 - 같은 IP로 계속 시도하지 마십시오. 즉시 새 주소로 전환하고 다음 요청 전에 30-60초 동안 대기하십시오. 차단이 잦아지면 요청 간 지연을 늘리고 IP 변경 빈도를 줄이십시오(역설적이지만 너무 자주 변경하는 것도 보호 시스템에 신호가 될 수 있습니다).
체크리스트: 부동산 데이터 수집 시 밴을 피하는 방법
파서를 실행하기 전에 이 체크리스트를 사용하십시오 - 이는 대부분의 일반적인 오류를 피하는 데 도움이 됩니다.
✅ 파서 실행 전 체크리스트
- 프록시는 러시아 지리적 위치(모스크바 / 상트페테르부르크)를 가지고 있습니다
- 레지던셜 또는 모바일 프록시를 사용합니다(ЦИАН의 경우 데이터 센터는 아님)
- IP 회전이 설정되어 있습니다(매 5-15 요청마다)
- 요청 간 지연이 최소 3초입니다
- User-Agent가 최신 브라우저로 설정되어 있습니다
- Accept-Language: ru-RU 헤더가 전달됩니다
- IP 변경 시 쿠키가 재설정됩니다
- 파싱은 순차적으로 진행됩니다(페이지 1 → 2 → 3, 무작위로 아님)
- 자동 일시 정지를 포함한 403/429 오류 처리가 설정되어 있습니다
- 병렬 스트림은 서로 다른 IP를 사용합니다
- 전체 실행 전에 10-20 페이지에서 파서를 테스트했습니다
- 데이터는 점진적으로 저장됩니다(끝에서만 저장되지 않음)
초보자들의 일반적인 실수
실수 1: 테스트 없이 실행. 많은 사람들이 즉시 10,000 페이지에서 파서를 실행하고 15분 후에 차단됩니다. 항상 작은 것부터 시작하십시오: 20-30 페이지를 확인하고 데이터가 올바르게 수집되는지 확인하고 차단이 없는지 확인한 후에야 확장하십시오.
실수 2: 모든 작업에 동일한 IP 사용. 테스트와 실제 파싱에 동일한 프록시를 사용하면 IP가 빠르게 노출됩니다. 서로 다른 작업을 위해 별도의 풀을 유지하십시오.
실수 3: 오류 무시. 파서는 403, 429, 503 응답을 올바르게 처리해야 합니다 - 일시 정지하고 IP를 변경하며 요청을 반복하십시오. 이 로직이 없으면 데이터를 잃고 IP가 노출됩니다.
실수 4: 하나의 풀로 24/7 파싱. 좋은 프록시도 지속적인 부하에 "피곤해"집니다. 작업 계획을 세우십시오 - 예를 들어, 2시간 작업 후 30분 휴식. 이는 IP 풀에 대한 부하를 줄이고 패턴을 보호 시스템에 덜 눈에 띄게 만듭니다.
결론
ЦИАН, Домклик 및 야ндекс 부동산 파싱은 올바른 기술 기반으로 접근하면 실제로 작동하는 도구입니다. 가장 중요한 것은 프록시의 품질과 올바른 회전이 안정적인 작업의 기초라는 것입니다. 이를 잊으면 데이터를 분석하는 대신 차단과 싸우는 데 시간을 낭비하게 됩니다.
간단한 요약: ЦИАН의 경우 요청마다 5-10회 회전하는 레지던셜 프록시와 최소 3초의 지연을 사용하십시오. Домклик은 더 관대하지만 프록시가 필요합니다. 야ндекс 부동산은 가장 복잡한 플랫폼으로, 완전한 헤드리스 브라우저와 품질 좋은 프록시가 필요합니다. 코드 없이 작업하려면 외부 프록시 연결이 가능한 Octoparse 또는 ParseHub가 적합합니다.
부동산 가격 모니터링이나 분석을 위한 광고 데이터베이스 수집을 계획하고 있다면 러시아 지리적 위치의 레지던셜 프록시를 시작하는 것이 좋습니다 - 이는 안정적인 작업과 비용 간의 최적의 균형을 제공하며, 세 플랫폼 모두에 적합합니다.