블로그로 돌아가기

Ozon 크롤링을 위한 프록시: 차단 없이 가격, 상품 및 리뷰 수집하기

Ozon은 적극적으로 파싱을 차단하지만, 올바른 프록시와 설정을 사용하면 가격, 상품 및 리뷰에 대한 데이터를 차단 없이 수집할 수 있습니다. 단계별로 설명합니다.

📅2026년 4월 1일
```html

Ozon은 러시아 인터넷에서 가장 안전한 마켓플레이스 중 하나입니다: 안티봇 시스템, 캡차, 요청 한도 및 IP 차단은 자동 데이터 수집을 진정한 시험으로 만듭니다. 경쟁자의 가격을 모니터링하거나, 품목을 분석하거나, 분석을 위한 리뷰를 수집하는 경우 - 잘 설정된 프록시 없이는 파서가 몇 분 만에 차단될 것입니다. 이 가이드에서는 Ozon에 적합한 프록시, 올바르게 설정하는 방법 및 데이터 수집 프로젝트를 파괴하는 오류에 대해 설명합니다.

왜 Ozon이 파싱을 차단하는가: 보호 시스템 작동 방식

프록시를 설정하기 전에, 무엇에 직면할지 이해하는 것이 중요합니다. Ozon은 자동 요청에 대한 다단계 보호 시스템을 사용하며, 각 요소는 파서를 구축할 때 고려해야 합니다.

요청 속도 제한

하나의 IP 주소에서 분당 30-50개 이상의 요청이 오면, Ozon은 429 오류(Too Many Requests)를 반환하거나 IP를 완전히 차단하기 시작합니다. 일반 사용자에게는 그런 요청 속도가 없으므로 이는 봇으로 간주됩니다. 따라서 하나의 프록시 서버로는 부족하며, 수십 또는 수백 개의 IP 주소로 구성된 풀과 회전이 필요합니다.

User-Agent 및 HTTP 헤더 분석

Ozon 시스템은 각 요청의 헤더를 확인합니다. User-Agent가 스크립트처럼 보이면(예: python-requests/2.28) 요청은 즉시 차단됩니다. 실제 브라우저의 헤더를 모방해야 합니다: 올바른 User-Agent, Accept-Language, Accept-Encoding, Referer.

브라우저 지문 인식

Ozon 페이지에서는 JavaScript가 작동하여 브라우저의 지문을 수집합니다: 화면 해상도, 설치된 글꼴, WebGL, Canvas. 헤드리스 브라우저(Puppeteer, Playwright)를 사용하여 마스킹 없이 파싱하는 경우 시스템이 이를 감지합니다. 따라서 스텔스 모드 도구를 사용하거나 JS 렌더링 없이 API를 통해 파싱하는 것이 중요합니다.

지리적 차단 및 IP 평판 검사

Ozon은 러시아 마켓플레이스이며, 러시아 IP에서 요청을 기대합니다. 독일이나 미국의 데이터 센터 프록시를 통해 연결하면 즉시 의심을 받습니다. 또한, 데이터 센터의 IP 주소는 종종 안티봇 시스템(Cloudflare, DataDome)의 데이터베이스에 등록되어 있습니다. 따라서 Ozon에는 러시아 거주자 또는 모바일 IP가 필요합니다.

결론: Ozon을 차단하는 요소

  • 데이터 센터 및 VPN 서버의 IP(블랙리스트에 등록됨)
  • 하나의 IP에서 너무 높은 요청 속도
  • 비현실적인 HTTP 헤더(스크립트 User-Agent)
  • 러시아 마켓플레이스에 대한 외국 IP 주소
  • 쿠키 및 세션 데이터의 부재

Ozon에 적합한 프록시: 유형 비교

모든 프록시가 Ozon의 보호를 동일하게 잘 처리하는 것은 아닙니다. 세 가지 주요 유형과 이 마켓플레이스에서의 적용 가능성을 살펴보겠습니다.

프록시 유형 Ozon에서의 모습 속도 차단 위험 Ozon에 적합한가?
데이터 센터 호스팅/클라우드 IP 매우 빠름 높음 ⚠️ 가벼운 작업에만 적합
거주자 일반 사용자 IP 중간 낮음 ✅ 훌륭함
모바일 모바일 운영자 IP 중간 최소 ✅ 완벽함

거주자 프록시 - Ozon의 작업 말

거주자 프록시는 실제 일반 사용자의 IP 주소를 사용합니다. Ozon에 대한 요청은 일반 사용자가 집 인터넷을 통해 사이트에 접속한 것처럼 보입니다. 안티봇 시스템은 IP 수준에서 자동화의 징후를 감지하지 못합니다. 이는 거주자 프록시를 대규모 파싱의 주요 선택으로 만듭니다: 수천 개의 SKU에 대한 가격 모니터링, 상품 카드 수집, 경쟁자의 품목 분석.

주요 장점은 러시아 지리적 위치를 선택할 수 있는 대규모 IP 주소 풀입니다. Ozon은 러시아 주소에서 요청을 기대하며, 러시아에 대한 지리 타겟팅을 가진 거주자 프록시는 최소한의 의심 수준을 제공합니다.

모바일 프록시 - 최대 신뢰성

모바일 프록시는 모바일 운영자(IP) (MTS, Beeline, MegaFon, Tele2)를 통해 작동합니다. 이는 안티봇 시스템 관점에서 가장 "깨끗한" 트래픽 유형입니다: 모바일 IP는 거의 블랙리스트에 올라가지 않으며, 하나의 IP는 수천 명의 실제 사용자가 동시에 사용할 수 있습니다. 거주자 IP가 차단되면 의심스럽지만, 모바일 IP가 차단되면 Ozon은 수천 명의 실제 구매자를 차단할 위험이 있으므로 이는 그들에게 불리합니다.

모바일 프록시는 높은 신뢰성이 필요한 작업에 특히 적합합니다: 리뷰 수집, 실시간 프로모션 및 세일 모니터링.

데이터 센터 프록시 - 간단한 작업에만 적합

데이터 센터 프록시는 빠르게 작동하고 비용이 저렴하지만 Ozon에 대한 적용은 제한적입니다. 대부분의 이러한 IP는 이미 안티봇 시스템의 데이터베이스에 등록되어 있습니다. 낮은 요청 빈도로 단발성 작업에 적합할 수 있습니다 - 예를 들어, 특정 상품의 재고를 한 시간에 한 번 확인하는 경우. 정기적인 대규모 모니터링에는 적합하지 않습니다.

사용 사례: 가격, 상품, 리뷰

Ozon에서 데이터 수집 작업은 다양하며 각 작업에 맞는 전략이 필요합니다. 세 가지 주요 시나리오를 살펴보겠습니다.

📊 경쟁자 가격 모니터링

이는 판매자들 사이에서 가장 인기 있는 시나리오입니다. 작업: 경쟁자의 수백 또는 수천 개 품목의 가격을 추적하여 신속하게 자신의 가격 책정을 조정합니다. Ozon은 종종 하루에 여러 번 가격을 변경합니다 - 특히 프로모션 기간 동안.

프록시에 대한 요구 사항: 러시아 지리적 위치에서 50-200개의 거주자 IP 풀 필요. 요청은 각 요청 사이에 2-5초의 지연으로 이루어져야 하며, IP는 5-10개의 요청 후에 변경되어야 합니다. 이러한 방식으로 파서는 차단 없이 시간당 500-1000개의 상품 카드를 처리할 수 있습니다.

수집할 데이터: 현재 가격, 할인 전 가격, 재고 유무, 판매자 평점, 리뷰 수, Ozon 프로모션 참여 상태.

🛍️ 상품 및 품목 데이터 수집

분석가와 마케팅 담당자는 품목에 대한 데이터를 수집합니다: 어떤 카테고리가 성장하고 있는지, 어떤 상품이 검색에서 상위에 올라오는지, 특정 틈새 시장의 판매자 수가 어떻게 변하는지. 이는 더 방대한 작업으로, 수천 개의 카탈로그 페이지를 탐색해야 합니다.

프록시에 대한 요구 사항: 회전이 가능한 200개 이상의 IP 풀 필요. 페이지 매김을 올바르게 우회하기 위해 스티키 세션을 사용하는 것이 중요합니다(하나의 IP가 몇 분 동안 하나의 세션에 "고정"됨). 그렇지 않으면 카탈로그의 다음 페이지에서 IP를 변경할 때 다른 결과를 얻을 수 있습니다.

수집할 데이터: 상품 이름, 아티클(SKU), 카테고리, 브랜드, 설명, 특성, 사진, 판매자 수, 검색 순위.

⭐ 리뷰 및 평점 파싱

리뷰는 소비자 선호 분석, 경쟁자의 약점 찾기 및 자사 상품 개선을 위한 귀중한 데이터 출처입니다. Ozon의 리뷰 페이지는 특히 잘 보호되어 있습니다: 이를 로드하려면 JavaScript가 필요하며, 데이터는 종종 AJAX 요청을 통해 로드됩니다.

프록시에 대한 요구 사항: 리뷰 파싱에는 러시아 IP를 가진 모바일 프록시가 가장 적합합니다. 각 리뷰 페이지는 여러 요청(기본 페이지 + 콘텐츠 로드를 위한 AJAX)을 필요로 하므로, 모바일 IP는 세션의 안정성을 보장합니다.

수집할 데이터: 리뷰 텍스트, 평점(1-5 별), 게시 날짜, 리뷰 유용성(좋아요), 판매자 응답, 리뷰의 사진, 인증된 구매.

IP 회전 및 세션 관리: 차단되지 않는 방법

좋은 프록시를 사용하더라도 세션 및 회전을 잘 관리하지 않으면 차단될 수 있습니다. 이는 Ozon 파싱의 핵심 기술적 측면 중 하나입니다.

두 가지 회전 모드: rotating vs sticky

Rotating (무작위 회전) - 각 요청은 새로운 IP에서 이루어집니다. 이는 독립적인 요청에 적합합니다: 예를 들어, 특정 상품의 가격을 확인할 때. Ozon은 요청 간의 관계를 인식하지 못합니다.

Sticky sessions (고정 세션) - 하나의 IP가 하나의 "세션" 내에서 여러 연속 요청에 사용됩니다(보통 1-30분). 이는 카탈로그의 페이지 매김을 우회하거나, 하나의 상품에 대한 여러 리뷰 페이지를 수집하거나, 장바구니/인증 작업을 수행할 때 필요합니다. 세션 중간에 IP를 급격하게 변경하는 것은 의심스럽게 보입니다.

요청 간 지연 규칙

작업 유형 요청 간 지연 IP 변경
가격 모니터링 (1000개 이상의 SKU) 2-4초 5-10 요청마다
카탈로그 우회 (페이지 매김) 3-6초 20-30 페이지마다
리뷰 수집 4-8초 각 상품마다 새로운 IP
단발성 재고 확인 1-2초 각 요청마다

쿠키 및 세션 데이터 관리

Ozon은 쿠키를 추적합니다: 각 요청이 쿠키 없이 오거나 새로운 쿠키로 오면 이는 봇의 징후입니다. 새로운 IP에서 첫 번째 방문 시 세션을 "워밍업"하는 것이 좋습니다 - 먼저 메인 페이지를 로드한 다음 카테고리로 이동하고, 그 후에 필요한 데이터를 요청합니다. 이는 실제 사용자 행동을 모방하고 차단 위험을 3-5배 줄입니다.

Ozon 파싱을 위한 프록시 설정: 단계별 안내

인기 있는 도구를 예로 들어 실용적인 설정을 살펴보겠습니다. 대부분의 시나리오에 적합한 기본 구성을 시작하겠습니다.

1단계. 프록시 데이터 받기

거주자 또는 모바일 프록시에 연결한 후, 다음 형식으로 연결 데이터를 받게 됩니다:

host: proxy.example.com
port: 8080
username: your_username
password: your_password
protocol: HTTP / HTTPS / SOCKS5

Ozon에는 HTTPS 또는 SOCKS5 프로토콜을 사용하는 것이 좋습니다. 도구가 지원하는 경우 SOCKS5가 더 좋습니다 - 식별 헤더를 덜 전달합니다.

2단계. 러시아에 대한 지리 타겟팅 설정

프록시 서비스 설정에서 국가를 선택합니다: 러시아 (RU). 특정 도시가 중요한 작업도 있습니다 - 예를 들어, 모스크바 또는 상트페테르부르크로 배송을 고려한 가격을 보고 싶다면 도시 수준의 지리 타겟팅을 선택합니다.

서비스가 URL에 지리 위치 매개변수를 가진 엔드포인트를 제공하는 경우, 다음과 같이 보입니다:

proxy.example.com:8080?country=ru&city=moscow&session=random

3단계. 올바른 HTTP 헤더 설정

이는 매우 중요한 단계입니다. Ozon에 대한 요청은 Windows에서 실제 Chrome 브라우저의 요청처럼 보여야 합니다. 최소한의 헤더 세트는 다음과 같습니다:

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 
            (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none

4단계. 회전 및 지연 설정

대부분의 준비된 파서 및 노코드 도구에는 지연 및 회전 설정이 있습니다. 다음과 같이 설정합니다:

  • 요청 간 지연: 3-5초 (무작위성 추가 가능: 2-7초)
  • IP 회전: 가격 모니터링을 위해 5-10 요청마다, 단발성 확인을 위해 각 요청마다
  • 요청 타임아웃: 15-30초 (Ozon은 때때로 느리게 응답합니다)
  • 오류 시 재시도: 403/429/503 오류 발생 시 새로운 IP로 3회 재시도

5단계. 시작 전에 작동 확인

전체 파싱을 시작하기 전에 테스트를 수행합니다: Ozon의 다양한 페이지에 20-30개의 요청을 5초 간격으로 보냅니다. 모든 요청이 200 상태와 올바른 HTML을 반환하면 설정이 올바르게 수행된 것입니다. 403 또는 캡차로 리디렉션되는 경우 헤더를 조정하거나 프록시 유형을 변경해야 합니다.

코드 없이 Ozon 파싱을 위한 도구

대부분의 판매자와 분석가는 처음부터 파서를 작성하지 않습니다. 프록시 연결을 지원하고 프로그래밍 기술이 필요 없는 준비된 도구가 있습니다.

Octoparse - 프록시 지원 시각적 파서

Octoparse는 인기 있는 노코드 파싱 도구 중 하나입니다. 페이지에서 수집해야 할 요소를 시각적으로 지정하면 도구가 자동으로 파서를 생성합니다. 작업 설정을 통해 프록시 연결을 지원합니다: 주소, 포트, 로그인 및 비밀번호를 입력하면 도구가 자동으로 IP를 회전합니다.

Octoparse에서 프록시 연결 방법: 작업 열기 → 설정 → 프록시 설정 → 프록시 추가 → 연결 데이터 입력 → 회전 모드 선택. Ozon에는 "N 요청마다 IP 회전" 모드가 5-10으로 설정하는 것이 좋습니다.

ParseHub - 복잡한 사이트를 위한 클라우드 파서

ParseHub는 JavaScript를 통해 데이터가 로드되는 페이지에서 잘 작동합니다(이는 Ozon에 해당). 유료 요금제에서 프록시를 통해 작업을 지원합니다. 도구에는 JS를 렌더링하는 내장 브라우저가 있어 일반 HTTP 요청으로는 접근할 수 없는 데이터를 수집하는 데 도움이 됩니다.

가격 모니터링 전문 서비스

Ozon의 가격 모니터링 작업을 위해 Priceva, Metacommerce, Price2Spy와 같은 전문 SaaS 솔루션이 있습니다. 이들은 이미 Ozon의 보호를 우회하는 내장 로직을 포함하고 있으며 구독 방식으로 작동합니다. 데이터가 필요 없는 가격 모니터링 작업이라면 이러한 서비스가 프록시와 함께 파서를 설정하는 것보다 더 편리할 수 있습니다.

n8n / Make (Integromat) - HTTP 요청 자동화

간단한 작업(예: 특정 상품의 가격을 매시간 확인하는 경우)에는 n8n 또는 Make와 같은 자동화 플랫폼을 사용할 수 있습니다. 이들은 Ozon에 HTTP 요청을 보내고 지정된 템플릿에 따라 응답을 파싱합니다. 프록시는 HTTP 노드 설정에서 연결됩니다: 프록시 URL 필드에 프록시 주소를 입력합니다. 이는 가장 강력한 방법은 아니지만, 코드 없이 자동화를 수행하는 가장 간단한 방법입니다.

💡 팁: 가능한 경우 Ozon API를 사용하세요

Ozon은 판매자를 위한 공식 Seller API를 제공합니다. 등록된 판매자인 경우, 일부 데이터(주문, 재고, 판매 분석)는 프록시 및 차단 위험 없이 API를 통해 얻을 수 있습니다. 프록시를 통한 파싱은 API에서 제공하지 않는 데이터(경쟁자의 가격, 리뷰, 검색 순위)에 필요합니다.

Ozon 파싱 시 발생하는 7가지 주요 오류 및 피하는 방법

차단 문제의 대부분은 동일한 오류에서 발생합니다. 다음은 절대 하지 말아야 할 목록과 이를 수정하는 방법입니다.

❌ 오류 1: 모든 요청에 동일한 IP 사용

가장 "깨끗한" IP라도 시간당 500개의 요청이 오면 차단됩니다. 해결책: 최소 50개의 IP로 구성된 풀과 회전.

❌ 오류 2: 지연 없이 파싱하기

지연 없이 요청하는 것은 봇의 가장 명백한 징후입니다. 요청 간 1초의 지연조차 차단 위험을 크게 줄입니다. 최적: 3-5초의 무작위 지연.

❌ 오류 3: 라이브러리의 기본 User-Agent 사용

python-requests/2.28.0는 즉시 차단됩니다. 항상 현재 Chrome으로 User-Agent를 변경하세요.

❌ 오류 4: Ozon에 외국 IP 사용

Ozon은 러시아 서비스입니다. 독일 또는 미국의 IP에서 오는 요청은 의심을 받습니다. 항상 러시아에 대한 지리 타겟팅을 선택하세요.

❌ 오류 5: 429 오류를 무시하고 요청 계속하기

429 오류가 발생하면 즉시 해당 IP에서 요청을 중지하고 5-10분 기다린 후 IP를 변경하세요. 429 오류 발생 시 요청을 계속하면 IP의 지속적인 차단을 가속화합니다.

❌ 오류 6: 캡차로 리디렉션 처리하지 않기

Ozon은 때때로 차단 대신 캡차 페이지로 리디렉션합니다. 파서는 수신된 HTML이 필요한 데이터를 포함하고 있는지 확인해야 하며, 캡차 페이지가 나타나면 IP를 변경해야 합니다.

❌ 오류 7: 피크 시간에 파싱하기

피크 시간(저녁, 주말)에는 Ozon이 트래픽을 더 공격적으로 필터링합니다. 대규모 작업은 야간 시간이나 이른 아침에 계획하세요 - 서버에 대한 부하가 낮고 안티봇 시스템이 덜 엄격합니다.

결론: Ozon에서 안정적인 데이터 수집 구축 방법

Ozon 파싱은 일회성 설정이 아니라 인프라와의 지속적인 작업입니다. 마켓플레이스는 정기적으로 보호를 업데이트하고, 페이지 구조를 변경하며, 안티봇 필터를 강화합니다. 성공적인 모니터링은 세 가지 기둥에 기반합니다: 올바른 프록시 유형, 적절한 IP 회전 및 실제 사용자 행동의 올바른 모방.

우리가 논의한 모든 내용을 간단히 요약하자면:

  • 가격 및 품목 모니터링을 위해서는 러시아 지리적 위치와 50개의 IP 풀을 가진 거주자 프록시를 사용하세요.
  • 리뷰 수집 및 높은 신뢰성 요구 작업에는 러시아 운영자의 모바일 프록시를 사용하세요.
  • 항상 지연, 회전 및 올바른 HTTP 헤더를 설정하세요.
  • 페이지 매김을 우회할 때 스티키 세션을 사용하세요.
  • 대규모 작업은 야간 시간에 계획하세요.

Ozon 모니터링 시스템을 처음 구축하는 경우, 러시아 IP를 가진 거주자 프록시로 시작하는 것을 권장합니다 - 이는 마켓플레이스에서 데이터 수집 작업의 대부분에 대해 비용, 속도 및 신뢰성 간의 균형을 제공합니다. 모든 요청이 중단 없이 통과해야 하는 중요한 작업에는 모바일 프록시를 고려하세요 - 비용이 더 비싸지만, 집중적으로 사용하더라도 거의 차단되지 않습니다.

```