블로그로 돌아가기

아마존, 구글 리뷰, 옐프 리뷰 크롤링을 위한 프록시: 차단 없는 완벽 가이드

아마존, 구글 리뷰, 옐프에서 자동으로 리뷰를 수집하고 싶지만 계속 차단당하고 있나요? 이 기사에서는 어떤 프록시를 선택하고 차단 없이 데이터 수집을 설정하는 방법을 설명합니다.

📅2026년 5월 16일
```html

Amazon이나 Google에서 자동으로 리뷰를 수집하려고 하는데 10-20개의 요청 후에 캡차나 IP 차단을 받으신 적이 있나요? 익숙한 이야기인가요? 마켓플레이스와 리뷰 플랫폼은 파싱을 방지하기 위해 적극적으로 보호하고 있습니다: 봇을 감지하고, 데이터 센터의 IP 주소 범위를 차단하며, 캡차 해결을 요구합니다. 하지만 올바른 프록시를 사용하면 이 문제를 영원히 해결할 수 있습니다.

이 가이드에서는 각 플랫폼에 적합한 프록시 유형, IP 회전 설정 방법, 코드를 작성하지 않고 사용할 수 있는 도구, 그리고 결국 차단 없이 매일 수천 개의 리뷰를 수집하는 방법을 다룰 것입니다.

왜 Amazon, Google 및 Yelp가 리뷰 파싱을 차단하는가

프록시를 선택하기 전에 중요한 점은: 왜 차단이 발생하는가? 플랫폼이 "데이터를 공유하고 싶지 않다"는 이유만이 아닙니다. 그들은 우회해야 할 구체적인 기술적 보호 메커니즘을 가지고 있습니다.

하나의 IP에서 너무 많은 요청. 일반 사용자가 Amazon에서 리뷰를 스크롤할 때 1분에 2-5개의 요청을 합니다. 반면 파서는 수백 개의 요청을 보냅니다. 시스템은 비정상적인 활동을 감지하고 IP를 차단합니다. 이는 데이터 수집 시 가장 흔한 차단 원인입니다.

데이터 센터 IP 주소가 블랙리스트에 올라감. Amazon, Google 및 Yelp는 오래전부터 대형 클라우드 제공업체의 IP 주소 범위를 블랙리스트에 올렸습니다: AWS, Google Cloud, DigitalOcean, Hetzner. 만약 "드러난" 주소를 가진 저렴한 데이터 센터 프록시를 사용한다면, 첫 요청 전에 차단될 것입니다.

브라우저 및 헤더의 핑거프린트 분석. 현대의 보호 시스템(Cloudflare, PerimeterX, DataDome)은 IP뿐만 아니라 HTTP 헤더, User-Agent, 마우스 행동, 요청 순서도 분석합니다. 만약 헤더가 봇을 나타낸다면 — 차단은 불가피합니다.

지리적 제한. Amazon의 일부 리뷰는 특정 국가의 사용자에게만 제공됩니다. 예를 들어, amazon.de의 리뷰는 독일에서와 러시아에서 다르게 보입니다. 올바른 데이터 수집을 위해서는 필요한 지리적 위치의 프록시가 필요합니다.

캡차 및 JS 챌린지. Google은 특히 reCAPTCHA를 적극적으로 사용합니다. Yelp는 간단한 HTTP 요청을 통과하지 못하는 JS 검사를 적용합니다. 이러한 메커니즘은 브라우저 도구를 사용하거나 캡차를 해결하기 위한 특별한 서비스를 요구합니다.

주요 결론:

차단은 우연이 아니라 시스템입니다. 이를 우회하려면 종합적으로 접근해야 합니다: 올바른 프록시 유형 + IP 회전 + 적절한 요청 헤더 + 적합한 파싱 도구.

어떤 유형의 프록시가 있으며 리뷰에 적합한 것은 무엇인가

모든 프록시가 리뷰 수집에 똑같이 유용한 것은 아닙니다. 세 가지 주요 유형과 그 적용 가능성을 살펴보겠습니다.

데이터 센터 프록시 (Datacenter Proxies)

이는 서버 회사에 속한 IP 주소입니다. 빠르고 저렴하며 속도가 익명성보다 중요한 작업에 적합합니다. 그러나 Amazon이나 Google에서 리뷰를 파싱하는 데는 잘 작동하지 않습니다: 대부분의 이러한 IP는 이미 블랙리스트에 올라 있습니다. 몇 페이지를 수집할 수는 있지만, 빠르게 차단되거나 캡차를 받게 됩니다.

데이터 센터 프록시는 파서 테스트나 최소한의 보호가 있는 플랫폼(예: 작은 지역 리뷰 사이트)에서만 정당화됩니다.

주거용 프록시 (Residential Proxies)

이는 실제 가정 사용자의 IP 주소입니다. Amazon이나 Google의 입장에서 이는 일반 가정 인터넷을 사용하는 사람입니다. 이러한 프록시는 IP가 지속적으로 변경되고 실제 장치에 속하기 때문에 거의 블랙리스트에 올라가지 않습니다.

주거용 프록시는 Amazon, Yelp 및 대부분의 중간 보호가 있는 플랫폼에서 리뷰를 파싱하는 데 최적의 선택입니다. 이들은 필요한 지리적 위치(국가, 도시)에서 요청을 할 수 있게 해주며, 이는 지역 리뷰를 수집하는 데 매우 중요합니다.

모바일 프록시 (Mobile Proxies)

모바일 통신사의 IP 주소(4G/5G)입니다. 이는 모든 플랫폼에서 가장 "신뢰할 수 있는" 유형의 트래픽입니다: 모바일 IP는 드물게 차단되며, 하나의 IP 뒤에는 수십 명의 실제 사용자가 있을 수 있습니다(NAT 모바일 통신사). Google은 모바일 주소에 특히 관대합니다.

모바일 프록시는 Google Reviews 및 Yelp 파싱에 필수적이며, 이곳에서는 봇에 대한 보호가 특히 공격적입니다. 이들은 주거용 프록시보다 비쌉니다, 하지만 캡차 없이 성공적인 요청 비율이 가장 높습니다.

Amazon 리뷰 파싱: 특징 및 설정

Amazon은 파싱하기 가장 어려운 사이트 중 하나입니다. 이 회사는 동시에 여러 보호 수준을 사용합니다: 행동 분석, 헤더 확인, 지리적 위치 및 공격적인 캡차 시스템. 그럼에도 불구하고 수천 명의 마케팅 담당자와 분석가가 매일 Amazon에서 리뷰를 수집합니다 — 그들은 올바르게 수행하고 있습니다.

Amazon Reviews를 성공적으로 파싱하기 위해 필요한 것

다음은 파싱이 안정적으로 작동하는 최소 조건입니다:

  • 필요한 국가의 지리적 위치를 가진 주거용 또는 모바일 프록시 (amazon.com의 경우 미국, amazon.de의 경우 독일)
  • IP 회전 — 최소 10-30 요청마다
  • 올바른 User-Agent — 실제 브라우저(Chrome, Firefox)를 모방
  • 요청 간 지연 — 2-5초, 봇처럼 보이지 않도록
  • 쿠키 세션 — Amazon은 저장된 쿠키로부터의 요청에 더 잘 반응합니다.

Amazon을 위한 단계별 설정

1단계. 필요한 국가의 지리적 위치를 가진 주거용 프록시를 선택합니다. amazon.com의 경우 — 미국, amazon.co.uk의 경우 — 영국. 이는 중요합니다: Amazon은 다른 국가의 사용자에게 다른 리뷰를 보여줍니다.

2단계. 회전을 설정합니다. 준비된 파서를 사용하는 경우(예: Octoparse 또는 ParseHub), 연결 설정에서 프록시를 지정합니다. 대부분의 이러한 도구는 자동 회전이 가능한 프록시 목록을 지원합니다.

3단계. 요청 간 지연을 설정합니다. Octoparse에서는 "지연 설정" 섹션에서 2초에서 6초 사이의 임의의 간격을 설정합니다.

4단계. 50-100 페이지에서 테스트를 실행합니다. 캡차가 5% 이상의 경우에 자주 발생하면 — 지연을 늘리거나 프록시 풀을 변경합니다.

5단계. 확장합니다. 성공적인 테스트 후에는 수천 개의 리뷰 수집을 시작할 수 있습니다. 좋은 주거용 프록시 풀은 차단 없이 하루에 5000-10000개의 리뷰를 수집할 수 있습니다.

Amazon에 대한 중요 사항:

Amazon은 정기적으로 보호 알고리즘을 업데이트합니다. 한 달 전에 파서가 작동했지만 지금 차단을 받기 시작했다면 — 아마도 검증 알고리즘이 변경되었을 것입니다. 해결책: User-Agent를 최신 Chrome 버전으로 업데이트하고 프록시가 블랙리스트에 올라갔는지 확인하십시오.

Google Reviews 수집: 알아야 할 사항

Google Reviews — Google Maps 및 Google Business Profile의 리뷰는 마케팅 담당자, SEO 전문가 및 분석가에게 귀중한 데이터 소스입니다. 그러나 Google은 자신의 데이터를 특히 공격적으로 보호합니다: reCAPTCHA v3, 행동 분석, 브라우저 핑거프린트 확인.

주요 어려움: Google Reviews는 일반 HTTP 요청을 통해 로드되지 않습니다. 리뷰는 JavaScript를 통해 동적으로 로드됩니다. 이는 간단한 HTTP 파서가 작동하지 않음을 의미합니다 — JavaScript를 렌더링할 수 있는 도구가 필요합니다(브라우저 파서).

Google Reviews를 올바르게 수집하는 방법

옵션 1: 준비된 서비스. Outscraper, Apify(구글 맵 스크래퍼 액터) 또는 PhantomBuster와 같은 도구는 브라우저 엔진을 통해 Google Reviews를 수집할 수 있습니다. URL 또는 시설 이름을 입력하고 프록시를 연결하기만 하면 됩니다.

옵션 2: 브라우저 모드가 있는 Octoparse. Octoparse는 브라우저 렌더링 모드를 지원합니다. 설정에서 주거용 또는 모바일 프록시를 지정하면 도구가 실제 사용자처럼 리뷰를 수집합니다.

옵션 3: Google Places API. 공식적인 방법은 Google Places API를 사용하는 것입니다. 이는 시설당 최대 5개의 리뷰를 무료로 제공하지만 더 많은 양을 원할 경우 비용이 발생합니다. 대신 차단이나 프록시가 필요하지 않습니다.

Google에 모바일 프록시가 필요한 이유

Google은 reCAPTCHA의 제작자이며 봇 감지 분야의 선두주자 중 하나입니다. 주거용 프록시는 작동하지만 모바일 IP는 훨씬 더 나은 결과를 제공합니다. 이유는 간단합니다: Google은 모바일 플랫폼이기 때문에 모바일 트래픽을 신뢰합니다. 모바일 IP에서의 요청은 캡차를 트리거할 가능성이 적고 행동 분석에 덜 걸립니다.

대규모 Google Reviews 수집(하루에 수천 개의 시설)을 위해서는 필요한 도시나 지역의 지리적 위치를 가진 회전 가능한 모바일 프록시를 사용하는 것이 좋습니다. 이렇게 하면 리뷰가 지역 검색에 최대한 관련성이 높아집니다.

Yelp에서 차단 없이 파싱하기: 단계별 가이드

Yelp는 미국에서 가장 큰 리뷰 플랫폼입니다. 미국 시장에서 활동하는 마케팅 담당자에게는 경쟁업체, 고객의 감정 및 틈새 시장의 트렌드에 대한 필수 데이터 소스입니다. Yelp를 파싱하는 것은 처음에 보이는 것보다 더 어렵습니다: 플랫폼은 Cloudflare와 자체 봇 방지 시스템을 사용합니다.

Yelp의 보호 특징

  • Cloudflare Bot Management — 행동 및 핑거프린트 분석
  • 요청 제한: 하나의 IP에서 30-50개 이상의 요청 — 차단
  • 첫 방문 시 JavaScript 검사
  • 일부 리뷰는 숨겨져 있으며("filtered reviews") 인증된 사용자만 접근 가능

Yelp를 위한 단계별 가이드

1단계. Cloudflare를 지원하는 도구 선택. 일반 파서는 Cloudflare를 통과하지 못합니다. Apify(구글 맵 스크래퍼 액터), Bright Data Scraping Browser 또는 PhantomBuster를 사용하세요 — 이들은 JS 검사를 우회할 수 있습니다.

2단계. 미국의 지리적 위치를 가진 주거용 프록시를 연결합니다. Yelp는 미국 시장을 대상으로 합니다. 미국 IP를 가진 프록시는 데이터에 최대한 접근할 수 있게 해주며 차단을 최소화합니다.

3단계. 요청마다 5-10회 회전 설정. Yelp는 요청 빈도에 매우 민감합니다. 5-10페이지마다 IP 회전은 안정적인 작업을 위한 필수 조건입니다.

4단계. 요청 간 3-8초의 지연 추가. 임의의 지연은 실제 사용자의 행동을 모방하며 차단 위험을 크게 줄입니다.

5단계. Yelp Fusion API를 사용하여 일부 데이터 수집. Yelp는 비즈니스 및 리뷰에 대한 기본 데이터에 접근할 수 있는 공식 API를 제공합니다. 소규모 데이터 수집에는 차단 위험 없이 가장 간단한 방법입니다.

코드 없이 리뷰 수집을 위한 도구

좋은 소식은 리뷰 파싱을 위해 프로그래머일 필요가 없다는 것입니다. 프록시 연결 및 IP 자동 회전을 지원하는 시각적 인터페이스가 있는 준비된 도구가 있습니다. 가장 인기 있는 도구를 살펴보겠습니다.

도구 플랫폼 프록시 지원 난이도
Octoparse Amazon, Yelp, 모든 사이트 ✅ 프록시 목록 + 회전 낮음 (시각적 모드)
Apify Amazon, Google Maps, Yelp ✅ 내장 + 자체 프록시 낮음 (준비된 액터)
PhantomBuster Google Maps, Yelp ✅ 주거용 프록시 낮음 (템플릿)
ParseHub Amazon, Yelp, 모든 사이트 ✅ 프록시 목록 중간
Outscraper Google Reviews, Maps ✅ 내장 매우 낮음 (SaaS)

Octoparse에서 프록시 연결하기 (단계별)

Octoparse는 기술적 배경이 없는 마케팅 담당자들 사이에서 가장 인기 있는 도구 중 하나입니다. 프록시를 연결하는 방법은 다음과 같습니다:

  1. Octoparse를 열고 Settings → Proxy Settings로 이동합니다.
  2. “Use custom proxy”를 선택합니다.
  3. ip:port:login:password 형식으로 프록시 목록을 붙여넣습니다.
  4. “Auto rotate proxy”를 활성화합니다 — 도구가 자동으로 IP를 변경합니다.
  5. “Test proxy”를 클릭합니다 — 모든 프록시가 작동하는지 확인합니다.
  6. 일반 모드에서 작업을 시작합니다.

Apify에서 프록시 연결하기

  1. apify.com에 접속하여 필요한 액터(예: “Amazon Reviews Scraper”)를 선택합니다.
  2. “Input” 섹션에서 “Proxy configuration” 필드를 찾습니다.
  3. “Custom proxies”를 선택하고 프록시 정보를 붙여넣습니다.
  4. 리뷰 페이지의 URL 또는 ASIN 코드를 지정합니다(아마존의 경우).
  5. “Start”를 클릭합니다 — 결과는 JSON 또는 Excel 형식으로 제공됩니다.

프록시 회전 및 안전한 리뷰 파싱 규칙

가장 품질이 좋은 프록시도 안전한 파싱 규칙을 준수하지 않으면 도움이 되지 않습니다. 플랫폼은 행동 패턴을 분석하며, 하나의 잘못된 요청 패턴은 전체 IP 풀의 차단으로 이어질 수 있습니다.

규칙 1: IP를 정기적으로 회전하세요

Amazon의 경우, 10-20 요청마다 IP를 변경하는 것이 좋습니다. Google의 경우 — 5-10마다. Yelp의 경우 — 5-8마다. 세션 프록시(스티키 세션)를 사용하는 경우, 세션이 10-15분을 초과하지 않도록 하십시오 — 그 이후에는 새 IP를 요청하십시오.

규칙 2: 실제 행동을 모방하세요

실제 사용자는 2초 간격으로 완벽한 요청을 하지 않습니다. 임의의 지연을 추가하세요: 1초에서 8초 사이. 때때로 30-60초 동안 대기하세요 — 마치 사람이 페이지를 읽고 있는 것처럼. 이는 탐지 가능성을 크게 줄입니다.

규칙 3: 최신 User-Agent를 사용하세요

User-Agent는 실제 브라우저와 일치해야 합니다. 구식 Chrome 또는 Firefox 버전은 즉시 의심을 불러일으킵니다. 최소한 한 달에 한 번 User-Agent를 업데이트하세요. 좋은 파서(Octoparse, Apify)는 이를 자동으로 수행합니다.

규칙 4: 플랫폼의 현지 시간에 밤에는 파싱하지 마세요

보호 시스템은 야간에 의심스러운 트래픽에 더 민감합니다. Amazon US를 파싱하는 경우, 미국 시간(EST/PST)으로 낮 시간에 수행하는 것이 좋습니다 — 플랫폼에 실제 사용자가 많고 요청이 일반 트래픽에 "묻힙니다".

규칙 5: 성공적인 요청 비율을 모니터링하세요

좋은 지표는 캡차 없이 95% 이상의 성공적인 요청입니다. 비율이 85% 이하로 떨어지면 — 뭔가 잘못되고 있습니다. 확인하세요: 프록시가 구식인지, 보호 알고리즘이 변경되었는지, User-Agent를 업데이트해야 하는지 또는 지연을 늘려야 하는지.

안전한 리뷰 파싱 체크리스트:

  • ✅ 필요한 지리적 위치를 가진 주거용 또는 모바일 프록시
  • ✅ 요청마다 5-20회 IP 회전 (플랫폼에 따라 다름)
  • ✅ 요청 간 임의의 지연 1-8초
  • ✅ 최신 User-Agent (최신 Chrome 버전)
  • ✅ 플랫폼의 현지 시간에 낮 시간에 파싱
  • ✅ 성공적인 요청 비율 모니터링 (목표: >95%)
  • ✅ 1-2개월마다 프록시 풀 업데이트

다양한 플랫폼을 위한 프록시 유형 비교

아래는 특정 작업에 적합한 프록시 유형을 빠르게 선택하는 데 도움이 되는 요약 표입니다. 파싱 설정 시 이를 참고하세요.

플랫폼 데이터 센터 주거용 모바일 추천
Amazon Reviews ❌ 차단됨 ✅ 좋음 ✅ 훌륭함 주거용 (미국)
Google Reviews ❌ 차단됨 ⚠️ 보통 ✅ 훌륭함 모바일
Yelp ❌ 차단됨 ✅ 좋음 ✅ 훌륭함 주거용 (미국)
Trustpilot ⚠️ 부분적으로 ✅ 좋음 ✅ 훌륭함 주거용
Wildberries / Ozon ⚠️ 작동함 ✅ 훌륭함 ✅ 훌륭함 주거용 (러시아)
TripAdvisor ❌ 차단됨 ✅ 좋음 ✅ 훌륭함 주거용

리뷰를 수집하는 이유: 사용 시나리오

자동 리뷰 수집은 여러 비즈니스 문제를 해결합니다:

  • 경쟁 분석. 경쟁자의 제품에 대한 리뷰를 수집하여 → 약점을 찾고 → 마케팅에 활용합니다.
  • 평판 모니터링. 모든 플랫폼에서 브랜드에 대한 새로운 리뷰를 자동으로 추적합니다.
  • 청중 연구. 수천 개의 리뷰를 분석하여 → 패턴을 식별하고 → 제품을 개선합니다.
  • SEO 및 콘텐츠. 의미 분석을 위해 리뷰를 수집하고, 실제 구매자가 사용하는 키워드를 식별합니다.
  • 리뷰 집계기. 여러 플랫폼에서 리뷰를 집계하는 서비스를 만듭니다.

러시아 마켓플레이스에서 리뷰 파싱하기

귀하의 비즈니스가 러시아 시장을 대상으로 한다면, Wildberries, Ozon 및 Yandex.Market에서 리뷰를 수집하는 것도 중요합니다. 이 플랫폼들은 Amazon에 비해 더 부드러운 보호를 가지고 있지만, 대량 파싱을 차단합니다. 이들을 위해서는 러시아 IP를 가진 주거용 프록시가 충분합니다 — 이는 캡차 및 차단 없이 안정적으로 데이터를 수집할 수 있게 해줍니다.

러시아 마켓플레이스 파싱을 위한 인기 도구: Screaming Frog(프록시와 함께), Octoparse, 그리고 이미 프록시를 포함한 인프라를 갖춘 전문 서비스인 Moneyplace 또는 MPStats와 같은 도구입니다.

결론: 지금 바로 차단 없이 리뷰를 수집하기 시작하는 방법

Amazon, Google Reviews 및 Yelp에서 자동으로 리뷰를 수집하는 것은 마케팅 담당자, 분석가 및 전자상거래 전문가에게 강력한 도구입니다. 주요 장애물은 차단입니다. 그리고 주요 해결책은 올바른 프록시 유형과 적절한 회전 및 지연 설정입니다.

요약하자면: Amazon과 Yelp에는 필요한 국가의 지리적 위치를 가진 주거용 프록시를 사용하십시오. Google Reviews에는 모바일 프록시를 사용해야 하며, 이는 성공적인 요청 비율이 가장 높습니다. 데이터 센터 프록시는 이러한 작업에 거의 쓸모가 없습니다 — 그들의 IP는 이미 블랙리스트에 올라 있습니다.

코드 없이 사용할 수 있는 도구로는 Octoparse와 Apify가 가장 적합합니다 — 두 도구 모두 외부 프록시 연결 및 자동 회전을 지원합니다. Google Reviews의 경우, 데이터 수집을 위해 최적화된 전문 서비스인 Outscraper도 고려해 보십시오 — 이는 Google Maps 데이터 수집에 최적화되어 있습니다.

여러 플랫폼에서 정기적으로 리뷰를 수집할 계획이라면, 주거용 프록시로 시작하는 것이 좋습니다 — 이는 속도, 익명성 및 비용 간의 최적의 균형을 제공하며, 리뷰 모니터링의 대부분의 작업에 적합합니다. Google Reviews와 같이 보호가 특히 공격적인 경우에는 모바일 프록시를 고려해야 합니다 — 이는 캡차 없이 성공적인 요청 비율이 가장 높습니다.

```