블로그로 돌아가기

DataDome 우회용 프록시: 보호 작동 원리 및 크롤링에 실제로 도움이 되는 방법

DataDome은 대형 사이트에서 파서와 봇을 차단합니다. 이 보호 기능이 어떻게 작동하는지, 그리고 차단 없이 우회하는 데 실제로 도움이 되는 프록시는 무엇인지 알아봅니다.

📅2026년 5월 17일
```html

파서를 설정하고 데이터를 수집하기 시작했는데 몇 분 후에 CAPTCHA 페이지나 빈 응답을 받았다면, 아마도 사이트가 DataDome으로 보호되고 있을 것입니다. 이는 시장에서 가장 공격적인 봇 방지 시스템 중 하나이며, 일반 데이터 센터 프록시는 이 경우 도움이 되지 않습니다. 이 기사에서는 DataDome이 봇을 어떻게 감지하는지, 어떤 유형의 프록시가 효과를 주는지 살펴보겠습니다.

DataDome이란 무엇이며 어디에 사용되는가

DataDome은 대형 온라인 상점, 뉴스 포털, 마켓플레이스 및 예약 서비스에서 사용하는 상업용 SaaS 봇 방지 플랫폼입니다. 이 회사는 2015년에 설립되었으며 현재 수십억 건의 요청을 처리하는 수천 개의 웹사이트를 보호하고 있습니다.

DataDome의 고객으로는 Reddit, Foot Locker, Rakuten, AngelList 등 많은 대형 플랫폼이 있습니다. 경쟁사의 가격 모니터링, 제품 카드 파싱, 해외 마켓플레이스에서 데이터 수집 또는 뉴스 집계를 하고 있다면, 이미 이 시스템을 경험했을 가능성이 높습니다.

DataDome으로 보호되는 사이트의 특징적인 징후는 다음과 같습니다:

  • 연속적인 요청 후 CAPTCHA 페이지가 나타납니다
  • 서버 응답에 x-datadome-cid 헤더가 포함되어 있습니다
  • geo.captcha-delivery.com 도메인으로 리디렉션됩니다
  • 하나의 IP에서 빈번한 요청 시 HTTP 응답 403 또는 429가 발생합니다
  • 첫 방문 시 JavaScript 챌린지 (브라우저 검사 페이지)

DataDome은 실시간으로 작동합니다: 모든 들어오는 요청은 밀리초 단위로 분석됩니다. 시스템은 사용자를 통과시키거나 CAPTCHA를 표시하거나 차단할지를 결정하는데, 이는 서버가 페이지의 주요 콘텐츠를 제공하기 전에 이루어집니다. 따라서 단순한 IP 차단보다 우회하기가 더 어렵습니다.

DataDome이 봇을 식별하는 방법: 보호 메커니즘

어떤 프록시가 작동하는지 이해하려면 DataDome이 무엇을 분석하는지 알아야 합니다. 이 시스템은 다단계 접근 방식을 사용합니다 — 어떤 요인도 단독으로 차단 기준이 되지 않습니다. 결정은 신호의 조합을 기반으로 합니다.

1. IP 주소의 평판

DataDome이 가장 먼저 확인하는 것은 외부 및 내부 데이터베이스에 따른 IP 주소의 평판입니다. 시스템은 IP가 데이터 센터 (AWS, Google Cloud, Hetzner, DigitalOcean), VPN 제공업체에 속하는지 또는 실제 가정용/모바일 주소인지 즉시 식별합니다. 데이터 센터의 IP는 행동 분석 전에 자동으로 높은 "의심 점수"를 부여받습니다.

2. 행동 분석

DataDome은 요청 속도, 페이지 방문 순서, 클릭 간 시간, 마우스 움직임 (JavaScript가 있는 경우) 등의 행동 패턴을 추적합니다. 실제 사용자는 일시 중지를 하고 논리적인 경로를 따라 이동하며 때때로 뒤로 돌아갑니다. 봇은 일반적으로 일정한 간격으로 요청을 하고, 엄격하게 정의된 URL로만 이동하며 "무작위" 편차가 없습니다.

3. JavaScript 지문

요청이 브라우저 (또는 Puppeteer/Playwright와 같은 헤드리스 브라우저)를 통해 이루어지면, DataDome은 환경의 "지문"을 수집하는 JavaScript 스크립트를 실행합니다: 브라우저 버전, 설치된 글꼴, 화면 해상도, WebGL 지원, 캔버스 지문, 플러그인 유무 등이 포함됩니다. 추가적인 마스킹 없이 헤드리스 브라우저는 특성 파라미터로 쉽게 식별됩니다.

4. HTTP 헤더

요청 헤더가 분석됩니다: User-Agent, Accept-Language, Accept-Encoding, Referer, sec-ch-ua 등입니다. 선언된 User-Agent와 실제 요청 파라미터 간의 불일치는 봇의 강력한 신호입니다.

5. 실시간 머신 러닝

수집된 모든 신호는 실제 사용자 및 봇에 대한 방대한 데이터 세트로 학습된 ML 모델에 의해 처리됩니다. 모델은 지속적으로 업데이트되며, 한 달 전에 작동하던 것이 오늘은 작동하지 않을 수 있습니다. 따라서 정적 솔루션은 빠르게 구식이 됩니다.

데이터 센터 프록시가 DataDome에 대해 작동하지 않는 이유

이는 보호된 사이트에서 작업을 시작하는 사람들에게 가장 자주 묻는 질문입니다. 데이터 센터 프록시는 저렴하고 빠르며 높은 가동 시간을 자랑합니다. 파싱에 이상적인 선택처럼 보입니다. 그러나 DataDome에 대해서는 거의 쓸모가 없습니다.

이유는 간단합니다: DataDome은 모든 주요 호스팅 제공업체의 ASN (자율 시스템) 데이터베이스를 유지하고 사용합니다. 요청이 Amazon Web Services 또는 OVH의 서브넷에 속하는 IP 주소에서 오면, 시스템은 즉시 "의심스러운" 상태를 부여합니다. 당신의 파서가 사람의 행동을 완벽하게 모방하더라도, 데이터 센터의 IP는 이미 당신을 위험에 빠뜨립니다.

⚠️ 중요 사항

데이터 센터 프록시는 보호가 약하거나 없는 작업에 적합합니다: 공개 데이터 파싱, 안티봇 시스템이 없는 API 작업, 속도 테스트 등. 그러나 DataDome이 있는 사이트에서는 처음 몇십 개의 요청에서 90% 이상의 차단을 초래합니다.

또 다른 문제는 "소진된" IP입니다. 수천 명의 사용자가 이전에 동일한 IP 주소를 봇 활동에 사용했다면 (저렴한 데이터 센터 풀에서는 일반적입니다), DataDome은 이미 해당 주소에 대한 부정적인 기록을 가지고 있습니다. 이러한 IP에서의 첫 요청도 차단될 수 있습니다.

주거용 프록시: 우회의 주요 도구

주거용 프록시는 실제 가정용 인터넷 사용자에게 속하는 IP 주소입니다. 이들은 인터넷 제공업체 (Ростелеком, Comcast, Deutsche Telekom 등)에서 제공되며 DataDome의 관점에서 보면 집에서 컴퓨터를 사용하는 일반 사용자처럼 보입니다.

그래서 주거용 프록시는 DataDome이 있는 사이트를 파싱하는 데 주요 작업 도구입니다. 이들은 IP 평판에 대한 초기 검사를 통과하여 향후 작업을 위한 "신뢰의 크레딧"을 제공합니다.

DataDome에 대한 주거용 프록시 선택 시 고려해야 할 사항

매개변수 중요한 점 왜 중요한가
회전 유형 각 요청마다 회전 또는 5-30분 세션 DataDome은 IP의 이력을 추적합니다 — 너무 잦은 변경도 의심스러움
지리적 위치 목표 사이트의 국가에서 온 IP 다른 국가에서의 요청은 추가적인 의심 신호
풀 크기 수백만 개의 IP, 수천 개가 아님 작은 풀은 빨리 "소진"됩니다 — DataDome은 활성 주소를 기억합니다
스티키 세션 하나의 IP를 10-30분 유지할 수 있는 기능 다중 페이지 파싱을 위해 하나의 세션은 하나의 사용자처럼 보여야 합니다
속도 연결당 5-10 Mbps 이상 느린 프록시는 요청 시간을 늘려 타이밍에 영향을 미칩니다

중요한 점: 주거용 프록시는 스스로 DataDome을 100% 우회할 수 있는 보장을 하지 않습니다. 이들은 IP 평판 문제를 해결하지만, 만약 당신의 파서가 한 주소에서 분당 100개의 요청을 하거나 잘못된 헤더를 보내면 — DataDome은 여전히 차단할 것입니다. IP는 보호의 한 수준일 뿐입니다.

모바일 프록시: 최대 신뢰가 필요한 경우

모바일 프록시는 모바일 통신사 (4G/5G 네트워크)의 IP 주소입니다. 이들은 특별한 특성을 가지고 있습니다: 하나의 모바일 통신사 IP 주소는 NAT를 통해 수천 명의 실제 사용자에 의해 동시에 사용될 수 있습니다. DataDome은 이를 알고 있으며, 따라서 모바일 IP에 대해 최대한의 신뢰를 부여합니다.

모바일 IP를 차단하는 것은 잠재적으로 수천 명의 실제 통신사 고객을 차단하는 것을 의미합니다 — 정상적인 사이트는 이를 감수하지 않을 것입니다. 그래서 모바일 프록시는 DataDome이 있는 사이트에 대한 성공적인 요청 비율이 가장 높습니다.

모바일 프록시를 주거용 프록시 대신 선택해야 하는 경우:

  • 사이트가 매우 공격적으로 보호되고 있는 경우 — 주거용 프록시는 낮은 요청 빈도에서도 차단됩니다
  • 모바일 버전의 사이트를 파싱하는 경우 — 모바일 IP + 모바일 User-Agent는 자연스럽게 보입니다
  • 애플리케이션 작업이 필요한 경우 — 모바일 API를 파싱하는 경우, 모바일 IP는 요청에 논리적으로 부합합니다
  • 장기 세션이 필요한 경우 — 모바일 프록시는 IP 변경 없이 세션을 잘 유지합니다

모바일 프록시의 단점은 주거용 프록시보다 비싸고 일반적으로 IP 풀 크기가 작다는 것입니다. 수천 개의 요청을 처리하는 대규모 파싱의 경우 이는 제한이 될 수 있습니다. 이러한 경우 최적의 전략은 모바일 프록시를 "정찰" 및 복잡한 페이지에 사용하고, 주거용 프록시는 대량 데이터 수집에 사용하는 것입니다.

회전 및 지연 전략: 좋은 프록시로도 발각되지 않는 방법

주거용 또는 모바일 프록시를 사용하더라도 요청 전략을 잘못 설정하면 차단될 수 있습니다. DataDome은 세션 수준에서 행동을 분석하며, 비정상적인 패턴은 IP 품질과 관계없이 의심을 불러일으킵니다.

DataDome을 통한 안전한 파싱 규칙

✅ 안전한 파싱 체크리스트

  • 요청 간 지연: 3초에서 15초 사이 (무작위, 고정되지 않음)
  • 세션당 하나의 IP에서 20-30개 요청 이상 금지
  • 스티키 세션: 하나의 "사용자 경로"에 대해 하나의 IP 유지
  • 항상 메인 페이지에서 시작한 후 목표 URL로 이동
  • 실제 탐색을 모방: 메인 → 카테고리 → 제품
  • 사이트 언어와 일치하는 프록시의 지리적 위치 사용
  • 세션마다 또는 차단 후 IP 변경
  • 하나의 IP에서 병렬 요청을 시작하지 마세요

회전: IP를 언제 변경할까

여기에는 보편적인 답변이 없습니다 — 모든 것은 특정 사이트에 따라 다릅니다. 그러나 일반적인 논리는 다음과 같습니다: DataDome은 IP의 활동을 슬라이딩 윈도우 (일반적으로 10-60분)에서 기억합니다. 이 시간 동안 하나의 주소에서 의심스럽게 많은 요청이 들어오면 — IP는 임시 차단을 받습니다.

최적의 전략은 타이머가 아닌 요청 수에 따라 IP를 회전하는 것입니다. 예를 들어: 15-25 요청 → IP 변경 → 30-60초 대기 → 새로운 세션. 이러한 접근 방식은 여러 사용자의 행동을 모방하며, 각 사용자가 몇 페이지를 방문하고 떠난 것처럼 보이게 합니다.

헤더 및 지문: IP 외에 DataDome이 확인하는 것

좋은 프록시는 DataDome을 우회하기 위한 필수 조건이지만 충분하지는 않습니다. 시스템은 전체 요청을 분석합니다. IP가 주거용이라 하더라도 헤더가 봇을 드러내면 — 차단은 여전히 발생합니다.

비판적으로 중요한 헤더

DataDome이 HTTP 헤더에서 확인하는 것과 주의해야 할 사항은 다음과 같습니다:

헤더 확인되는 사항 일반적인 오류
User-Agent 현재 브라우저 버전 구식 UA 또는 Python 라이브러리의 UA
Accept-Language 언어가 프록시의 지리적 위치와 일치 프록시가 미국에 있는데 언어가 ru-RU인 경우
sec-ch-ua User-Agent와 일치 Chrome이 선언되었으나 헤더가 없는 경우
Referer 논리적인 전환 체인 Referer 없이 깊은 페이지에 대한 직접 요청
Accept-Encoding 브라우저의 표준 세트 부재 또는 비표준 세트
Cookie DataDome의 세션 쿠키 저장 DataDome의 Set-Cookie 무시

DataDome의 쿠키에 특별한 주의를 기울여야 합니다. 첫 요청 시 시스템은 자신의 쿠키를 설정합니다 (일반적으로 datadome이라고 불립니다). 만약 당신의 파서가 이 쿠키를 저장하고 후속 요청에서 전송하지 않으면 — DataDome은 각 요청을 새로운 사용자의 첫 방문으로 인식하게 되며, 이는 높은 빈도에서 의심스럽게 여겨집니다.

TLS 지문

DataDome의 고급 보호는 TLS 지문도 분석합니다 — SSL/TLS 핸드셰이크의 특성입니다. 다양한 HTTP 라이브러리 (requests, curl, axios)는 브라우저와 다른 특성의 암호 스위트 및 TLS 확장을 가지고 있습니다. 표준 Python 라이브러리인 requests를 사용하는 경우 — 그 TLS 지문은 쉽게 식별됩니다. 해결책은 브라우저 TLS를 모방하는 라이브러리 (예: curl-impersonate 또는 전문 솔루션)를 사용하는 것입니다.

DataDome 사이트 작업을 위한 도구

파싱 도구의 올바른 선택은 프록시 선택만큼이나 중요합니다. 다양한 작업은 다양한 접근 방식을 요구합니다. DataDome과의 호환성 측면에서 주요 옵션을 살펴보겠습니다.

브라우저 자동화 (Puppeteer, Playwright)

헤드리스 브라우저는 이론적으로 DataDome과 잘 작동해야 합니다. JavaScript를 실행하고 "진짜" 지문을 생성하기 때문입니다. 그러나 실제로는 표준 Puppeteer 또는 Playwright는 navigator.webdriver = true, 플러그인 없음, 비표준 WebGL 값과 같은 특성 파라미터로 쉽게 식별됩니다. 우회를 위해서는 puppeteer-extra-plugin-stealth와 같은 플러그인을 통한 추가 마스킹이 필요합니다.

안티디텍트 브라우저

사이트와의 완전한 작업이 필요한 경우 (단순한 파싱뿐만 아니라 상호작용도 포함), 안티디텍트 브라우저가 최적의 선택입니다. Dolphin Anty, AdsPower, GoLogin, Multilogin은 현실적인 지문을 가진 완전한 브라우저 프로필을 생성합니다. 주거용 또는 모바일 프록시와 결합하면 DataDome을 우회하는 데 최대한의 수준을 제공합니다.

안티디텍트 브라우저에서의 연결 방식은 표준입니다: 프로필 생성 → 프록시 설정에서 유형 (HTTP/SOCKS5), 호스트, 포트, 로그인 및 프록시 서비스의 비밀번호를 지정 → 프로필 실행. 각 프로필은 고유한 지문을 가진 격리된 환경에서 작동합니다.

전문 파싱 서비스

ScrapingBee, Apify, Bright Data Scraping Browser와 같은 готов된 서비스가 있으며, 이들은 보호를 우회하는 모든 작업을 처리합니다 — URL을 전달하면 HTML을 받습니다. 이들은 자체 주거용 프록시 풀을 사용하고 CAPTCHA를 자동으로 해결합니다. 단점은 대량의 경우 높은 비용과 프로세스에 대한 낮은 제어입니다.

접근 방식 비교

도구 DataDome에 대한 효율성 설정 난이도 확장성
HTTP 파서 + 주거용 프록시 중간 낮음 높음
Puppeteer/Playwright + 스텔스 + 프록시 높음 중간 중간
안티디텍트 브라우저 + 모바일 프록시 매우 높음 낮음 낮음
준비된 파싱 서비스 높음 매우 낮음 높음 (비쌈)
데이터 센터 프록시 (모든 도구) 매우 낮음

실제 시나리오: 보호된 사이트에서 가격 모니터링

예를 들어, DataDome으로 보호된 해외 마켓플레이스에서 경쟁사의 가격을 모니터링하고 있다고 가정해 보겠습니다. 6시간마다 5000개의 제품에 대한 데이터를 수집해야 합니다. 최적의 구성은 다음과 같습니다:

  1. 도구: 스텔스 플러그인이 있는 Playwright (자동으로 JS 챌린지를 해결)
  2. 프록시: 회전하는 주거용, 지리적 위치 — 목표 사이트의 국가
  3. 세션: 15분 동안 스티키, 하나의 IP에서 20개의 요청
  4. 헤더: 최신 Chrome User-Agent, 올바른 Accept-Language
  5. 쿠키: 하나의 세션 요청 간 DataDome 쿠키 저장 및 전송
  6. 지연: 요청 간 4초에서 12초 사이의 무작위 지연
  7. 세션 시작: 항상 메인 페이지에서 시작한 후 제품으로 이동

이러한 설정으로 요청 성공률은 85-95%에 달하며, 이는 정기적인 모니터링에 충분합니다. 나머지 5-15%는 다른 IP를 통해 재요청합니다.

결론 및 권장 사항

DataDome은 강력한 보호 시스템이지만 극복할 수 없는 것은 아닙니다. 이 시스템을 사용하는 사이트와 성공적으로 작업하기 위한 핵심은 종합적인 접근 방식입니다: 올바른 프록시 유형, 올바른 헤더, 현실적인 행동 및 적절한 회전 전략.

이 기사의 주요 결론은 다음과 같습니다:

  • DataDome에 대한 데이터 센터 프록시는 작동하지 않습니다 — IP 평판 수준에서 차단됩니다
  • 주거용 프록시는 대부분의 파싱 작업을 위한 기본 도구입니다
  • 모바일 프록시는 최대 신뢰를 제공하며 공격적으로 보호된 사이트에 적합합니다
  • 좋은 프록시는 솔루션의 일부일 뿐입니다: 헤더, 쿠키 및 행동도 동일하게 중요합니다
  • 안티디텍트 브라우저와 고품질 프록시의 조합이 최상의 결과를 제공합니다
  • 회전 및 지연 전략은 매우 중요합니다 — 공격적인 파싱을 할 경우 주거용 프록시로도 차단될 수 있습니다

가격 모니터링, 제품 카드 파싱 또는 DataDome으로 보호된 사이트에서 데이터 수집을 하고 있다면, 주거용 프록시로 시작하는 것을 권장합니다 — 이는 보호 우회를 위한 품질과 비용 간의 최적의 균형을 제공합니다. 최대 신뢰 수준이 필요한 작업의 경우, 모바일 프록시를 고려하는 것이 좋습니다 — 특히 모바일 사이트 또는 모바일 애플리케이션 API와 작업하는 경우에 그렇습니다.

```