Voltar ao blog

GDPR e Web Scraping com Proxy: Como Coletar Dados sem Receber Multa de €20 Milhões

Analisamos os requisitos do GDPR para web scraping: quais dados podem ser extraídos, como usar proxies corretamente e proteger o negócio contra multas de até €20 milhões.

📅26 de fevereiro de 2026
```html

Se você está extraindo dados de marketplaces, monitorando preços de concorrentes ou coletando dados para análise — a questão da conformidade com o GDPR (Regulamento Geral sobre a Proteção de Dados) impacta diretamente o seu negócio. As multas podem chegar a €20 milhões ou 4% do faturamento anual da empresa, e os reguladores europeus estão ativamente aplicando essas penalidades. Neste guia, vamos explorar quais dados podem ser coletados legalmente, como usar proxies de forma adequada para estar em conformidade e quais medidas de proteção implementar no processo de coleta de dados.

É importante entender: o GDPR não regula a coleta de dados em si, mas sim o tratamento de dados pessoais de cidadãos da UE. Mesmo que sua empresa esteja fora da Europa, se você coleta dados de usuários europeus — o regulamento se aplica a você.

O que é o GDPR e como ele se aplica à coleta de dados

O GDPR (Regulamento Geral sobre a Proteção de Dados) é um regulamento europeu sobre a proteção de dados pessoais que entrou em vigor em maio de 2018. Ele se aplica a qualquer empresa ou indivíduo que processe dados pessoais de cidadãos da União Europeia, independentemente da localização da empresa.

Para a coleta de dados, isso significa o seguinte: se você está extraindo dados de sites públicos e coletando informações sobre usuários europeus (nomes, e-mails, telefones, endereços, dados de comportamento), você automaticamente se torna um sujeito da regulamentação do GDPR. Isso se aplica a todas as tarefas populares:

  • Extração de marketplaces (Wildberries, Ozon, Amazon EU) — se você coleta dados de vendedores ou compradores
  • Monitoramento de preços de concorrentes — se os dados incluem informações de contato das empresas
  • Coleta de contatos para B2B — e-mails, telefones, cargos de funcionários das empresas
  • Análise de redes sociais — perfis de usuários, comentários, atividades
  • Agregação de anúncios (imóveis, vagas de emprego, serviços) com dados de contato

Um ponto chave: o GDPR não proíbe a coleta de dados como tal. Ele estabelece regras para o tratamento de dados pessoais. Se você coleta apenas informações públicas não pessoais (preços de produtos, características, descrições sem ligação a pessoas específicas) — formalmente o GDPR não se aplica. Mas assim que os dados incluem nomes, contatos ou identificadores de usuários — as exigências do regulamento entram em vigor.

Importante: As multas por violação do GDPR podem chegar a €20 milhões ou 4% do faturamento anual da empresa (aplica-se o valor maior). Em 2023, os reguladores europeus impuseram multas totalizando mais de €2,5 bilhões. As maiores multas foram aplicadas à Meta (€1,2 bilhões), Amazon (€746 milhões), TikTok (€345 milhões).

Quais dados são considerados pessoais segundo o GDPR

O GDPR define dados pessoais de forma muito ampla: é qualquer informação relacionada a uma pessoa física identificada ou identificável. Na prática, ao coletar dados, os dados pessoais incluem:

Categoria de dados Exemplos na coleta de dados Nível de risco
Identificadores diretos Nome completo, e-mail, telefone, endereço, foto de perfil, nome de usuário em redes sociais Alto
Identificadores indiretos Endereço IP, ID de cookie, impressão digital do dispositivo, geolocalização, histórico de visualizações Médio
Categorias especiais Origem racial, opiniões políticas, religião, saúde, biometria Crítico
Informações comerciais Cargo, empresa, e-mail/telefone de trabalho, perfil no LinkedIn Médio
Dados não pessoais Preços de produtos, características, descrições, estatísticas sem ligação a pessoas Baixo

Um erro comum: achar que dados publicamente disponíveis podem ser coletados e utilizados livremente. O GDPR não faz exceções para informações públicas. Se você está extraindo perfis do LinkedIn, contatos de sites corporativos ou anúncios com telefones — isso são dados pessoais, e as exigências do regulamento se aplicam integralmente.

Atenção especial deve ser dada aos endereços IP. O tribunal europeu decidiu em 2016 que endereços IP dinâmicos são dados pessoais, pois o provedor pode identificar o usuário. Isso é importante ao usar proxies: se você registra os endereços IP dos usuários finais durante a coleta de dados — isso é tratamento de dados pessoais.

O GDPR exige uma base legal para o tratamento de dados pessoais. Para a coleta de dados, as seguintes bases são aplicáveis (artigo 6 do GDPR):

1. Consentimento do sujeito dos dados (Consent)

A base mais óbvia, mas a menos aplicável à coleta de dados. O consentimento deve ser:

  • Voluntário e consciente
  • Específico (para um propósito determinado)
  • Informado (o usuário entende o que você faz com os dados)
  • Revogável (pode ser facilmente retirado)

Ao coletar dados, obter tal consentimento é praticamente impossível — você coleta dados automaticamente, sem interação com os usuários. Portanto, essa base é raramente aplicada.

2. Interesses legítimos (Legitimate Interests)

A base mais frequentemente utilizada para a coleta de dados. Você pode processar dados se isso for necessário para seus interesses legítimos, desde que os interesses do sujeito dos dados não superem os seus. Exemplos de interesses legítimos:

  • Monitoramento de preços de concorrentes — para formular sua própria estratégia de preços
  • Análise de mercado — para análise de negócios e pesquisas
  • Identificação de fraudes — coleta de dados para proteção contra fraudes
  • Melhoria de serviços — agregação de dados públicos para criar um produto útil

É importante realizar um teste de balanceamento de interesses (Legitimate Interest Assessment, LIA): documentar por que seu interesse supera os interesses dos usuários. Por exemplo, se você está extraindo preços de produtos em um marketplace — isso é um interesse justificado. Mas se você está coletando e-mails para spam — isso é uma violação.

3. Cumprimento de contrato ou tarefa pública

Essas bases são raramente aplicadas na coleta de dados. O cumprimento de contrato é relevante se você está coletando dados para prestar um serviço conforme um contrato com o usuário (por exemplo, um agregador de vagas coleta dados para mostrar aos usuários). A tarefa pública é para órgãos governamentais.

Dica prática:

Documente a base legal para cada tipo de dado coletado. Crie um documento interno (Data Processing Record), onde você descreve: quais dados você coleta, para quais fins, com qual base legal, como você armazena e protege. Isso é a primeira coisa que os reguladores solicitarão durante uma auditoria.

O papel dos proxies na conformidade com o GDPR: proteção e anonimização

Os servidores proxy desempenham um papel duplo no contexto da conformidade com o GDPR durante a coleta de dados. Por um lado, eles ajudam a minimizar a coleta de dados pessoais e proteger a privacidade. Por outro lado, eles mesmos podem criar riscos se usados de forma inadequada.

Como os proxies ajudam a cumprir o GDPR

1. Anonimização de solicitações. Quando você usa proxies residenciais para coleta de dados, o site alvo vê o endereço IP do servidor proxy, e não o seu IP real. Isso significa que o site não pode identificar diretamente sua empresa como a fonte das solicitações. Para o GDPR, isso é importante se você deseja minimizar a divulgação de seus próprios dados.

2. Distribuição geográfica. Proxies residenciais e móveis permitem fazer solicitações com endereços IP de diferentes países. Isso é útil para coletar dados específicos de uma região (por exemplo, preços em diferentes países da UE), sem a necessidade de presença física. Ao mesmo tempo, você cumpre o princípio da minimização — coleta apenas os dados disponíveis em uma região específica.

3. Rotação de IP para minimizar rastros. A rotação automática de endereços IP através de proxies ajuda a evitar a criação de um perfil de sua atividade de coleta de dados no site alvo. Isso reduz o risco de que o site colete e armazene seus metadados (horários das solicitações, padrões de comportamento), que podem ser dados pessoais.

Riscos do uso de proxies no contexto do GDPR

1. Registro de dados pelo provedor de proxy. Se seu provedor de proxy registra suas solicitações e os endereços IP dos usuários finais — ele se torna um processador de dados pessoais (Data Processor) segundo o GDPR. Você é obrigado a firmar um Acordo de Processamento de Dados (Data Processing Agreement, DPA) com ele, onde estão descritas as obrigações de proteção de dados. Escolha provedores que oferecem política de no-log ou que estão dispostos a assinar um DPA.

2. Uso de proxies para contornar proteções. Alguns sites bloqueiam a coleta de dados através de medidas técnicas (limitação de taxa, CAPTCHA, bloqueios de IP). Usar proxies para contornar essas medidas pode violar não apenas o GDPR, mas outras leis (por exemplo, a Lei de Fraude e Abuso de Computadores nos EUA ou a Diretiva de Comércio Eletrônico na UE). O GDPR não se aplica aqui, mas há riscos legais.

3. Proxies de provedores não confiáveis. Se você usa proxies públicos baratos ou proxies com fontes de IP desconhecidas — há o risco de que esses IPs estejam comprometidos ou usados para atividades ilegais. Isso pode levar a que os dados coletados sejam considerados obtidos de forma ilegal.

Tipo de proxy Vantagens para o GDPR Riscos
Proxies residenciais IPs reais de usuários domésticos, alta anonimidade, baixo risco de bloqueio É necessário garantir que os proprietários dos IPs tenham dado consentimento ao provedor
Proxies móveis IPs de operadoras móveis, ideais para redes sociais, raramente bloqueados Alto custo, menos controle sobre a geolocalização
Proxies de data center Alta velocidade, baixo custo, controle total do provedor Fácil detecção, frequentemente bloqueados, não adequados para tarefas sensíveis

Princípio da minimização de dados: colete apenas o necessário

Um dos princípios-chave do GDPR é a minimização de dados (artigo 5). Você deve coletar apenas os dados pessoais que são realmente necessários para atingir o objetivo declarado. Isso impacta diretamente a configuração da coleta de dados.

Passos práticos para minimização

1. Filtre os dados na etapa de coleta. Não salve toda a página inteira — extraia apenas os campos necessários. Por exemplo, se você está extraindo dados de um marketplace para monitoramento de preços, não salve os nomes dos vendedores, suas classificações ou contatos. Colete apenas o nome do produto, preço e SKU.

# Ruim — salvando tudo
product_data = {
    'title': title,
    'price': price,
    'seller_name': seller_name,  # Dados pessoais!
    'seller_email': seller_email,  # Dados pessoais!
    'seller_rating': seller_rating,
    'reviews': reviews  # Podem conter nomes de compradores!
}

# Bom — apenas o necessário
product_data = {
    'title': title,
    'price': price,
    'sku': sku,
    'availability': availability
}

2. Anonimize ou pseudonimize os dados. Se você precisa acompanhar a dinâmica (por exemplo, a mudança de preços de um vendedor específico), não armazene o nome do vendedor — crie um hash do seu ID. Isso é pseudonimização: os dados não podem ser lidos diretamente, mas podem ser correlacionados.

import hashlib

# Pseudonimização do ID do vendedor
seller_id_hash = hashlib.sha256(seller_id.encode()).hexdigest()

product_data = {
    'title': title,
    'price': price,
    'seller_hash': seller_id_hash  # Impossível recuperar o ID original
}

3. Exclua dados após o uso. O GDPR exige que os dados sejam armazenados por não mais do que o necessário (limitação de armazenamento). Se você coleta preços para um relatório diário — exclua dados com mais de 30-60 dias. Configure a limpeza automática do banco de dados.

4. Não colete categorias especiais de dados. Evite coletar dados sobre raça, saúde, opiniões políticas, religião (artigo 9 do GDPR). Para esses dados, é necessário consentimento explícito ou fundamentos muito fortes. Na coleta de dados, isso é quase impossível de justificar.

Exemplo prático: Uma empresa estava extraindo dados do LinkedIn para coletar contatos de profissionais de RH. Eles coletavam nome completo, e-mail, foto de perfil, cargo atual, locais de trabalho anteriores. Segundo o GDPR, isso é excessivo — para envio de e-mails, basta o e-mail e o cargo. A foto, o histórico de trabalho e o nome completo são dados pessoais desnecessários, aumentando os riscos.

Armazenamento seguro dos dados coletados

O GDPR exige que se assegure a segurança dos dados pessoais (artigo 32). Se você coleta dados através da coleta de dados, deve protegê-los contra vazamentos, acesso não autorizado e perda. Aqui estão as medidas mínimas:

Medidas técnicas de proteção

  • Criptografia de dados em repouso (at rest). Armazene o banco de dados com os dados coletados em formato criptografado. Use AES-256 ou padrões semelhantes. Provedores de nuvem (AWS, Google Cloud, Azure) oferecem criptografia automática de discos.
  • Criptografia de dados em trânsito (in transit). Todas as solicitações para APIs, bancos de dados e proxies devem ser feitas via HTTPS/TLS. Nunca transmita dados pessoais por canais não criptografados.
  • Controle de acesso. Limite o acesso ao banco de dados: apenas funcionários autorizados devem ver os dados coletados. Use controle de acesso baseado em funções (RBAC) e registre todas as acessos aos dados.
  • Backups regulares. Faça cópias de segurança, mas armazene-as com a mesma segurança que os dados principais. Backups criptografados, acesso por autenticação de dois fatores.
  • Monitoramento e auditoria. Configure um sistema de monitoramento para detectar atividades suspeitas (por exemplo, extração massiva de dados). Realize auditorias de segurança regularmente.

Medidas organizacionais

  • Política de privacidade. Crie um documento interno que descreva como você coleta, armazena e utiliza os dados. Esta é a base para a conformidade.
  • Treinamento de pessoal. Todos os funcionários que têm acesso aos dados devem entender os requisitos do GDPR e as consequências das violações.
  • Nomeação de DPO (Data Protection Officer). Se sua atividade principal envolve monitoramento regular e sistemático de sujeitos de dados em grande escala, o GDPR exige a nomeação de um responsável pela proteção de dados.
  • Plano de resposta a vazamentos. Prepare um procedimento para casos de violação de dados. O GDPR exige que você notifique o regulador dentro de 72 horas após a descoberta da violação.

Checklist de segurança para armazenamento de dados:

  • ✅ Banco de dados criptografado (AES-256 ou superior)
  • ✅ Acesso por senha + 2FA para todos os usuários
  • ✅ Registro de todos os acessos aos dados
  • ✅ Backups regulares (criptografados, em armazenamento separado)
  • ✅ Exclusão automática de dados com mais de N dias
  • ✅ Firewall e proteção contra injeções SQL
  • ✅ Atualizações regulares de software e patches de segurança

Como lidar com solicitações de exclusão de dados

O GDPR concede aos sujeitos de dados (pessoas cujos dados você coletou) uma série de direitos. Para a coleta de dados, os mais relevantes são:

  • Direito de acesso (Right to Access). O usuário pode solicitar uma cópia de todos os dados que você possui sobre ele. Você deve fornecê-los dentro de 30 dias.
  • Direito de exclusão (Right to Erasure / "Right to be Forgotten"). O usuário pode exigir a exclusão de todos os seus dados. Você deve atender ao pedido, a menos que haja fundamentos legais para a retenção.
  • Direito de retificação (Right to Rectification). Se os dados estiverem imprecisos, o usuário pode exigir que sejam corrigidos.
  • Direito de limitação do tratamento (Right to Restriction). Congelamento temporário do tratamento de dados até a resolução de uma disputa.

Um problema na coleta de dados: você muitas vezes não sabe de quem são os dados coletados. Os usuários não se registraram com você, não forneceram e-mail para contato. Como eles podem enviar um pedido? Como você os identifica?

Soluções práticas

1. Crie um formulário público para solicitações. Coloque em seu site uma página "Solicitações de Dados do Sujeito do GDPR" com um formulário onde o usuário pode indicar seu e-mail e descrever quais dados deseja excluir/obter. Informe que você responderá dentro de 30 dias.

2. Verifique as solicitações. Certifique-se de que a solicitação veio do verdadeiro proprietário dos dados. Peça confirmação (por exemplo, envie um código para o e-mail que o usuário indicou como seu). Isso protegerá contra solicitações falsas.

3. Automatize a exclusão. Crie um script que, por e-mail ou outro identificador, exclua todos os dados relacionados do banco de dados. Importante: a exclusão deve ser completa — do banco de dados principal, backups, logs.

# Exemplo de script para exclusão de dados por e-mail
def delete_user_data(email):
    # Exclusão do banco de dados principal
    db.execute("DELETE FROM scraped_contacts WHERE email = ?", (email,))
    
    # Exclusão dos logs (se você os armazena)
    db.execute("DELETE FROM activity_logs WHERE user_email = ?", (email,))
    
    # Marcação nos backups (se não puder excluir imediatamente)
    db.execute("INSERT INTO deletion_queue (email, requested_at) VALUES (?, NOW())", (email,))
    
    # Registro da solicitação de exclusão (para conformidade)
    log_gdpr_request('deletion', email)
    
    return "Dados excluídos com sucesso"

4. Documente todas as solicitações. Mantenha um registro de todas as solicitações do GDPR: quem solicitou, quando, o que foi feito. Isso será necessário durante a auditoria do regulador.

5. Responda dentro do prazo. Você tem 30 dias para responder (pode ser estendido para 60 em casos complexos, mas precisa notificar o solicitante). Perder o prazo é uma violação do GDPR.

Importante: Se você não consegue identificar o usuário em seu banco de dados (por exemplo, você coletou apenas dados agregados sem e-mail), você tem o direito de recusar o pedido. Mas isso precisa ser justificado: "Não armazenamos dados pessoais que permitam identificá-lo". Este é mais um argumento a favor da minimização de dados.

Checklist prático de conformidade com o GDPR para coleta de dados

Use este checklist antes de iniciar qualquer projeto de coleta de dados relacionado a dados pessoais de cidadãos da UE:

Etapa 1: Planejamento

  • ☐ Determine se os dados coletados contêm informações pessoais (nome completo, e-mail, IP, telefones etc.)
  • ☐ Se sim — determine a base legal para a coleta (mais frequentemente: interesses legítimos)
  • ☐ Realize um teste de balanceamento de interesses (LIA) e documente o resultado
  • ☐ Determine o conjunto mínimo de dados necessário para seu objetivo
  • ☐ Estabeleça um prazo de armazenamento de dados (por exemplo, 30 dias)

Etapa 2: Configuração da infraestrutura

  • ☐ Escolha um provedor de proxy com política de no-log ou disposição para assinar um DPA
  • ☐ Configure a criptografia do banco de dados (AES-256)
  • ☐ Configure o controle de acesso (RBAC) aos dados coletados
  • ☐ Ative o registro de todos os acessos aos dados
  • ☐ Configure a exclusão automática de dados após o prazo estabelecido
  • ☐ Configure backups criptografados

Etapa 3: Desenvolvimento do coletor de dados

  • ☐ Implemente a filtragem de dados na etapa de coleta (não salve campos desnecessários)
  • ☐ Use pseudonimização ou anonimização, onde possível
  • ☐ Não colete categorias especiais de dados (raça, saúde, religião etc.)
  • ☐ Use HTTPS para todas as solicitações
  • ☐ Configure a rotação de IP através de proxies para minimizar rastros

Etapa 4: Documentação

  • ☐ Crie um Registro de Processamento de Dados: quais dados, para que, com qual base legal, por quanto tempo armazena
  • ☐ Prepare uma Política de Privacidade para seu site
  • ☐ Se usar contratados (provedor de proxy, armazenamento em nuvem) — assine um DPA
  • ☐ Crie um plano de resposta a vazamentos de dados

Etapa 5: Tratamento de solicitações de sujeitos de dados

  • ☐ Crie um formulário público para solicitações de GDPR em seu site
  • ☐ Configure um processo de verificação de solicitações
  • ☐ Automatize a exclusão de dados mediante solicitação
  • ☐ Mantenha um registro de todas as solicitações do GDPR
  • ☐ Responda às solicitações dentro de 30 dias

Etapa 6: Monitoramento e auditoria

  • ☐ Verifique regularmente quais dados estão sendo coletados (novos campos podem aparecer)
  • ☐ Realize auditorias de segurança do armazenamento de dados (uma vez por trimestre/seis meses)
  • ☐ Treine os funcionários sobre os requisitos do GDPR
  • ☐ Fique atento a atualizações na legislação e jurisprudência

Recomendação sobre o tipo de proxy:

Para tarefas que exigem um alto nível de conformidade e minimização de riscos, recomendamos o uso de proxies residenciais ou móveis de provedores confiáveis. Eles oferecem melhor anonimidade e menor probabilidade de que suas solicitações sejam associadas a coleta de dados em massa. Evite proxies públicos baratos — eles podem estar comprometidos e criar riscos legais adicionais.

Conclusão

A conformidade com o GDPR na coleta de dados não é um obstáculo para os negócios, mas um conjunto de regras que protege tanto você quanto os usuários. Princípios-chave: colete apenas os dados necessários, justifique a base legal, proteja as informações coletadas e esteja pronto para excluir dados mediante solicitação. As multas por violações podem chegar a €20 milhões, mas podem ser totalmente evitadas seguindo as práticas descritas neste artigo.

O uso das ferramentas corretas — proxies, criptografia, automação de exclusão — reduz riscos e simplifica a conformidade com os requisitos. Documente cada passo: quais dados você coleta, por quê, como armazena. Isso não apenas protegerá contra multas, mas também aumentará a confiança de clientes e parceiros.

Se você planeja uma coleta de dados em grande escala envolvendo dados pessoais de cidadãos da UE, recomendamos consultar um advogado especializado em GDPR. Investir em conformidade no início do projeto é muito mais barato do que multas e perdas de reputação em caso de violação.

Para uma coleta de dados segura e anônima, recomendamos o uso de proxies residenciais — eles oferecem um alto nível de anonimidade, minimizam o risco de bloqueios e ajudam a cumprir os princípios de minimização de dados. Escolha provedores com políticas de privacidade transparentes e disposição para assinar um Acordo de Processamento de Dados.

```