加州消费者隐私法案(CCPA)对收集和处理加州居民的信息施加了严格的限制。如果您从事市场平台抓取、竞争对手价格监控或通过代理收集公共数据,了解法律要求及其遵守方法至关重要。
本指南将探讨在 CCPA 背景下使用代理的实际方面:可以收集哪些数据,如何设置流程以符合法律要求,并避免因违规而面临高达 7,500 美元的罚款。
什么是 CCPA,适用对象是什么
加州消费者隐私法案(CCPA)是于 2020 年 1 月 1 日生效的加州个人数据保护法。这是美国最严格的隐私法之一,常常与欧洲的 GDPR 相提并论。2023 年,该法律通过 CPRA(加州隐私权法案)进行了加强。
CCPA 适用于收集加州居民个人数据的商业组织,并符合以下至少一个标准:
- 年收入超过 2500 万美元
- 公司每年处理 100,000 个以上消费者、家庭或设备的个人数据
- 50% 或更多收入来自销售消费者的个人数据
重要一点:法律适用于公司,无论其所在地。如果您在俄罗斯、哈萨克斯坦或乌克兰工作,但收集加州居民的数据 — CCPA 适用于您的活动。
实际例子:如果您从美国市场(如亚马逊、eBay、沃尔玛)抓取数据,或收集美国竞争对手的价格信息,很可能这些数据中包含加州居民的信息。
根据 CCPA,哪些数据被视为个人数据
CCPA 对个人信息的定义非常广泛 — 任何能够识别、与特定消费者或家庭相关、描述或可以合理关联的任何数据都被视为个人信息。该列表包括超过 10 类数据。
| 数据类别 | 示例 | 抓取风险 |
|---|---|---|
| 标识符 | 姓名、电子邮件、电话、IP 地址、cookie ID | 高 |
| 商业信息 | 购买历史、商品偏好 | 中等 |
| 互联网活动数据 | 浏览历史、搜索查询、与网站的互动 | 高 |
| 地理定位数据 | 物理位置、GPS 坐标 | 中等 |
| 生物识别数据 | 指纹、面部识别 | 低 |
| 职业信息 | 职位、雇主、就业历史 | 中等 |
关键点:即使您没有直接收集姓名和电子邮件,使用代理时传输的 IP 地址和 cookie 也已被视为 CCPA 下的个人标识符。
使用代理与 CCPA 要求的关系
代理服务器本身并不违反 CCPA — 它是一种路由流量的技术工具。问题不在于使用代理,而在于您通过它们收集哪些数据以及如何处理这些数据。
使用代理的典型场景,可能会出现 CCPA 合规性问题:
1. 抓取市场平台和电子商务网站
当您通过 住宅代理 收集亚马逊、沃尔玛、eBay 的商品数据时,您可能会无意中收集到个人信息:带有姓名的客户评论、用户评分、客户提问。如果这些用户是加州居民,则适用 CCPA。
2. 竞争对手价格监控
通过代理监控价格时,您可能会看到基于地理位置和用户历史的个性化价格。收集此类数据可能会被视为处理消费者商业信息。
3. 从社交媒体收集数据
通过代理抓取 Instagram、Facebook、LinkedIn 的公共资料进行市场研究是直接收集个人数据。即使资料是公开的,CCPA 也要求遵守特定规则。
使用代理使情况复杂,因为您掩盖了自己的真实身份和位置。从 CCPA 的角度来看,这本身并不构成违规,但如果您秘密收集个人数据并未向消费者提供选择退出收集的机会 — 这就是一个问题。
通过代理合法收集数据的方法
CCPA 并不完全禁止数据收集 — 法律规范透明度、消费者对其数据的控制权和信息使用目的。以下是一些帮助您在使用代理时保持合规的方法。
方法 1:仅收集公共非个人数据
专注于不识别特定个人的数据:
- 不与用户关联的商品价格
- 汇总统计数据(平均商品评分、评论数量)
- 产品技术规格
- 仓库中商品的可用性
- 关于公司的公共数据(而非个人)
在通过代理抓取市场平台时,设置脚本以忽略用户内容块:带有姓名的评论、客户提问、用户资料。
方法 2:数据匿名化和汇总
如果您需要收集可能包含个人信息的数据,请立即进行匿名化:
- 自动删除收集数据中的姓名、电子邮件、电话
- 将精确的 IP 地址替换为范围或区域
- 汇总数据:将“用户 John 购买了商品 X” → “商品 X 被购买了 150 次”
- 如果需要进行分析,请使用哈希处理标识符
重要的是:匿名化必须是不可逆的。如果您可以从匿名化的数据集中恢复个人数据 — CCPA 仍然适用。
方法 3:遵守 robots.txt 和服务条款
虽然这不是 CCPA 的直接要求,但遵守网站规则显示了诚信:
- 在抓取之前检查 robots.txt 文件 — 许多网站明确禁止收集特定数据
- 阅读目标网站的服务条款 — 可能会对自动数据收集有限制
- 在通过代理请求之间使用合理的延迟(速率限制)
- 如果可能,通过 User-Agent 识别您的爬虫
方法 4:透明性和文档化目的
CCPA 要求公司在数据收集方面保持透明:
- 记录您收集的数据及其目的
- 如果您有网站 — 发布隐私政策,描述数据收集实践
- 仅保留数据以满足声明的目的
- 未经明确同意,不将收集的数据出售给第三方
实用建议:如果您使用 数据中心代理 进行抓取,请记录过程:抓取什么,如何过滤个人数据,存储信息的时间。这将有助于在检查时提供支持。
公共数据与个人信息:界限在哪里
最常见的问题之一是:“如果数据在互联网上公开可用,是否可以自由收集?” CCPA 并未对公共数据做出例外 — 如果信息能够识别加州居民,则适用该法律。
| 数据类型 | 公共访问 | 适用 CCPA | 建议 |
|---|---|---|---|
| 商品价格 | 是 | 否 | 安全抓取 |
| 带有用户姓名的评论 | 是 | 是 | 收集时删除姓名 |
| 来自公共 LinkedIn 资料的电子邮件 | 是 | 是 | 高风险,避免 |
| 销售汇总统计数据 | 是 | 否 | 安全抓取 |
| 网站访客的 IP 地址 | 否(技术数据) | 是 | 需要隐私政策 |
| Instagram 的公共帖子 | 是 | 取决于内容 | 匿名化作者 |
关键规则:数据的公开性并不取消其作为个人信息的身份。如果您收集能够识别个人的公共数据,CCPA 适用。唯一的区别在于,对于公共数据,更容易证明“合法利益”作为处理的依据。
CCPA 的例外情况
法律规定了几个例外情况,数据不被视为个人信息:
- 来自政府来源的公开信息(国家登记册、法院记录)
- 无法与特定消费者关联的去标识化数据
- 关于消费者的汇总信息
- 在遵循伦理标准的情况下进行的科学研究中收集的数据
数据抓取时遵守 CCPA 的检查清单
在启动任何通过代理收集数据的项目之前,如果您的目标受众或数据来源与加州相关,请使用此检查清单:
✅ 规划阶段
- 确定您需要哪些数据,以及它们是否属于 CCPA 的个人数据
- 评估您的公司是否受 CCPA 约束(收入、数据量标准)
- 记录数据收集的合法依据(合法利益、合同、同意)
- 检查目标网站的服务条款,了解抓取的限制
✅ 技术设置阶段
- 设置过滤器以自动删除个人标识符(姓名、电子邮件、电话)
- 使用 住宅代理 进行轮换以最小化痕迹
- 实施速率限制以遵守 robots.txt
- 设置自动匿名化 IP 地址和其他标识符
- 以加密形式存储收集的数据
✅ 文档阶段
- 创建隐私政策,描述数据收集实践(如果您有网站或服务)
- 记录处理消费者数据删除请求的程序
- 保持数据处理日志:收集了什么,何时,目的是什么
- 设定数据存储期限和自动删除程序
✅ 运营阶段
- 定期检查收集的数据是否包含个人信息
- 未经明确同意,不出售或转让数据给第三方
- 在数据收集实践发生变化时更新隐私政策
- 培训团队了解 CCPA 的基础知识和数据处理程序
- 设置处理消费者数据访问/删除请求的机制
设置代理以最小化法律风险
正确设置代理并不能保证遵守 CCPA,但可以帮助最小化风险,并在检查时展示诚信。
根据任务选择代理类型
| 代理类型 | 更适合于 | CCPA 风险 |
|---|---|---|
| 住宅代理 | 抓取市场平台、从社交媒体收集公共数据 | 中等 — 看起来像普通用户 |
| 移动代理 | 从移动应用收集数据、检查地理定位 | 中等 — 高匿名性 |
| 数据中心代理 | 大规模抓取非个人数据(价格、可用性) | 低 — 如果不收集个人数据 |
代理设置以符合法律要求
1. IP 地址轮换:使用自动 IP 轮换来分配负载,避免将收集的数据绑定到单一标识符。这使得创建用户档案变得更加困难。
2. 地理绑定:如果您不处理加州居民的数据,请设置代理以排除加州 IP。大多数代理提供商允许选择区域。
3. 请求日志记录:记录所有通过代理的请求及其时间戳。这将有助于证明遵守速率限制并在检查时没有滥用行为。
4. User-Agent 和身份识别:一些律师建议使用诚实的 User-Agent 来识别您的爬虫(例如,“MyCompanyBot/1.0”)。这表明透明度,但可能增加被封锁的风险。
重要:使用 移动代理 绕过封锁本身并不违反 CCPA,但如果您绕过保护以收集个人数据而未获得同意 — 这可能被视为违规。
违反 CCPA 的罚款及实际案例
CCPA 规定了两种类型的罚款:行政罚款(由加州总检察长处以)和消费者的民事诉讼。
罚款金额
- 行政罚款:每次无意违规最高 2,500 美元,每次故意违规最高 7,500 美元
- 民事诉讼:每位消费者每次数据泄露事件 100-750 美元(或实际损害赔偿,如果更高)
- 集体诉讼:如果泄露了数千用户的数据,金额可能高达数百万美元
违反 CCPA 的实际案例
Sephora — 120 万美元罚款(2022)
公司在未提供选择退出的情况下将消费者的个人数据出售给第三方。这是违反 CCPA 的首个重大罚款。教训:如果您收集数据并将其传递给他人 — 这在 CCPA 下被视为“销售”,需要通知。
DoorDash — 集体诉讼(2020)
490 万用户的数据泄露导致根据 CCPA 提起集体诉讼。虽然案件已在庭外和解,但它表明即使是初创公司也可能面临严重后果。
Clearview AI — 持续调查
公司从社交媒体收集照片(公共数据)以创建面部识别数据库。尽管数据是公开的,但 Clearview 面临多起诉讼,包括违反 CCPA 的指控。教训:即使是收集公共个人数据也可能导致问题。
对于中小企业来说,如果您符合 CCPA 的标准,罚款风险是现实的。加州总检察长积极调查消费者投诉,自 2023 年起,成立了专门的加州隐私保护局(CPPA)以监督法律的遵守。
如何降低罚款风险
- 进行数据审计:您收集了什么,如何存储,传递给谁
- 实施处理消费者请求的程序(访问、删除、拒绝出售数据)
- 在网站上发布隐私政策,描述数据收集实践
- 培训团队了解 CCPA 的基础知识和响应请求的程序
- 考虑购买网络风险保险,涵盖隐私违规的罚款
- 如有疑问,请咨询专门从事隐私法的律师
结论
CCPA 对收集加州居民个人数据的公司施加了严厉的要求,无论您是否使用代理。遵守法律的关键原则包括:数据收集目的的透明性、个人信息量的最小化、赋予消费者对其数据的控制权和安全存储。
使用代理收集数据是合法的,前提是您专注于非个人信息或立即匿名化个人数据。记录过程,遵守目标平台的服务条款,并准备好证明您行为的合法性。
请记住:违反 CCPA 的罚款可能高达数百万美元,但通过正确设置数据收集和处理流程,大多数问题可以避免。投资于法律合规将为您提供法律风险的保护和用户的信任。
如果您计划从美国来源收集数据,建议使用 住宅代理,并选择地理位置 — 这将使您能够从轮换中排除加州 IP,或相反,根据您的业务需求和法律要求特定地区收集数据。