```html

JavaScript-Rendering über Proxy: Wie man Blockierungen und Fehler vermeidet

Wenn Sie Websites parsen, die Inhalte über JavaScript laden, werden einfache HTTP-Anfragen ineffektiv. Fügen Sie dazu noch Bot-Schutz und Geolokationsbeschränkungen hinzu – und die Aufgabe wird um ein Vielfaches komplizierter. Proxys lösen einen Teil der Probleme, erfordern aber eine ordnungsgemäße Konfiguration.

Warum JavaScript-Rendering einen Proxy erfordert

Moderne Websites verwenden häufig Frameworks wie React, Vue oder Angular, die Inhalte auf der Client-Seite laden. Wenn Sie eine normale GET-Anfrage senden, erhalten Sie leeres HTML mit einem Tag <div id="root"></div>, nicht den fertigen Inhalt.

Probleme, die Proxys lösen:

Geolokationsbeschränkungen. Websites beschränken den Zugriff nach Ländern. Proxys mit IP aus der erforderlichen Region umgehen diese Beschränkungen.
Bot-Schutz. Cloudflare, hCaptcha und ähnliche Systeme blockieren automatisierte Anfragen. Residential Proxys sehen wie normale Benutzer aus und bestehen Überprüfungen besser.
Rate Limiting. Der Server kann eine IP nach vielen Anfragen blockieren. Proxys verteilen den Datenverkehr und vermeiden Blockierungen.
Anonymität. Verbergen Sie Ihre echte IP beim Parsing.

Headless-Browser und Proxy: Grundlagen

Für JavaScript-Rendering werden Headless-Browser verwendet – Chromium ohne grafische Benutzeroberfläche. Beliebte Optionen:

Puppeteer – Node.js-Bibliothek zur Steuerung von Chrome/Chromium.
Playwright – Cross-Browser-Alternative, unterstützt Chrome, Firefox, Safari.
Selenium – klassische Wahl, funktioniert mit verschiedenen Browsern.

Alle unterstützen Proxys über Browser-Startparameter oder Verbindungsoptionen.

Praktische Konfiguration

Puppeteer mit Proxy

Grundlegendes Beispiel für die Verbindung eines Proxys mit Puppeteer:

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({
    args: [
      '--proxy-server=http://proxy.example.com:8080'
    ]
  });

  const page = await browser.newPage();
  await page.goto('https://example.com');
  
  const content = await page.content();
  console.log(content);
  
  await browser.close();
})();

Wenn der Proxy eine Authentifizierung erfordert:

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch({
    args: [
      '--proxy-server=http://proxy.example.com:8080'
    ]
  });

  const page = await browser.newPage();
  
  // Festlegen von Anmeldeinformationen für den Proxy
  await page.authenticate({
    username: 'user',
    password: 'pass'
  });
  
  await page.goto('https://example.com');
  const content = await page.content();
  
  await browser.close();
})();

Playwright mit Proxy

In Playwright wird der Proxy über den Browser-Kontext konfiguriert:

const { chromium } = require('playwright');

(async () => {
  const browser = await chromium.launch({
    proxy: {
      server: 'http://proxy.example.com:8080',
      username: 'user',
      password: 'pass'
    }
  });

  const context = await browser.newContext();
  const page = await context.newPage();
  
  await page.goto('https://example.com');
  const content = await page.content();
  
  await browser.close();
})();

Proxy-Rotation für mehrere Anfragen

Für großflächiges Parsing ist eine Proxy-Rotation erforderlich. Hier ist ein einfaches Beispiel mit einem Array:

const puppeteer = require('puppeteer');

const proxies = [
  'http://proxy1.com:8080',
  'http://proxy2.com:8080',
  'http://proxy3.com:8080'
];

let proxyIndex = 0;

async function getPageWithProxy(url) {
  const currentProxy = proxies[proxyIndex % proxies.length];
  proxyIndex++;
  
  const browser = await puppeteer.launch({
    args: [`--proxy-server=${currentProxy}`]
  });
  
  const page = await browser.newPage();
  await page.goto(url);
  const content = await page.content();
  
  await browser.close();
  return content;
}

// Verwendung
(async () => {
  const urls = ['https://example.com/1', 'https://example.com/2'];
  for (const url of urls) {
    const content = await getPageWithProxy(url);
    console.log('Parsed:', url);
  }
})();

Typische Fehler und Lösungen

Fehler	Ursache	Lösung
ERR_TUNNEL_CONNECTION_FAILED	Proxy ist nicht erreichbar oder Anmeldeinformationen sind falsch	Überprüfen Sie IP:Port des Proxys, Benutzername/Passwort. Testen Sie über curl
Timeout beim Laden	Langsamer Proxy oder Website blockiert die Anfrage	Erhöhen Sie das Timeout, fügen Sie User-Agent hinzu, verwenden Sie Residential Proxys
403 Forbidden	Website hat den Bot erkannt	Fügen Sie realistische Header hinzu, verwenden Sie Residential Proxys, fügen Sie Verzögerung zwischen Anfragen hinzu
CAPTCHA bei jeder Anfrage	Website sieht denselben User-Agent	Rotieren Sie User-Agent, verwenden Sie verschiedene Proxys für jeden Browser

Hinzufügen realistischer Header

const page = await browser.newPage();

await page.setUserAgent(
  'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
);

await page.setExtraHTTPHeaders({
  'Accept-Language': 'en-US,en;q=0.9',
  'Accept': 'text/html,application/xhtml+xml',
  'Referer': 'https://google.com'
});

await page.goto('https://example.com');

Leistungsoptimierung

Deaktivieren unnötiger Ressourcen

Das Laden von Bildern und Stilen verlangsamt das Parsing. Wenn Sie nur Text benötigen:

const page = await browser.newPage();

// Blockieren Sie das Laden von Bildern und Stilen
await page.on('request', (request) => {
  const resourceType = request.resourceType();
  if (['image', 'stylesheet', 'font', 'media'].includes(resourceType)) {
    request.abort();
  } else {
    request.continue();
  }
});

await page.goto('https://example.com');

Verwendung eines Browser-Pools

Für die parallele Verarbeitung vieler Seiten erstellen Sie einen Browser-Pool, anstatt für jede Anfrage einen neuen Browser zu starten:

const puppeteer = require('puppeteer');

let browser;
const maxPages = 5;
let activePage = 0;

async function initBrowser() {
  browser = await puppeteer.launch({
    args: ['--proxy-server=http://proxy.example.com:8080']
  });
}

async function parsePage(url) {
  const page = await browser.newPage();
  try {
    await page.goto(url);
    const content = await page.content();
    return content;
  } finally {
    await page.close();
  }
}

// Verwendung
(async () => {
  await initBrowser();
  const urls = ['url1', 'url2', 'url3'];
  
  for (const url of urls) {
    await parsePage(url);
  }
  
  await browser.close();
})();

Tools und Bibliotheken

Puppeteer Extra – Erweiterung von Puppeteer mit Plugin-Unterstützung zum Umgehen von Bot-Schutz.
Cheerio – leichte Bibliothek zum Parsing von HTML nach Browser-Rendering.
Axios + Proxy Agent – für einfache Anfragen über Proxy ohne Browser.
Scrapy – Python-Framework mit integrierter Proxy-Unterstützung und verteiltem Parsing.

Wichtig: Stellen Sie bei der Arbeit mit Proxys sicher, dass Sie die Nutzungsbedingungen der Zielwebsite einhalten und deren robots.txt nicht verletzen. Das Parsing sollte ethisch sein und die Server nicht überlasten.

Fazit

JavaScript-Rendering über Proxy ist ein leistungsstarkes Werkzeug zur Automatisierung des Parsings, erfordert aber Aufmerksamkeit für Details. Ordnungsgemäße Browser-Konfiguration, Proxy-Rotation, realistische Header und Leistungsoptimierung sind der Schlüssel zu zuverlässiger Arbeit.

Für großflächiges Parsing mit hohen Anonymitätsanforderungen sind Residential Proxys geeignet, die wie normale Benutzer aussehen und die meisten Bot-Schutzmaßnahmen umgehen.

```

JavaScript-Rendering über Proxy: Blockierungen und Fehler vermeiden