Webseite herunterladen

Python:
Webseite herunterladen

Anleitung:

Mit Python kannst du mit nur wenigen Zeilen Code eine Webseite herunterladen. Ein beliebtes Paket dafür ist requests.

import requests

url = 'https://www.beispiel.de'
response = requests.get(url)

# Prüfen, ob der Download erfolgreich war
if response.status_code == 200:
    html_content = response.text
    print(html_content[:500])  # Zeige die ersten 500 Zeichen der Webseite
else:
    print("Fehler beim Herunterladen der Seite:", response.status_code)

Die Ausgabe ist der HTML-Inhalt der angegebenen URL, begrenzt auf die ersten 500 Zeichen.

Vertiefung:

Als das Web noch jung war, brauchte man komplexe Tools, um Webseiten herunterzuladen. Heute erleichtern Bibliotheken wie requests in Python diese Aufgabe erheblich. Alternativen zu requests sind unter anderem urllib und http.client aus der Python-Standardbibliothek. Bei der Implementierung ist es wichtig, den User-Agent zu setzen und die Webseite nicht zu häufig abzufragen, um den Server nicht zu überlasten und um das Blockieren deiner IP-Adresse zu vermeiden.

Siehe Auch:

Die requests-Dokumentation: https://requests.readthedocs.io/en/master/
Tutorial zur urllib-Bibliothek: https://docs.python.org/3/howto/urllib2.html
HTTP-Statuscodes: https://developer.mozilla.org/de/docs/Web/HTTP/Status

Zuletzt aktualisiert am März 13, 2024

HTML parsen

Python:Webseite herunterladen

Anleitung:

Vertiefung:

Siehe Auch:

Python:
Webseite herunterladen