Python:
Webseite herunterladen
Anleitung:
Mit Python kannst du mit nur wenigen Zeilen Code eine Webseite herunterladen. Ein beliebtes Paket dafür ist requests
.
import requests
url = 'https://www.beispiel.de'
response = requests.get(url)
# Prüfen, ob der Download erfolgreich war
if response.status_code == 200:
html_content = response.text
print(html_content[:500]) # Zeige die ersten 500 Zeichen der Webseite
else:
print("Fehler beim Herunterladen der Seite:", response.status_code)
Die Ausgabe ist der HTML-Inhalt der angegebenen URL, begrenzt auf die ersten 500 Zeichen.
Vertiefung:
Als das Web noch jung war, brauchte man komplexe Tools, um Webseiten herunterzuladen. Heute erleichtern Bibliotheken wie requests
in Python diese Aufgabe erheblich. Alternativen zu requests
sind unter anderem urllib
und http.client
aus der Python-Standardbibliothek. Bei der Implementierung ist es wichtig, den User-Agent
zu setzen und die Webseite nicht zu häufig abzufragen, um den Server nicht zu überlasten und um das Blockieren deiner IP-Adresse zu vermeiden.
Siehe Auch:
- Die
requests
-Dokumentation: https://requests.readthedocs.io/en/master/ - Tutorial zur
urllib
-Bibliothek: https://docs.python.org/3/howto/urllib2.html - HTTP-Statuscodes: https://developer.mozilla.org/de/docs/Web/HTTP/Status