Python:
Hämta en webbsida

How to:

Vi använder requests för att ladda ner en webbsida enkelt. Så här:

import requests

url = 'https://www.exempelsida.se'
response = requests.get(url)

if response.status_code == 200:
    html_content = response.text
    print(html_content[:500])  # Skriver ut de första 500 tecknen
else:
    print("Webbsidan kunde inte laddas ned. Statuskod:", response.status_code)
Edit

Om allt går bra ser output ungefär ut så här:

<!DOCTYPE html>
<html>
<head>
    <title>Din Exempelsida</title>
    ...
</head>
<body>
    ...
    (HTML-innehåll fortsätter)
</body>
</html>
Edit

Deep Dive

Långt innan requests fanns, använde vi urllib. requests är dock mer intuitivt och kraftfullt. Alternativt finns Scrapy för större, mer komplexa skrapningsprojekt.

Laddning av en webbsida kan variera i komplexitet. Många moderna sidor laddar innehåll dynamiskt med JavaScript. I sådana fall krävs verktyg som Selenium eller BeautifulSoup med requests_html för att efterlikna en webbläsare.

Att bara “hämta” en sida är inte alltid nog. Etik och juridik som robots.txt och copyright gäller. Använd alltid API:er om de finns tillgängliga och respektera webbsidornas användarvillkor.

See Also