Python:
Hämta en webbsida

How to:

Vi använder requests för att ladda ner en webbsida enkelt. Så här:

import requests

url = 'https://www.exempelsida.se'
response = requests.get(url)

if response.status_code == 200:
    html_content = response.text
    print(html_content[:500])  # Skriver ut de första 500 tecknen
else:
    print("Webbsidan kunde inte laddas ned. Statuskod:", response.status_code)

Om allt går bra ser output ungefär ut så här:

<!DOCTYPE html>
<html>
<head>
    <title>Din Exempelsida</title>
    ...
</head>
<body>
    ...
    (HTML-innehåll fortsätter)
</body>
</html>

Deep Dive

Långt innan requests fanns, använde vi urllib. requests är dock mer intuitivt och kraftfullt. Alternativt finns Scrapy för större, mer komplexa skrapningsprojekt.

Laddning av en webbsida kan variera i komplexitet. Många moderna sidor laddar innehåll dynamiskt med JavaScript. I sådana fall krävs verktyg som Selenium eller BeautifulSoup med requests_html för att efterlikna en webbläsare.

Att bara “hämta” en sida är inte alltid nog. Etik och juridik som robots.txt och copyright gäller. Använd alltid API:er om de finns tillgängliga och respektera webbsidornas användarvillkor.

See Also