Python:
Analysering av HTML
Hvordan gjøre det:
Python tilbyr kraftfulle biblioteker som BeautifulSoup og requests for web scraping og HTML-parsing. For å begynne, må du installere disse bibliotekene hvis du ikke allerede har gjort det:
pip install beautifulsoup4 requests
Her er et grunnleggende eksempel som bruker requests
for å hente HTML-innholdet til en nettside og BeautifulSoup
for å parse det:
import requests
from bs4 import BeautifulSoup
# Hent innholdet til en nettside
URL = 'https://example.com'
page = requests.get(URL)
# Parse HTML-innholdet
soup = BeautifulSoup(page.content, 'html.parser')
# Eksempel på uttrekking av nettsidens tittel
title = soup.find('title').text
print(f'Nettsidetittel: {title}')
Eksempel på utdata:
Nettsidetittel: Example Domain
For mer komplekse forespørsler, som å trekke ut alle lenker fra en nettside, kan du bruke BeautifulSoup sine ulike metoder for å navigere og søke i parsetreet:
# Trekke ut alle lenker innenfor <a>-tagger
links = soup.find_all('a')
for link in links:
href = link.get('href')
print(href)
Eksempel på utdata:
https://www.iana.org/domains/example
BeautifulSoup sin fleksibilitet lar deg tilpasse søket ditt for de nøyaktige dataene som trengs, noe som gjør HTML-parsing til et kraftfullt verktøy for programmere som arbeider med webinnhold.