Python:
Tolka HTML

How to: (Hur?)

from bs4 import BeautifulSoup
import requests

# Hämta HTML från en webbsida
response = requests.get('https://example.com')
html_doc = response.text

# Parse HTML
soup = BeautifulSoup(html_doc, 'html.parser')

# Extrahera data
headline = soup.find('h1').text

print(headline)

Utmatning:

Exempel Domän

Deep Dive (Djupdykning)

Parsing HTML är ett hörnsten i webbskrapning och automatiska tester sedan HTML blev webbens standard. Tidiga verktyg inkluderade programbibliotek som HTMLParser i Python, medans moderna alternativ som BeautifulSoup och lxml erbjuder mer kraftfulla och användarvänliga funktioner. Dessa bibliotek hanterar illa formaterad HTML och kan navigera i DOM-trädet (Document Object Model) smidigt. BeautifulSoup bygger på ‘html.parser’ (standard Python-parsern) eller ’lxml’, beroende på användarens behov av hastighet kontra flexibilitet.

See Also (Se Också)