Python:
Analisi del HTML

Come fare:

Python offre potenti librerie come BeautifulSoup e requests per lo scraping del web e l’analisi di HTML. Per iniziare, è necessario installare queste librerie se non lo avete già fatto:

pip install beautifulsoup4 requests

Ecco un esempio basilare che utilizza requests per recuperare il contenuto HTML di una pagina web e BeautifulSoup per analizzarlo:

import requests
from bs4 import BeautifulSoup

# Recupera il contenuto di una pagina web
URL = 'https://example.com'
page = requests.get(URL)

# Analizza il contenuto HTML
soup = BeautifulSoup(page.content, 'html.parser')

# Esempio di estrazione del titolo della pagina web
title = soup.find('title').text
print(f'Titolo della pagina web: {title}')

Output dell’esempio:

Titolo della pagina web: Esempio di Dominio

Per query più complesse, come l’estrazione di tutti i link da una pagina web, è possibile utilizzare i vari metodi di BeautifulSoup per navigare e cercare nell’albero di analisi:

# Estrai tutti i link contenuti nei tag <a>
links = soup.find_all('a')

for link in links:
    href = link.get('href')
    print(href)

Output dell’esempio:

https://www.iana.org/domains/example

La flessibilità di BeautifulSoup consente di personalizzare la ricerca per i dati esatti di cui si ha bisogno, rendendo l’analisi di HTML uno strumento potente per i programmatori che lavorano con i contenuti web.