Python:
Analyse Syntaxique du HTML
Comment faire :
Python offre des bibliothèques puissantes comme BeautifulSoup et requests pour le web scraping et l’analyse HTML. Pour commencer, vous devez installer ces bibliothèques si ce n’est pas déjà fait :
pip install beautifulsoup4 requests
Voici un exemple de base utilisant requests
pour récupérer le contenu HTML d’une page web et BeautifulSoup
pour l’analyser :
import requests
from bs4 import BeautifulSoup
# Récupérer le contenu d'une page web
URL = 'https://example.com'
page = requests.get(URL)
# Analyser le contenu HTML
soup = BeautifulSoup(page.content, 'html.parser')
# Exemple d'extraction du titre de la page web
title = soup.find('title').text
print(f'Titre de la page web : {title}')
Exemple de sortie :
Titre de la page web : Domaine Exemple
Pour des requêtes plus complexes, comme extraire tous les liens d’une page web, vous pouvez utiliser les différentes méthodes de BeautifulSoup pour naviguer et rechercher dans l’arbre de parse :
# Extraire tous les liens contenus dans les balises <a>
links = soup.find_all('a')
for link in links:
href = link.get('href')
print(href)
Exemple de sortie :
https://www.iana.org/domains/example
La flexibilité de BeautifulSoup vous permet d’adapter votre recherche aux données exactes nécessaires, faisant de l’analyse HTML un outil puissant pour les programmeurs travaillant avec le contenu web.