Analyse Syntaxique du HTML

Ruby:
Analyse Syntaxique du HTML

Comment faire :

Pour analyser du HTML en Ruby, installez le gem ‘Nokogiri’ avec gem install nokogiri. Nokogiri est comme un couteau suisse pour travailler avec HTML et XML en Ruby. Voici un rapide exemple :

require 'nokogiri'
require 'open-uri'

# Charger le contenu HTML d'un site web
html_content = URI.open('http://example.com').read

# Analyser le HTML
doc = Nokogiri::HTML(html_content)

# Extraire le titre
title = doc.xpath('//title').text
puts "Le titre de la page est : #{title}"

Cela affiche quelque chose comme : Le titre de la page est : Domaine Exemple.

Plongée Profonde

Au début des temps de Ruby, les options pour analyser le HTML étaient limitées. REXML était intégré mais lent. Puis Hpricot est apparu, mais il s’est éteint. Nokogiri a fait ses débuts en 2008, alliant la facilité d’Hpricot avec la vitesse et la puissance de libxml, une boîte à outils XML éprouvée.

Dans le monde de l’analyse, il y a toujours des alternatives. Certains jurent uniquement par la bibliothèque intégrée ‘rexml’ ou ‘oga’, un autre analyseur XML/HTML pour Ruby. Mais Nokogiri reste un favori pour sa robustesse et sa vitesse, sans parler de sa vaste gamme de fonctionnalités.

Sous le capot, Nokogiri convertit le HTML en un Modèle Objet de Document (DOM) – une structure arborescente. Cela facilite la navigation et la manipulation des éléments. En utilisant XPath et les sélecteurs CSS, vous pouvez localiser n’importe quelle information dont vous avez besoin.

Voir Aussi