Ruby:
Analisi del HTML

Come fare:

Per analizzare l’HTML in Ruby, installa la gemma ‘Nokogiri’ con gem install nokogiri. Nokogiri è come un coltellino svizzero per lavorare con HTML e XML in Ruby. Ecco un esempio rapido:

require 'nokogiri'
require 'open-uri'

# Carica il contenuto HTML da un sito web
html_content = URI.open('http://example.com').read

# Analizza l'HTML
doc = Nokogiri::HTML(html_content)

# Estrai il titolo
title = doc.xpath('//title').text
puts "Il titolo della pagina è: #{title}"

Questo produrrà qualcosa del tipo: Il titolo della pagina è: Dominio di esempio.

Approfondimento

Nei primi tempi di Ruby, le opzioni per l’analisi dell’HTML erano limitate. REXML era integrato ma lento. Poi è arrivato Hpricot, ma si è rapidamente esaurito. Nokogiri ha debuttato nel 2008, combinando la facilità di Hpricot con la velocità e la potenza di libxml, un toolkit XML collaudato.

Nel mondo dell’analisi, ci sono sempre alternative. Alcuni giurano sulla libreria integrata ‘rexml’ o su ‘oga’, un altro parser XML/HTML per Ruby. Ma Nokogiri rimane il preferito per la sua robustezza e velocità, per non parlare della sua vasta gamma di funzionalità.

Sotto il cofano, Nokogiri converte l’HTML in un Document Object Model (DOM)—una struttura ad albero. Questo rende facile navigare e manipolare gli elementi. Utilizzando XPath e i selettori CSS, puoi individuare qualsiasi informazione di cui hai bisogno.

Vedi anche