Analyse Syntaxique du HTML

Haskell:
Analyse Syntaxique du HTML

Comment faire :

Pour parser du HTML en Haskell, nous utiliserons la bibliothèque tagsoup pour sa simplicité et sa flexibilité. Commencez par installer la bibliothèque en ajoutant tagsoup au fichier cabal de votre projet ou en exécutant cabal install tagsoup.

{-# LANGUAGE OverloadedStrings #-}

import Text.HTML.TagSoup

-- Exemple de HTML pour la démonstration
let sampleHtml = "<html><body><p>Apprenez Haskell !</p><a href='http://example.com'>Cliquez ici</a></body></html>"

-- Parser le HTML et filtrer pour les liens (balises a)
let tags = parseTags sampleHtml
let links = [fromAttrib "href" tag | tag <- tags, isTagOpenName "a" tag]

-- Imprimer les liens extraits
print links

Sortie exemple :

["http://example.com"]

Pour des besoins de parsing HTML plus sophistiqués, envisagez d’utiliser la bibliothèque pandoc, surtout si vous travaillez avec la conversion de documents. Elle est exceptionnellement polyvalente mais vient avec plus de complexité :

import Text.Pandoc

-- En supposant que vous ayez un document Pandoc (doc) chargé, par exemple, en lisant un fichier
let doc = ... -- Votre document Pandoc va ici

-- Convertir le document en chaîne HTML
let htmlString = writeHtmlString def doc

-- Maintenant, vous devriez parser `htmlString` comme ci-dessus ou procéder selon vos besoins.

Gardez à l’esprit que pandoc est une bibliothèque beaucoup plus grande qui se concentre sur la conversion entre de nombreux formats de balisage, donc utilisez-la si vous avez besoin de ces capacités supplémentaires ou si vous travaillez déjà avec des formats de documents dans votre application.

Dernière mise à jour le mars 13, 2024

Téléchargement d'une page web Envoi d'une requête HTTP

Haskell:Analyse Syntaxique du HTML

Comment faire :

Haskell:
Analyse Syntaxique du HTML