HTML Parsen

Elixir:
HTML Parsen

Hoe te:

In Elixir kun je HTML parsen met de Floki-bibliotheek. Hier is een fragment:

# Voeg eerst Floki toe aan je mix.exs afhankelijkheden
{:floki, "~> 0.30.0"}

# Dan, in je code

defmodule HTMLParser do
  alias Floki

  def parse_html(html) do
    {:ok, document} = Floki.parse(html)
    titels = Floki.find(document, "h1")
    IO.inspect(titels, label: "Titels")
  end
end

# Gebruik
html_inhoud = "<html><body><h1>Hallo, Elixir!</h1></body></html>"
HTMLParser.parse_html(html_inhoud)

# Voorbeelduitvoer
Titels: [{"h1", [], ["Hallo, Elixir!"]}]

Diepgaande Duik

Historisch gezien was HTML-parsing in talen zoals Python of JavaScript gebruikelijker, maar door de gelijktijdige functies en schaalbaarheid van Elixir staat het sterk als alternatief voor moderne webtaken. De Floki-bibliotheek gebruikt de fast_html C-parser voor snelheid, waardoor je het beste van twee werelden krijgt: de gelijktijdigheid van Elixir en de prestaties van een gecompileerde taal.

Vergeleken met andere tools zoals BeautifulSoup in Python, is Floki minder uitgebreid en meer functioneel van stijl - passend bij de ethos van Elixir. Plus, je hebt de volledige kracht van het Erlang-ecosysteem voor fouttolerantie en distributie, als je groot denkt.

Zie Ook

Floki op Hex - Officiële Floki-documentatie.
HTML5ever - Rust HTML-parser die fast_html aandrijft.

bijgewerkt op maart 13, 2024

Een webpagina downloaden Een HTTP-verzoek verzenden

Elixir:HTML Parsen

Hoe te:

Diepgaande Duik

Zie Ook

Elixir:
HTML Parsen