Rust:
Tolka HTML

Hur gör man:

För att tolka HTML i Rust kommer du ofta att använda scraper-paketet, som erbjuder ett högnivågränssnitt för att traversera och manipulera HTML-dokument.

Först, lägg till scraper i din Cargo.toml:

[dependencies]
scraper = "0.12.0"

Nästa, här är ett enkelt exempel som extraherar alla länk-URL:er från en given HTML-sträng:

extern crate scraper;

use scraper::{Html, Selector};

fn main() {
    let html = r#"
    <html>
    <body>
        <a href="http://example.com/1">Länk 1</a>
        <a href="http://example.com/2">Länk 2</a>
    </body>
    </html>
    "#;

    let dokument = Html::parse_document(html);
    let selector = Selector::parse("a").unwrap();

    for element i dokument.select(&selector) {
        let länk = element.value().attr("href").unwrap();
        println!("Hittade länk: {}", länk);
    }
}

Utskrift:

Hittade länk: http://example.com/1
Hittade länk: http://example.com/2

I detta exempel tolkar vi ett enkelt HTML-dokument för att hitta alla <a>-element och extrahera deras href-attribut, vilket effektivt skriver ut URL:erna för alla länkarna i dokumentet. scraper-biblioteket förenklar HTML-tolkning och val av specifika element med hjälp av CSS-selektorer, vilket gör det till ett givet val för uppgifter inom webbskrapning i Rust.