Kotlin:
Tolka HTML

Hur man gör:

Kotlin gör det enkelt att tolka HTML med bibliotek som Jsoup. Så här gör du:

import org.jsoup.Jsoup

fun main() {
    val html = "<html><head><title>Exempelsida</title></head><body><p>Detta är ett test.</p></body></html>"
    val doc = Jsoup.parse(html)

    val title = doc.title()
    println("Titel: $title")  // Output: Titel: Exempelsida

    val pText = doc.select("p").first()?.text()
    println("Paragraf: $pText")  // Output: Paragraf: Detta är ett test.
}

Vi tar titeln och texten i paragrafen, bara för att skrapa på ytan av vad Jsoup kan göra. Men det är en början.

Fördjupning:

Före Kotlin var Java det självklara valet för detta, ofta på ett klumpigt sätt. Jsoup vände på steken genom att erbjuda ett jQuery-liknande tillvägagångssätt. Att tolka HTML är dock inte exklusivt för Jsoup; andra bibliotek som HtmlUnit eller till och med regex (även om det avråds) finns. Med Jsoup säkerställer du att din tolkning respekterar dokumentets struktur. Det använder en DOM-modell, som möjliggör val och manipulation av element. Det är motståndskraftigt också – det kan tolka även den mest oordnade HTML.

Se även:

Fördjupa dig i Jsoup:

För bredare diskussioner och handledning om webbskrapning och tolkning: