Kotlin:
HTML Parsen

Hoe:

Kotlin maakt het parseren van HTML eenvoudig met bibliotheken zoals Jsoup. Zo doe je het:

import org.jsoup.Jsoup

fun main() {
    val html = "<html><head><title>Voorbeeld Pagina</title></head><body><p>Dit is een test.</p></body></html>"
    val doc = Jsoup.parse(html)

    val titel = doc.title()
    println("Titel: $titel")  // Uitvoer: Titel: Voorbeeld Pagina

    val pTekst = doc.select("p").first()?.text()
    println("Paragraaf: $pTekst")  // Uitvoer: Paragraaf: Dit is een test.
}

We pakken de titel en paragraaftext, dat is slechts het begin van wat Jsoup kan doen. Maar het is een start.

Diepere Duik:

Voor Kotlin was Java de standaard hiervoor, vaak op een onhandige manier. Jsoup veranderde het spel door een jQuery-achtige benadering te bieden. Het parseren van HTML is echter niet exclusief voor Jsoup; andere bibliotheken zoals HtmlUnit of zelfs regex (hoewel afgeraden) bestaan ook. Met Jsoup zorg je ervoor dat je parsing de structuur van het document respecteert. Het gebruikt een DOM-model, waardoor selectie en manipulatie van elementen mogelijk is. Het is ook veerkrachtig - het kan zelfs de rommeligste HTML parseren.

Zie Ook:

Duik dieper in Jsoup:

Voor bredere discussies en tutorials over webscraping en parsing: