Kotlin:
HTML parsen

Wie geht das:

Kotlin macht das Parsen von HTML mit Bibliotheken wie Jsoup unkompliziert. So geht’s:

import org.jsoup.Jsoup

fun main() {
    val html = "<html><head><title>Beispielseite</title></head><body><p>Dies ist ein Test.</p></body></html>"
    val doc = Jsoup.parse(html)

    val title = doc.title()
    println("Titel: $title")  // Ausgabe: Titel: Beispielseite

    val pText = doc.select("p").first()?.text()
    println("Absatz: $pText")  // Ausgabe: Absatz: Dies ist ein Test.
}

Wir greifen den Titel und den Text des Absatzes ab, um nur an der Oberfläche zu kratzen, was Jsoup alles kann. Aber es ist ein Anfang.

Tiefer gehend:

Vor Kotlin war Java der Standard dafür, oft umständlich. Jsoup hat das Blatt gewendet, indem es einen jQuery-ähnlichen Ansatz bot. Das Parsen von HTML ist jedoch nicht exklusiv für Jsoup; andere Bibliotheken wie HtmlUnit oder sogar Regex (obwohl davon abgeraten wird) existieren auch. Mit Jsoup stellen Sie sicher, dass Ihr Parsen die Struktur des Dokuments respektiert. Es verwendet ein DOM-Modell, das die Auswahl und Manipulation von Elementen ermöglicht. Es ist auch widerstandsfähig – es kann sogar das unordentlichste HTML parsen.

Siehe auch:

Tauchen Sie tiefer in Jsoup ein:

Für breitere Diskussionen und Anleitungen zum Web Scraping und Parsen: