Kotlin:
Analiza składniowa HTML

Jak to zrobić:

Kotlin ułatwia parsowanie HTML dzięki bibliotekom takim jak Jsoup. Oto jak to zrobić:

import org.jsoup.Jsoup

fun main() {
    val html = "<html><head><title>Przykładowa strona</title></head><body><p>To jest test.</p></body></html>"
    val doc = Jsoup.parse(html)

    val title = doc.title()
    println("Tytuł: $title")  // Wyjście: Tytuł: Przykładowa strona

    val pText = doc.select("p").first()?.text()
    println("Paragraf: $pText")  // Wyjście: Paragraf: To jest test.
}

Chwytamy tytuł i tekst paragrafu, ledwo drapiąc powierzchnię tego, co Jsoup może zrobić. Ale to dobry początek.

Głębsze zanurzenie:

Przed Kotlinem, do tego często używano Javy, nieraz niezgrabnie. Jsoup zmienił zasady gry, dostarczając podejście podobne do jQuery. Parsowanie HTML nie jest wyłączne dla Jsoup; istnieją również inne biblioteki, takie jak HtmlUnit czy nawet wyrażenia regularne (chociaż nie zaleca się ich używania). Dzięki Jsoup zapewniasz, że parsowanie respektuje strukturę dokumentu. Używa modelu DOM, umożliwiając selekcję i manipulację elementami. Jest też odporny - potrafi parsować nawet najbardziej zagmatwane HTML.

Zobacz także:

Pogłęb swoją wiedzę na temat Jsoup:

Dla szerszych dyskusji i poradników na temat web scrapingu i parsowania: