Kotlin:
Analysering av HTML

Hvordan:

Kotlin gjør det enkelt å parse HTML med biblioteker som Jsoup. Slik gjør du det:

import org.jsoup.Jsoup

fun main() {
    val html = "<html><head><title>Eksempelside</title></head><body><p>Dette er en test.</p></body></html>"
    val doc = Jsoup.parse(html)

    val tittel = doc.title()
    println("Tittel: $tittel")  // Utdata: Tittel: Eksempelside

    val pTekst = doc.select("p").first()?.text()
    println("Avsnitt: $pTekst")  // Utdata: Avsnitt: Dette er en test.
}

Vi tar tak i tittel og avsnittstekst, bare for å skrape på overflaten av hva Jsoup kan gjøre. Men det er en start.

Dypdykk:

Før Kotlin, var Java det vanlige valget for dette, ofte på en klønete måte. Jsoup endret spillet ved å tilby en jQuery-lignende tilnærming. Parsing av HTML er imidlertid ikke eksklusivt for Jsoup; andre biblioteker som HtmlUnit eller til og med regex (selv om det frarådes) eksisterer. Med Jsoup sikrer du at parsingen respekterer dokumentets struktur. Det bruker en DOM-modell, som muliggjør valg og manipulering av elementer. Det er motstandsdyktig også - det kan parse selv det rotete HTML.

Se Også:

Dykk dypere inn i Jsoup:

For bredere diskusjoner og veiledninger om web scraping og parsing: