Kotlin:
Аналіз HTML

Як це зробити:

Kotlin робить розбір HTML простим завдяки бібліотекам на кшталт Jsoup. Ось як це робиться:

import org.jsoup.Jsoup

fun main() {
    val html = "<html><head><title>Зразок сторінки</title></head><body><p>Це тест.</p></body></html>"
    val doc = Jsoup.parse(html)

    val title = doc.title()
    println("Назва: $title")  // Вивід: Назва: Зразок сторінки

    val pText = doc.select("p").first()?.text()
    println("Абзац: $pText")  // Вивід: Абзац: Це тест.
}

Ми витягуємо назву та текст абзацу, що є лише вершиною айсберга того, що може зробити Jsoup. Але це хороший початок.

Поглиблений аналіз:

До Kotlin, Java була основним інструментом для цього, часто незграбно. Jsoup змінив правила гри, надаючи підхід на кшталт jQuery. Проте розбір HTML не обмежується лише Jsoup; існують й інші бібліотеки на кшталт HtmlUnit або навіть регулярні вирази (хоча це не рекомендується). З Jsoup ви забезпечуєте, що ваш розбір поважає структуру документа. Вона використовує модель DOM, що дозволяє вибирати та маніпулювати елементами. Вона також стійка - може розбирати навіть найбільш заплутаний HTML.

Дивіться також:

Зануртесь глибше у Jsoup:

Для більш широких обговорень та туторіалів на тему веб-скрапінгу та розбору: