Kotlin:
Аналіз HTML
Як це зробити:
Kotlin робить розбір HTML простим завдяки бібліотекам на кшталт Jsoup. Ось як це робиться:
import org.jsoup.Jsoup
fun main() {
val html = "<html><head><title>Зразок сторінки</title></head><body><p>Це тест.</p></body></html>"
val doc = Jsoup.parse(html)
val title = doc.title()
println("Назва: $title") // Вивід: Назва: Зразок сторінки
val pText = doc.select("p").first()?.text()
println("Абзац: $pText") // Вивід: Абзац: Це тест.
}
Ми витягуємо назву та текст абзацу, що є лише вершиною айсберга того, що може зробити Jsoup. Але це хороший початок.
Поглиблений аналіз:
До Kotlin, Java була основним інструментом для цього, часто незграбно. Jsoup змінив правила гри, надаючи підхід на кшталт jQuery. Проте розбір HTML не обмежується лише Jsoup; існують й інші бібліотеки на кшталт HtmlUnit або навіть регулярні вирази (хоча це не рекомендується). З Jsoup ви забезпечуєте, що ваш розбір поважає структуру документа. Вона використовує модель DOM, що дозволяє вибирати та маніпулювати елементами. Вона також стійка - може розбирати навіть найбільш заплутаний HTML.
Дивіться також:
Зануртесь глибше у Jsoup:
- Офіційна документація Jsoup: https://jsoup.org/
- Книга “Kotlin для розробників Android”: https://antonioleiva.com/kotlin-android-developers-book/
- Офіційний сайт мови програмування Kotlin: https://kotlinlang.org/
Для більш широких обговорень та туторіалів на тему веб-скрапінгу та розбору:
- Веб-скрапінг з Kotlin та Jsoup: https://medium.com/@hadiyarajesh/web-scraping-with-kotlin-and-jsoup-8b5b6c31c5a5
- Розбір HTML на Android з Kotlin та Jsoup: https://proandroiddev.com/parsing-html-on-android-1b766658be6a