Phân Tích Cú Pháp HTML

Kotlin:
Phân Tích Cú Pháp HTML

Làm thế nào:

Kotlin làm cho việc phân tích cú pháp HTML trở nên đơn giản với các thư viện như Jsoup. Dưới đây là cách bạn làm:

import org.jsoup.Jsoup

fun main() {
    val html = "<html><head><title>Trang mẫu</title></head><body><p>Đây là một bài kiểm tra.</p></body></html>"
    val doc = Jsoup.parse(html)

    val title = doc.title()
    println("Tiêu đề: $title")  // Kết quả: Tiêu đề: Trang mẫu

    val pText = doc.select("p").first()?.text()
    println("Đoạn văn: $pText")  // Kết quả: Đoạn văn: Đây là một bài kiểm tra.
}

Chúng ta lấy tiêu đề và văn bản của đoạn văn, chỉ là một phần nhỏ của những gì Jsoup có thể làm. Nhưng đó là một sự khởi đầu.

Sâu hơn:

Trước Kotlin, Java là ngôn ngữ chính cho việc này, thường là cồng kềnh. Jsoup đã thay đổi tình hình bằng cách cung cấp một cách tiếp cận giống như jQuery. Tuy nhiên, việc phân tích cú pháp HTML không chỉ giới hạn ở Jsoup; các thư viện khác như HtmlUnit hay thậm chí là regex (mặc dù không khuyến khích) cũng tồn tại. Với Jsoup, bạn đảm bảo rằng quá trình phân tích cú pháp của bạn tôn trọng cấu trúc của tài liệu. Nó sử dụng mô hình DOM, cho phép chọn lựa và thao tác các phần tử. Nó cũng rất mạnh mẽ – có thể phân tích cú pháp ngay cả HTML lộn xộn nhất.

Xem thêm:

Tìm hiểu sâu hơn về Jsoup:

Đối với các cuộc thảo luận và hướng dẫn rộng lớn hơn về việc thu thập dữ liệu web và phân tích cú pháp: