Kotlin:
การวิเคราะห์ HTML

วิธีการ:

Kotlin ทำให้การแยกคำ HTML เป็นเรื่องง่ายด้วยไลบรารีเช่น Jsoup นี่คือวิธีทำ:

import org.jsoup.Jsoup

fun main() {
    val html = "<html><head><title>หน้าตัวอย่าง</title></head><body><p>นี่เป็นการทดสอบ.</p></body></html>"
    val doc = Jsoup.parse(html)

    val title = doc.title()
    println("หัวเรื่อง: $title")  // ผลลัพธ์: หัวเรื่อง: หน้าตัวอย่าง

    val pText = doc.select("p").first()?.text()
    println("ย่อหน้า: $pText")  // ผลลัพธ์: ย่อหน้า: นี่เป็นการทดสอบ.
}

เราดึงหัวเรื่องและข้อความในย่อหน้า, เพียงแค่เริ่มต้นสำรวจสิ่งที่ Jsoup สามารถทำได้

การศึกษาลึก:

ก่อน Kotlin, Java เป็นภาษาหลักสำหรับงานนี้ แต่มักจะดูไม่คล่องตัว, Jsoup เปลี่ยนเกมด้วยการนำเสนอวิธีการที่คล้ายกับ jQuery การแยกคำ HTML ไม่ได้จำกัดอยู่เฉพาะกับ Jsoup เท่านั้น; มีไลบรารีอื่นๆ เช่น HtmlUnit หรือแม้แต่ regex (แม้ว่าจะไม่แนะนำ) ก็มีให้ใช้งาน ด้วย Jsoup, คุณสามารถแน่ใจได้ว่าการแยกคำของคุณจะเคารพต่อโครงสร้างเอกสาร มันใช้โมเดล DOM, ซึ่งช่วยให้สามารถเลือกและจัดการกับองค์ประกอบได้ มันยืดหยุ่นดีเช่นกัน—สามารถแยกคำ HTML ที่รกที่สุดได้

ดูเพิ่มเติม:

ศึกษาเพิ่มเติมเกี่ยวกับ Jsoup:

สำหรับการสนทนาและบทเรียนสอนเพิ่มเติมเกี่ยวกับการคัดลอกเว็บและการแยกคำ: