Kotlin:
การวิเคราะห์ HTML
วิธีการ:
Kotlin ทำให้การแยกคำ HTML เป็นเรื่องง่ายด้วยไลบรารีเช่น Jsoup นี่คือวิธีทำ:
import org.jsoup.Jsoup
fun main() {
val html = "<html><head><title>หน้าตัวอย่าง</title></head><body><p>นี่เป็นการทดสอบ.</p></body></html>"
val doc = Jsoup.parse(html)
val title = doc.title()
println("หัวเรื่อง: $title") // ผลลัพธ์: หัวเรื่อง: หน้าตัวอย่าง
val pText = doc.select("p").first()?.text()
println("ย่อหน้า: $pText") // ผลลัพธ์: ย่อหน้า: นี่เป็นการทดสอบ.
}
เราดึงหัวเรื่องและข้อความในย่อหน้า, เพียงแค่เริ่มต้นสำรวจสิ่งที่ Jsoup สามารถทำได้
การศึกษาลึก:
ก่อน Kotlin, Java เป็นภาษาหลักสำหรับงานนี้ แต่มักจะดูไม่คล่องตัว, Jsoup เปลี่ยนเกมด้วยการนำเสนอวิธีการที่คล้ายกับ jQuery การแยกคำ HTML ไม่ได้จำกัดอยู่เฉพาะกับ Jsoup เท่านั้น; มีไลบรารีอื่นๆ เช่น HtmlUnit หรือแม้แต่ regex (แม้ว่าจะไม่แนะนำ) ก็มีให้ใช้งาน ด้วย Jsoup, คุณสามารถแน่ใจได้ว่าการแยกคำของคุณจะเคารพต่อโครงสร้างเอกสาร มันใช้โมเดล DOM, ซึ่งช่วยให้สามารถเลือกและจัดการกับองค์ประกอบได้ มันยืดหยุ่นดีเช่นกัน—สามารถแยกคำ HTML ที่รกที่สุดได้
ดูเพิ่มเติม:
ศึกษาเพิ่มเติมเกี่ยวกับ Jsoup:
- เอกสารอย่างเป็นทางการของ Jsoup: https://jsoup.org/
- หนังสือ “Kotlin สำหรับนักพัฒนา Android”: https://antonioleiva.com/kotlin-android-developers-book/
- เว็บไซต์ภาษาโปรแกรม Kotlin อย่างเป็นทางการ: https://kotlinlang.org/
สำหรับการสนทนาและบทเรียนสอนเพิ่มเติมเกี่ยวกับการคัดลอกเว็บและการแยกคำ:
- การคัดลอกเว็บด้วย Kotlin และ Jsoup: https://medium.com/@hadiyarajesh/web-scraping-with-kotlin-and-jsoup-8b5b6c31c5a5
- การแยกคำ HTML บน Android ด้วย Kotlin และ Jsoup: https://proandroiddev.com/parsing-html-on-android-1b766658be6a