TypeScript:
การวิเคราะห์ HTML
วิธีการ:
เริ่มต้นด้วยการติดตั้งไลบรารีอย่าง node-html-parser
นี่คือคำสั่งในเทอร์มินัล:
npm install node-html-parser
ต่อไป, มาวิเคราะห์ HTML พื้นฐานใน TypeScript:
import { parse } from 'node-html-parser';
const html = `<ul class="fruits">
<li>Apple</li>
<li>Banana</li>
</ul>`;
const root = parse(html);
console.log(root.querySelector('.fruits').textContent); // "Apple Banana"
และหากคุณต้องการค้นหาเฉพาะกล้วย:
const bananas = root.querySelectorAll('li')[1].textContent;
console.log(bananas); // "Banana"
ศึกษาลึกลงไป
การวิเคราะห์ HTML ไม่ใช่เรื่องใหม่—มันได้ถูกใช้มาตั้งแต่ช่วงต้นของเว็บ ในช่วงแรกๆ นักพัฒนาอาจใช้ Regular Expressions แต่วิธีนั้นกลับกลายเป็นเรื่องยุ่งยากอย่างรวดเร็ว จากนั้น DOM Parser ก็กลายมาเป็นวิธีที่มั่นคง แต่ถูกจำกัดเฉพาะในเบราว์เซอร์
ไลบรารีอย่าง node-html-parser
ช่วยทำให้ปัญหาเหล่านี้ง่ายขึ้น พวกมันให้คุณค้นหา HTML ได้เหมือนกับ jQuery, แต่ทำงานด้านเซิร์ฟเวอร์กับ Node.js มันรวดเร็ว, อดทนต่อ HTML ที่ไม่สมบูรณ์, และมิตรกับ DOM
ยังมี jsdom
, ซึ่งจำลองสภาพแวดล้อมทั้งหมดของเบราว์เซอร์ มันหนักหน่อย แต่ให้รายละเอียดมากกว่า, สร้าง Document Object Model (DOM) ที่สมบูรณ์สำหรับการจัดการและการติดต่อสื่อสาร
อย่าลืม Cheerio ด้วย มันผสมผสานความเร็วกับไวยากรณ์เหมือน jQuery และมีขนาดเล็ก นั่งอยู่ครึ่งทางระหว่างทั้งสอง
ดูเพิ่มเติม
หากคุณกระหายที่จะรู้เพิ่มเติม, ลองดูที่นี่: