TypeScript:
การวิเคราะห์ HTML

วิธีการ:

เริ่มต้นด้วยการติดตั้งไลบรารีอย่าง node-html-parser นี่คือคำสั่งในเทอร์มินัล:

npm install node-html-parser

ต่อไป, มาวิเคราะห์ HTML พื้นฐานใน TypeScript:

import { parse } from 'node-html-parser';

const html = `<ul class="fruits">
                <li>Apple</li>
                <li>Banana</li>
              </ul>`;

const root = parse(html);
console.log(root.querySelector('.fruits').textContent);  // "Apple Banana"

และหากคุณต้องการค้นหาเฉพาะกล้วย:

const bananas = root.querySelectorAll('li')[1].textContent;
console.log(bananas);  // "Banana"

ศึกษาลึกลงไป

การวิเคราะห์ HTML ไม่ใช่เรื่องใหม่—มันได้ถูกใช้มาตั้งแต่ช่วงต้นของเว็บ ในช่วงแรกๆ นักพัฒนาอาจใช้ Regular Expressions แต่วิธีนั้นกลับกลายเป็นเรื่องยุ่งยากอย่างรวดเร็ว จากนั้น DOM Parser ก็กลายมาเป็นวิธีที่มั่นคง แต่ถูกจำกัดเฉพาะในเบราว์เซอร์

ไลบรารีอย่าง node-html-parser ช่วยทำให้ปัญหาเหล่านี้ง่ายขึ้น พวกมันให้คุณค้นหา HTML ได้เหมือนกับ jQuery, แต่ทำงานด้านเซิร์ฟเวอร์กับ Node.js มันรวดเร็ว, อดทนต่อ HTML ที่ไม่สมบูรณ์, และมิตรกับ DOM

ยังมี jsdom, ซึ่งจำลองสภาพแวดล้อมทั้งหมดของเบราว์เซอร์ มันหนักหน่อย แต่ให้รายละเอียดมากกว่า, สร้าง Document Object Model (DOM) ที่สมบูรณ์สำหรับการจัดการและการติดต่อสื่อสาร

อย่าลืม Cheerio ด้วย มันผสมผสานความเร็วกับไวยากรณ์เหมือน jQuery และมีขนาดเล็ก นั่งอยู่ครึ่งทางระหว่างทั้งสอง

ดูเพิ่มเติม

หากคุณกระหายที่จะรู้เพิ่มเติม, ลองดูที่นี่: