TypeScript:
HTML Parsen

Hoe te beginnen:

Om te beginnen, installeer je een bibliotheek zoals node-html-parser. Hier is de terminalopdracht:

npm install node-html-parser

Laten we nu wat basis HTML in TypeScript parsen:

import { parse } from 'node-html-parser';

const html = `<ul class="fruits">
                <li>Appel</li>
                <li>Banaan</li>
              </ul>`;

const root = parse(html);
console.log(root.querySelector('.fruits').textContent);  // "Appel Banaan"

En als je alleen de bananen wilt pakken:

const bananas = root.querySelectorAll('li')[1].textContent;
console.log(bananas);  // "Banaan"

Diepgaand

HTML parseren is niet nieuw—het bestaat al sinds de vroege dagen van het web. Aanvankelijk zouden ontwikkelaars reguliere expressies kunnen hebben gebruikt, maar dat werd snel rommelig. Enter de DOM Parser: stabiel, maar gebonden aan de browser.

Bibliotheken zoals node-html-parser nemen de pijn weg. Ze laten je HTML bevragen zoals je dat met jQuery zou doen, maar dan server-side met Node.js. Het is snel, tolerant voor vieze HTML, en DOM-vriendelijk.

Er is ook jsdom, dat een volledige browseromgeving simuleert. Het is zwaarder maar grondiger, en creëert een volwaardig Document Object Model (DOM) voor manipulatie en interactie.

Laten we Cheerio ook niet vergeten. Het combineert snelheid met een jQuery-achtige syntaxis en een kleinere voetafdruk, en zit mooi tussen de twee in.

Zie Ook

Als je dorstig bent naar meer, duik dan in deze: