TypeScript:
Tolka HTML

Hur man gör:

För att komma igång, installera ett bibliotek som node-html-parser. Här är terminalkommandot:

npm install node-html-parser

Nu ska vi parsa lite grundläggande HTML i TypeScript:

import { parse } from 'node-html-parser';

const html = `<ul class="fruits">
                <li>Apple</li>
                <li>Banana</li>
              </ul>`;

const root = parse(html);
console.log(root.querySelector('.fruits').textContent);  // "Apple Banana"

Och om du bara vill ta tag i bananerna:

const bananas = root.querySelectorAll('li')[1].textContent;
console.log(bananas);  // "Banana"

Fördjupning

Att parsa HTML är inte nytt — det har funnits sedan webbens tidiga dagar. Inledningsvis kanske utvecklare använde reguljära uttryck, men det blev snabbt rörigt. Då kom DOM-parsern: stabil, men begränsad till webbläsare.

Bibliotek som node-html-parser abstraherar bort smärtan. De låter dig fråga HTML som du skulle med jQuery, men på serversidan med Node.js. Det är snabbt, tolerant mot smutsig HTML och DOM-vänligt.

Det finns också jsdom, som simulerar en hel webbläsarmiljö. Det är tyngre men mer genomgående, skapar ett fullständigt Document Object Model (DOM) för manipulation och interaktion.

Vi får inte glömma Cheerio heller. Det blandar hastighet med en jQuery-liknande syntax och mindre fotavtryck, och sitter lyckligt mellan de två.

Se även

Om du är törstig efter mer, dyk ner i dessa: