TypeScript:
Analisi del HTML

Come fare:

Per iniziare, installa una libreria come node-html-parser. Eccoti il comando per il terminale:

npm install node-html-parser

Ora, analizziamo un po’ di HTML di base in TypeScript:

import { parse } from 'node-html-parser';

const html = `<ul class="fruits">
                <li>Mela</li>
                <li>Banana</li>
              </ul>`;

const root = parse(html);
console.log(root.querySelector('.fruits').textContent);  // "Mela Banana"

E se vuoi prendere solo le banane:

const bananas = root.querySelectorAll('li')[1].textContent;
console.log(bananas);  // "Banana"

Approfondimento

L’analisi dell’HTML non è una novità—esiste da quando sono nati i primi siti web. Inizialmente, gli sviluppatori potrebbero aver usato espressioni regolari, ma la situazione si è complicata rapidamente. Ecco quindi il Parser DOM: stabile, ma legato al browser.

Librerie come node-html-parser semplificano la situazione. Ti permettono di interrogare l’HTML come faresti con jQuery, ma lato server con Node.js. Sono veloci, tolleranti all’HTML sporco, e amichevoli con il DOM.

C’è anche jsdom, che simula un intero ambiente browser. È più pesante ma più approfondito, creando un Document Object Model (DOM) completo per la manipolazione e l’interazione.

Non dimentichiamoci poi di Cheerio. Combina velocità con una sintassi simile a jQuery e un ingombro minore, collocandosi felicemente tra i due.

Vedi Anche

Se sei alla ricerca di altro, immergiti in questi: