TypeScript:
Analyse Syntaxique du HTML

Comment faire :

Pour commencer, installez une bibliothèque comme node-html-parser. Voici la commande de terminal :

npm install node-html-parser

Maintenant, analysons un peu de HTML basique en TypeScript :

import { parse } from 'node-html-parser';

const html = `<ul class="fruits">
                <li>Pomme</li>
                <li>Banane</li>
              </ul>`;

const root = parse(html);
console.log(root.querySelector('.fruits').textContent);  // "Pomme Banane"

Et si vous voulez juste saisir les bananes :

const bananas = root.querySelectorAll('li')[1].textContent;
console.log(bananas);  // "Banane"

Plongée profonde

Parser du HTML n’est pas nouveau—cela existe depuis les premiers jours du web. Initialement, les développeurs auraient pu utiliser des expressions régulières, mais cela est devenu compliqué rapidement. Entrez le DOM Parser : stable, mais lié au navigateur.

Des bibliothèques comme node-html-parser éliminent la douleur. Elles vous permettent d’interroger le HTML comme vous le feriez avec jQuery, mais côté serveur avec Node.js. C’est rapide, tolérant au HTML sale, et sympathique au DOM.

Il y a aussi jsdom, simulant un environnement de navigateur entier. C’est plus lourd mais plus complet, créant un modèle d’objet de document (DOM) complet pour la manipulation et l’interaction.

N’oublions pas Cheerio, non plus. Il mélange la vitesse avec une syntaxe similaire à jQuery et une empreinte plus petite, se positionnant heureusement entre les deux.

Voir aussi

Si vous avez soif de plus, plongez dans ceux-ci :