TypeScript:
解析HTML

如何进行:

首先,安装像node-html-parser这样的库。这是终端命令:

npm install node-html-parser

现在,让我们用TypeScript来解析一些基本的HTML:

import { parse } from 'node-html-parser';

const html = `<ul class="fruits">
                <li>Apple</li>
                <li>Banana</li>
              </ul>`;

const root = parse(html);
console.log(root.querySelector('.fruits').textContent);  // "Apple Banana"

如果你只想抓住香蕉:

const bananas = root.querySelectorAll('li')[1].textContent;
console.log(bananas);  // "Banana"

深入了解

解析HTML并不是新事物——自网络早期以来就已存在。起初,开发者可能使用了正则表达式,但很快就变得混乱。然后呈现了DOM解析器:稳定,但受限于浏览器。

node-html-parser这样的库抽象化了这种痛苦。它们让您能够像使用jQuery一样查询HTML,但是在Node.js的服务器端。它快速,对脏HTML有容忍度,并且对DOM友好。

还有jsdom,模拟了一个完整的浏览器环境。它更重一些,但更彻底,为操作和交互创建了一个完整的文档对象模型(DOM)。

也不要忘记Cheerio。它将速度与类jQuery语法和更小的占用空间相结合,愉快地坐在两者之间。

另请参阅

如果你渴望了解更多,请深入这些资料: