Python:
解析HTML

如何:

Python提供了像BeautifulSoup和requests这样的强大库用于网络抓取和HTML解析。首先,如果你还没有安装这些库,你需要安装它们:

pip install beautifulsoup4 requests

这里有一个使用requests来获取网页的HTML内容和使用BeautifulSoup来解析它的基本示例:

import requests
from bs4 import BeautifulSoup

# 获取网页的内容
URL = 'https://example.com'
page = requests.get(URL)

# 解析HTML内容
soup = BeautifulSoup(page.content, 'html.parser')

# 提取网页标题的示例
title = soup.find('title').text
print(f'网页标题: {title}')

示例输出:

网页标题: 示例域名

对于更复杂的查询,例如提取网页上的所有链接,你可以使用BeautifulSoup的各种方法来导航和搜索解析树:

# 提取<a>标签内的所有链接
links = soup.find_all('a')

for link in links:
    href = link.get('href')
    print(href)

示例输出:

https://www.iana.org/domains/example

BeautifulSoup的灵活性允许你根据需要调整搜索,以准确获取所需的数据,使HTML解析成为与Web内容打交道的程序员的强大工具。