Python:
HTMLの解析
方法:
Pythonは、ウェブスクレイピングやHTMLパーシングのために、BeautifulSoupやrequestsのような強力なライブラリを提供しています。始めるには、まだインストールしていなければこれらのライブラリをインストールする必要があります:
pip install beautifulsoup4 requests
以下は、requests
を使用してウェブページのHTMLコンテンツを取得し、BeautifulSoup
でそれを解析する基本的な例です:
import requests
from bs4 import BeautifulSoup
# ウェブページのコンテンツを取得
URL = 'https://example.com'
page = requests.get(URL)
# HTMLコンテンツを解析
soup = BeautifulSoup(page.content, 'html.parser')
# ウェブページのタイトルを抽出する例
title = soup.find('title').text
print(f'ウェブページのタイトル: {title}')
サンプル出力:
ウェブページのタイトル: Example Domain
ウェブページからすべてのリンクを抽出するなど、より複雑なクエリに対しては、BeautifulSoupのパースツリーをナビゲートして検索するためのさまざまなメソッドを使用できます:
# <a>タグ内のすべてのリンクを抽出
links = soup.find_all('a')
for link in links:
href = link.get('href')
print(href)
サンプル出力:
https://www.iana.org/domains/example
BeautifulSoupの柔軟性は、必要な正確なデータを検索するために検索をカスタマイズすることを可能にし、HTMLパーシングをウェブコンテンツを扱うプログラマーにとって強力なツールにします。