Python:
Analiza składniowa HTML
Jak to zrobić:
Python oferuje potężne biblioteki takie jak BeautifulSoup i requests do web scrapingu i parsowania HTML-a. Aby zacząć, musisz zainstalować te biblioteki, jeśli jeszcze tego nie zrobiłeś:
pip install beautifulsoup4 requests
Oto podstawowy przykład użycia requests
do pobrania zawartości HTML strony internetowej oraz BeautifulSoup
do jej analizy:
import requests
from bs4 import BeautifulSoup
# Pobierz zawartość strony internetowej
URL = 'https://example.com'
page = requests.get(URL)
# Analizuj zawartość HTML
soup = BeautifulSoup(page.content, 'html.parser')
# Przykład wyodrębnienia tytułu strony internetowej
title = soup.find('title').text
print(f'Tytuł strony internetowej: {title}')
Przykładowy wynik:
Tytuł strony internetowej: Domena przykładowa
W przypadku bardziej złożonych zapytań, takich jak wyodrębnienie wszystkich linków ze strony internetowej, możesz użyć różnych metod BeautifulSoup do nawigowania i przeszukiwania drzewa struktury:
# Wyodrębnij wszystkie linki w znacznikach <a>
links = soup.find_all('a')
for link in links:
href = link.get('href')
print(href)
Przykładowy wynik:
https://www.iana.org/domains/example
Elastyczność BeautifulSoup pozwala na dostosowanie wyszukiwania do dokładnie potrzebnych danych, co czyni parsowanie HTML potężnym narzędziem dla programistów pracujących z treściami internetowymi.