Python:
Analiza składniowa HTML

Jak to zrobić:

Python oferuje potężne biblioteki takie jak BeautifulSoup i requests do web scrapingu i parsowania HTML-a. Aby zacząć, musisz zainstalować te biblioteki, jeśli jeszcze tego nie zrobiłeś:

pip install beautifulsoup4 requests

Oto podstawowy przykład użycia requests do pobrania zawartości HTML strony internetowej oraz BeautifulSoup do jej analizy:

import requests
from bs4 import BeautifulSoup

# Pobierz zawartość strony internetowej
URL = 'https://example.com'
page = requests.get(URL)

# Analizuj zawartość HTML
soup = BeautifulSoup(page.content, 'html.parser')

# Przykład wyodrębnienia tytułu strony internetowej
title = soup.find('title').text
print(f'Tytuł strony internetowej: {title}')

Przykładowy wynik:

Tytuł strony internetowej: Domena przykładowa

W przypadku bardziej złożonych zapytań, takich jak wyodrębnienie wszystkich linków ze strony internetowej, możesz użyć różnych metod BeautifulSoup do nawigowania i przeszukiwania drzewa struktury:

# Wyodrębnij wszystkie linki w znacznikach <a>
links = soup.find_all('a')

for link in links:
    href = link.get('href')
    print(href)

Przykładowy wynik:

https://www.iana.org/domains/example

Elastyczność BeautifulSoup pozwala na dostosowanie wyszukiwania do dokładnie potrzebnych danych, co czyni parsowanie HTML potężnym narzędziem dla programistów pracujących z treściami internetowymi.