Python:
Аналіз HTML

Як це зробити:

Python надає потужні бібліотеки, такі як BeautifulSoup та requests, для веб-скрапінгу та парсингу HTML. Для початку, вам потрібно встановити ці бібліотеки, якщо ви ще цього не зробили:

pip install beautifulsoup4 requests

Ось базовий приклад використання requests для отримання HTML-вмісту вебсторінки та BeautifulSoup для його парсингу:

import requests
from bs4 import BeautifulSoup

# Отримати вміст вебсторінки
URL = 'https://example.com'
page = requests.get(URL)

# Парсити HTML-вміст
soup = BeautifulSoup(page.content, 'html.parser')

# Приклад вилучення заголовку вебсторінки
title = soup.find('title').text
print(f'Назва вебсторінки: {title}')

Приклад виведення:

Назва вебсторінки: Example Domain

Для більш складних запитів, як-от вилучення всіх посилань із вебсторінки, ви можете використовувати різноманітні методи BeautifulSoup для навігації та пошуку у дереві аналізу:

# Вилучити всі посилання в межах тегів <a>
links = soup.find_all('a')

for link in links:
    href = link.get('href')
    print(href)

Приклад виведення:

https://www.iana.org/domains/example

Гнучкість BeautifulSoup дозволяє налаштувати ваш пошук для точних даних, які вам потрібні, роблячи парсинг HTML потужним інструментом для програмістів, які працюють з веб-вмістом.