Python:
Аналіз HTML
Як це зробити:
Python надає потужні бібліотеки, такі як BeautifulSoup та requests, для веб-скрапінгу та парсингу HTML. Для початку, вам потрібно встановити ці бібліотеки, якщо ви ще цього не зробили:
pip install beautifulsoup4 requests
Ось базовий приклад використання requests
для отримання HTML-вмісту вебсторінки та BeautifulSoup
для його парсингу:
import requests
from bs4 import BeautifulSoup
# Отримати вміст вебсторінки
URL = 'https://example.com'
page = requests.get(URL)
# Парсити HTML-вміст
soup = BeautifulSoup(page.content, 'html.parser')
# Приклад вилучення заголовку вебсторінки
title = soup.find('title').text
print(f'Назва вебсторінки: {title}')
Приклад виведення:
Назва вебсторінки: Example Domain
Для більш складних запитів, як-от вилучення всіх посилань із вебсторінки, ви можете використовувати різноманітні методи BeautifulSoup для навігації та пошуку у дереві аналізу:
# Вилучити всі посилання в межах тегів <a>
links = soup.find_all('a')
for link in links:
href = link.get('href')
print(href)
Приклад виведення:
https://www.iana.org/domains/example
Гнучкість BeautifulSoup дозволяє налаштувати ваш пошук для точних даних, які вам потрібні, роблячи парсинг HTML потужним інструментом для програмістів, які працюють з веб-вмістом.