Python:
HTML:n jäsennys

Miten:

Python tarjoaa tehokkaita kirjastoja, kuten BeautifulSoup ja requests, verkkosivujen kaapimiseen ja HTML:n jäsennykseen. Aloittaaksesi sinun täytyy asentaa nämä kirjastot, jos et ole jo tehnyt niin:

pip install beautifulsoup4 requests

Tässä on perusesimerkki, jossa käytetään requests-kirjastoa noutamaan verkkosivun HTML-sisältö ja BeautifulSoup-kirjastoa sen jäsennykseen:

import requests
from bs4 import BeautifulSoup

# Nouda verkkosivun sisältö
URL = 'https://example.com'
page = requests.get(URL)

# Jäsennä HTML-sisältö
soup = BeautifulSoup(page.content, 'html.parser')

# Esimerkki verkkosivun otsikon erottamisesta
title = soup.find('title').text
print(f'Verkkosivun otsikko: {title}')

Esimerkkitulo:

Verkkosivun otsikko: Esimerkkialue

Monimutkaisempia kyselyitä varten, kuten kaikkien linkkien erottaminen verkkosivulta, voit käyttää BeautifulSoupin eri menetelmiä navigoidaksesi ja etsiäksesi jäsennyspuusta:

# Erottele kaikki linkit <a> tageista
links = soup.find_all('a')

for link in links:
    href = link.get('href')
    print(href)

Esimerkkitulo:

https://www.iana.org/domains/example

BeautifulSoupin joustavuuden ansiosta voit räätälöidä hakuasi tarkalleen tarvitsemallesi datalle, mikä tekee HTML:n jäsennyksestä tehokkaan työkalun ohjelmoijille, jotka työskentelevät web-sisällön parissa.