Python:
HTML parsen

Wie geht das:

Python bietet leistungsstarke Bibliotheken wie BeautifulSoup und requests für Web Scraping und HTML-Parsing. Um zu beginnen, müssen Sie diese Bibliotheken installieren, falls Sie dies noch nicht getan haben:

pip install beautifulsoup4 requests

Hier ist ein einfaches Beispiel, das requests verwendet, um den HTML-Inhalt einer Webseite abzurufen, und BeautifulSoup, um ihn zu parsen:

import requests
from bs4 import BeautifulSoup

# Den Inhalt einer Webseite abrufen
URL = 'https://example.com'
page = requests.get(URL)

# Den HTML-Inhalt parsen
soup = BeautifulSoup(page.content, 'html.parser')

# Beispiel für das Extrahieren des Titels der Webseite
title = soup.find('title').text
print(f'Webseitentitel: {title}')

Beispielausgabe:

Webseitentitel: Beispiel-Domain

Für komplexere Anfragen, wie das Extrahieren aller Links von einer Webseite, können Sie die verschiedenen Methoden von BeautifulSoup zum Navigieren und Durchsuchen des Parse-Baums verwenden:

# Alle Links innerhalb von <a>-Tags extrahieren
links = soup.find_all('a')

for link in links:
    href = link.get('href')
    print(href)

Beispielausgabe:

https://www.iana.org/domains/example

Die Flexibilität von BeautifulSoup erlaubt es Ihnen, Ihre Suche nach den exakt benötigten Daten anzupassen, was das HTML-Parsing zu einem mächtigen Werkzeug für Programmierer macht, die mit Webinhalten arbeiten.