Python:
HTML parsen
Wie geht das:
Python bietet leistungsstarke Bibliotheken wie BeautifulSoup und requests für Web Scraping und HTML-Parsing. Um zu beginnen, müssen Sie diese Bibliotheken installieren, falls Sie dies noch nicht getan haben:
pip install beautifulsoup4 requests
Hier ist ein einfaches Beispiel, das requests
verwendet, um den HTML-Inhalt einer Webseite abzurufen, und BeautifulSoup
, um ihn zu parsen:
import requests
from bs4 import BeautifulSoup
# Den Inhalt einer Webseite abrufen
URL = 'https://example.com'
page = requests.get(URL)
# Den HTML-Inhalt parsen
soup = BeautifulSoup(page.content, 'html.parser')
# Beispiel für das Extrahieren des Titels der Webseite
title = soup.find('title').text
print(f'Webseitentitel: {title}')
Beispielausgabe:
Webseitentitel: Beispiel-Domain
Für komplexere Anfragen, wie das Extrahieren aller Links von einer Webseite, können Sie die verschiedenen Methoden von BeautifulSoup zum Navigieren und Durchsuchen des Parse-Baums verwenden:
# Alle Links innerhalb von <a>-Tags extrahieren
links = soup.find_all('a')
for link in links:
href = link.get('href')
print(href)
Beispielausgabe:
https://www.iana.org/domains/example
Die Flexibilität von BeautifulSoup erlaubt es Ihnen, Ihre Suche nach den exakt benötigten Daten anzupassen, was das HTML-Parsing zu einem mächtigen Werkzeug für Programmierer macht, die mit Webinhalten arbeiten.