Python:
פיענוח HTML
איך לעשות:
פייתון מספקת ספריות חזקות כמו BeautifulSoup ו-requests עבור scraping ברשת וניתוח HTML. להתחיל, תצטרך להתקין את הספריות הללו אם עדיין לא עשית זאת:
pip install beautifulsoup4 requests
הנה דוגמה בסיסית שמשתמשת ב-requests
כדי לצלוף את תוכן ה-HTML של דף אינטרנט וב-BeautifulSoup
כדי לנתח אותו:
import requests
from bs4 import BeautifulSoup
# צליפת תוכן של דף אינטרנט
URL = 'https://example.com'
page = requests.get(URL)
# ניתוח תוכן ה-HTML
soup = BeautifulSoup(page.content, 'html.parser')
# דוגמה לחילוץ כותרת הדף
title = soup.find('title').text
print(f'כותרת הדף: {title}')
פלט לדוגמה:
כותרת הדף: Example Domain
לשאלות מורכבות יותר, כמו לחלץ את כל הקישורים מדף אינטרנט, ניתן להשתמש בשיטות שונות של BeautifulSoup לניווט וחיפוש בעץ הניתוח:
# חילוץ כל הקישורים בתגי <a>
links = soup.find_all('a')
for link in links:
href = link.get('href')
print(href)
פלט לדוגמה:
https://www.iana.org/domains/example
גמישותה של BeautifulSoup מאפשרת לך להתאים אישית את חיפושך לנתונים הדרושים בדיוק, מה שהופך את ניתוח HTML לכלי עוצמתי עבור תכניתנים העובדים עם תוכן רשת.