Python:
פיענוח HTML

איך לעשות:

פייתון מספקת ספריות חזקות כמו BeautifulSoup ו-requests עבור scraping ברשת וניתוח HTML. להתחיל, תצטרך להתקין את הספריות הללו אם עדיין לא עשית זאת:

pip install beautifulsoup4 requests

הנה דוגמה בסיסית שמשתמשת ב-requests כדי לצלוף את תוכן ה-HTML של דף אינטרנט וב-BeautifulSoup כדי לנתח אותו:

import requests
from bs4 import BeautifulSoup

# צליפת תוכן של דף אינטרנט
URL = 'https://example.com'
page = requests.get(URL)

# ניתוח תוכן ה-HTML
soup = BeautifulSoup(page.content, 'html.parser')

# דוגמה לחילוץ כותרת הדף
title = soup.find('title').text
print(f'כותרת הדף: {title}')

פלט לדוגמה:

כותרת הדף: Example Domain

לשאלות מורכבות יותר, כמו לחלץ את כל הקישורים מדף אינטרנט, ניתן להשתמש בשיטות שונות של BeautifulSoup לניווט וחיפוש בעץ הניתוח:

# חילוץ כל הקישורים בתגי <a>
links = soup.find_all('a')

for link in links:
    href = link.get('href')
    print(href)

פלט לדוגמה:

https://www.iana.org/domains/example

גמישותה של BeautifulSoup מאפשרת לך להתאים אישית את חיפושך לנתונים הדרושים בדיוק, מה שהופך את ניתוח HTML לכלי עוצמתי עבור תכניתנים העובדים עם תוכן רשת.