הורדת דף אינטרנט

Python:
הורדת דף אינטרנט

איך לעשות:

בואו נשתמש ב-requests שזו ספרייה פופולרית לביצוע בקשות HTTP בפייתון.

import requests

# שליחת בקשת GET לאתר
response = requests.get('https://example.com')

# בדיקה שקיבלנו מענה חיובי
if response.status_code == 200:
    # שמירת התוכן בקובץ
    with open('example.html', 'w', encoding='utf-8') as file:
        file.write(response.text)

# הדפסת התוכן בקונסול לבדיקה
print(response.text)

הקוד הזה יוצר קובץ שנקרא example.html עם ה-html של אתר example.com.

נסיון עמוק:

הורדת דפי אינטרנט אינה רעיון חדש. במהלך השנים, היה צורך לארגן את האינטרנט ולעשות אותו נגיש יותר באמצעות שיטות שונות, כמו ובים ו-APIs. לפני ש-‘requests’ התמקמה כסטנדרט, ספריות כמו urllib וhttplib היו צעדים ראשונים לגישה לרשת בפייתון.

לגבי חלופות:

אם אתה צריך להתמודד עם JavaScript דינמי בדף, requests לא יספיק. במקום זאת, תצטרך כלים כמו Selenium או Splash שמדמים דפדפן ויכולים להריץ JavaScript.

אז מה הלאה?

ביצועים: עבודה עם הספרייה ‘requests’ היא קלילה, אבל בפרויקטים גדולים עם הרבה בקשות, יתכן שתרצה לבחון את asyncio וaiohttp, שמאפשרות עבודה א-סינכרונית.

ראו גם:

מסמכים רשמיים של ‘requests’: https://requests.readthedocs.io
Selenium: https://www.selenium.dev
aiohttp (עבור א-סינכרון): https://docs.aiohttp.org

עודכן לאחרונה ב-מרץ 13, 2024

פיענוח HTML

Python:הורדת דף אינטרנט