Java:
הורדת דף אינטרנט

איך לעשות:

במאמר זה, נשתמש ב-Java כדי להוריד דף אינטרנט. אנחנו מוסיפים תלות בספריית java.net.* כדי לבצע את המשימה.

import java.io.*;
import java.net.*;

public class WebPageDownloader {
    public static void main(String[] args) {
        String webPageUrl = "http://example.com";
        try {
            URL url = new URL(webPageUrl);
            HttpURLConnection connection = (HttpURLConnection) url.openConnection();
            connection.setRequestMethod("GET");
            
            BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
            String inputLine;
            StringBuilder content = new StringBuilder();
            
            while ((inputLine = in.readLine()) != null) {
                content.append(inputLine);
            }
            
            in.close();
            System.out.println("דף האינטרנט הורד בהצלחה");
        } catch (IOException e) {
            e.printStackTrace();
            System.out.println("הורדת דף האינטרנט נכשלה");
        }
    }
}

זה רק דוגמא סטטית פשוטה. לרוב, תרצו לאחסן את התוכן בקובץ או במאגר נתונים.

צלילה לעומק:

היסטורית, הורדת דפי אינטרנט הייתה מורכבת יותר. בעבר היינו צריכים להתמודד עם הגדרות פרוקסי ותעבורה מוצפנת במאמצים רבים יותר. כיום, ספריות כמו Apache HttpClient ו-okhttp מקלות על התהליך. ישנם אלטרנטיבות ל-Java כמו cURL ב-PHP או Requests ב-Python.

בפירוט, כאשר אנו מורידים דף אינטרנט, אנו עושים בקשה מסוג GET לשרת. זה מחזיר לנו את תכני ה-HTML, שבהם יכולות להיות קישורים לתמונות, גיליונות סגנון (CSS), וסקריפטים. החיבור שיצרנו בדוגמא למעלה יכול גם להתמודד עם שגיאות שרת ולהחזיר את הקוד המתאים (לדוגמא, 404 לדף לא נמצא).

ראו גם: