Java:
הורדת דף אינטרנט
איך לעשות:
במאמר זה, נשתמש ב-Java כדי להוריד דף אינטרנט. אנחנו מוסיפים תלות בספריית java.net.*
כדי לבצע את המשימה.
import java.io.*;
import java.net.*;
public class WebPageDownloader {
public static void main(String[] args) {
String webPageUrl = "http://example.com";
try {
URL url = new URL(webPageUrl);
HttpURLConnection connection = (HttpURLConnection) url.openConnection();
connection.setRequestMethod("GET");
BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
String inputLine;
StringBuilder content = new StringBuilder();
while ((inputLine = in.readLine()) != null) {
content.append(inputLine);
}
in.close();
System.out.println("דף האינטרנט הורד בהצלחה");
} catch (IOException e) {
e.printStackTrace();
System.out.println("הורדת דף האינטרנט נכשלה");
}
}
}
זה רק דוגמא סטטית פשוטה. לרוב, תרצו לאחסן את התוכן בקובץ או במאגר נתונים.
צלילה לעומק:
היסטורית, הורדת דפי אינטרנט הייתה מורכבת יותר. בעבר היינו צריכים להתמודד עם הגדרות פרוקסי ותעבורה מוצפנת במאמצים רבים יותר. כיום, ספריות כמו Apache HttpClient ו-okhttp מקלות על התהליך. ישנם אלטרנטיבות ל-Java כמו cURL ב-PHP או Requests ב-Python.
בפירוט, כאשר אנו מורידים דף אינטרנט, אנו עושים בקשה מסוג GET לשרת. זה מחזיר לנו את תכני ה-HTML, שבהם יכולות להיות קישורים לתמונות, גיליונות סגנון (CSS), וסקריפטים. החיבור שיצרנו בדוגמא למעלה יכול גם להתמודד עם שגיאות שרת ולהחזיר את הקוד המתאים (לדוגמא, 404 לדף לא נמצא).