Google Apps Script:
Pobieranie strony internetowej
Jak to zrobić:
W Google Apps Script, usługa UrlFetchApp
jest kluczowa do pobierania treści internetowych. Poniżej znajduje się przewodnik krok po kroku oraz prosty przykład demonstrujący, jak pobrać i zalogować treść HTML strony internetowej:
- Podstawowa operacja pobierania:
function downloadWebPage() {
var url = "http://example.com";
var response = UrlFetchApp.fetch(url);
var content = response.getContentText();
Logger.log(content);
}
- Ten kod pobiera treść HTML example.com i rejestruje ją. Jest to prosta demonstracja uzyskania źródła strony internetowej bez żadnych dodatkowych parametrów.
- Obsługa przekierowań i HTTPS:
Dla HTTPS lub obsługi przekierowań, kod pozostaje w dużej mierze taki sam, ale rozważ implementację obsługi błędów lub konkretnych opcji dla przekierowań:
function downloadSecureWebPage() {
var options = {
'followRedirects': true, // Automatyczne śledzenie przekierowań
'muteHttpExceptions': true // Wyciszenie możliwych wyjątków dla ich łagodnego obsługiwania
};
var url = "https://example.com";
var response = UrlFetchApp.fetch(url, options);
Logger.log(response.getContentText());
}
- Limity użycia i kwoty:
Miej na uwadze limity Google Apps Script; intensywne użycie może wymagać obsługi błędów dla limitów szybkości.
Wgłębienie się
Historycznie, pobieranie i manipulacja treścią internetową zaczęły się od prostych żądań HTTP, ewoluując znacząco z nadejściem języków skryptowych. Google Apps Script umożliwia proste wykonanie takich zadań w ekosystemie G Suite, wykorzystując solidną infrastrukturę Google. Usługa UrlFetchApp
jest kluczowym elementem tej funkcjonalności, zakapsułowującym złożone żądania HTTP/S w prostszy interfejs na poziomie aplikacji.
Pomimo swojej wygody, Google Apps Script może nie zawsze być najlepszym narzędziem do intensywnego web scrapingu lub gdy wymagane jest złożone post-processing pobranych danych ze względu na limity czasu wykonania i kwoty nałożone przez Google. W takich przypadkach, dedykowane ramy do web scrapingu lub języki zaprojektowane do operacji I/O asynchronicznych, takie jak Node.js z bibliotekami typu Puppeteer czy Cheerio, mogą oferować większą elastyczność i moc.
Ponadto, chociaż Google Apps Script jest doskonałym narzędziem do integracji z Usługami Google (takimi jak Arkusze, Dokumenty i Dysk) i wykonywania lekkich operacji pobierania danych, istotne jest pamiętanie o ograniczeniach środowiska wykonawczego. Dla zadań intensywnych, rozważ użycie Google Cloud Functions lub zaawansowanych usług Apps Script z zewnętrznymi zasobami obliczeniowymi do przetwarzania.