Clojure:
Verkkosivun lataaminen
How to: - Näin teet sen:
Clojuren avulla voit ladata webbisivun sisällön käyttämällä clj-http
-kirjastoa. Tässä yksinkertainen esimerkki:
(require '[clj-http.client :as client])
(defn download-page [url]
(client/get url))
;; Käyttö esimerkki:
(println (download-page "http://example.com"))
Vastaanotettu tieto näyttää suunnilleen tältä:
{:status 200,
:headers {"Content-Type" "text/html; charset=UTF-8", ...},
:body "<!doctype html>..."}
Deep Dive - Syvä sukellus:
Alkujaan, web-sivujen lataaminen perustui pelkkiin HTTP GET -pyyntöihin. Nykyisin, dynaamiset sivut vaativat monimutkaisempia tekniikoita kuten AJAX. Clojuren clj-http
-kirjasto yksinkertaistaa tämän prosessin.
Vaihtoehtoisia työkaluja ovat esim. http-kit
tai Aleph
. Niitä voidaan käyttää monenlaisten HTTP-pyyntöjen tekemiseen ja ne tulevat erilaisilla suorituskykyetuja.
Kun lataat sivua, huomioi oikeudet ja rajoitukset - esimerkiksi robots.txt
tiedosto voi rajoittaa skrapausta.
See Also - Katso myös:
- clj-http GitHub: https://github.com/dakrone/clj-http
- http-kit kotisivu: http://www.http-kit.org/
- Aleph GitHub: https://github.com/ztellman/aleph
- Clojure virallinen sivu: https://clojure.org
- Web scraping ohjeet: https://www.dataquest.io/blog/web-scraping-tutorial-clojure/