Een webpagina downloaden

Bash:
Een webpagina downloaden

Hoe:

Het gereedschap bij uitstek voor deze klus? curl. Het is een krachtige opdrachtregel-tool die gegevens van het web haalt. Hier is het eenvoudigste gebruiksscenario:

curl https://example.com -o webpage.html

Dit commando downloadt de HTML van example.com en schrijft deze naar een bestand met de naam webpage.html. Bekijk de output:

# Voorbeeld van output
  % Totaal    % Ontvangen % Xferd  Gemiddelde Snelheid   Tijd    Tijd     Tijd  Huidig
                                 Dload  Upload   Totaal   Besteed  Over  Snelheid
100  1256  100  1256    0     0   6458      0 --:--:-- --:--:-- --:--:--  6497

Wil je zien wat je in real-time aan het downloaden bent? Laat de -o weg en de download wordt direct in je console weergegeven:

curl https://example.com

Diep Duiken

curl bestaat al sinds 1997, en heeft zijn niche gevonden voor weboperaties. Waarom curl boven browser downloads? Automatisering en script-vriendelijkheid. Het is niet-interactief en kan gemakkelijk worden verweven in bash scripts.

Het vermelden waard alternatieven: wget, een andere commando-regel krachtpatser die webpagina’s recursief kan downloaden. Voor zware scraping of wanneer een echte browsercontext nodig is, wenden programmeurs zich tot tools als Selenium, Puppeteer of Scrapy.

Dieper ingaan op de werking van curl: het ondersteunt meerdere protocollen, van HTTP en HTTPS tot FTP, en een heleboel opties (–header, –cookie, –user-agent, etc.) voor het fijnafstemmen van verzoeken. Plus, het komt meestal vooraf geïnstalleerd op op Unix-gebaseerde systemen.

Zie Ook

Curl Documentatie: https://curl.haxx.se/docs/manpage.html
Wget Handleiding: https://www.gnu.org/software/wget/manual/wget.html
Introductie tot webscraping met Python: https://realpython.com/python-web-scraping-practical-introduction/

bijgewerkt op april 5, 2024

HTML Parsen

Bash:Een webpagina downloaden

Hoe:

Diep Duiken

Zie Ook

Bash:
Een webpagina downloaden