Tải trang web

Bash:
Tải trang web

Cách thực hiện:

Công cụ tiêu biểu cho công việc này? curl. Đó là một tiện ích dòng lệnh mạnh mẽ giúp tải dữ liệu từ web. Dưới đây là trường hợp sử dụng đơn giản nhất:

curl https://example.com -o webpage.html

Lệnh này tải HTML của example.com và ghi nó vào một tệp có tên là webpage.html. Kiểm tra đầu ra:

# Đầu ra mẫu
  % Tổng cộng    % Đã nhận % Đã chuyển  Tốc độ trung bình   Thời gian   Thời gian     Thời gian  Hiện tại
                                 Tải xuống  Tải lên   Tổng cộng   Đã dùng    Còn lại  Tốc độ
100  1256  100  1256    0     0   6458      0 --:--:-- --:--:-- --:--:--  6497

Muốn xem bạn đang tải gì trong thời gian thực không? Bỏ qua -o và việc tải xuống sẽ in ngay trong bảng điều khiển của bạn:

curl https://example.com

Sâu hơn

curl đã xuất hiện từ năm 1997, tạo chỗ đứng cho mình trong các thao tác web. Tại sao lại chọn curl thay vì tải xuống bằng trình duyệt? Tự động hóa và thân thiện với kịch bản. Nó không tương tác và có thể dễ dàng tích hợp vào các kịch bản bash.

Các lựa chọn thay thế đáng nhắc: wget, một công cụ dòng lệnh khác có khả năng tải xuống các trang web một cách đệ quy. Đối với các công việc scraping nặng nhọc hoặc khi cần một ngữ cảnh trình duyệt thực sự, các lập trình viên chuyển sang sử dụng các công cụ như Selenium, Puppeteer, hoặc Scrapy.

Tìm hiểu sâu hơn về cách hoạt động của curl: Nó hỗ trợ nhiều giao thức, từ HTTP và HTTPS đến FTP, cùng với một loạt các lựa chọn (–header, –cookie, –user-agent, v.v.) để tinh chỉnh các yêu cầu. Hơn nữa, nó thường đã được cài đặt sẵn trên các hệ thống dựa trên Unix.

Tham khảo thêm

Tài liệu Curl: https://curl.haxx.se/docs/manpage.html
Hướng dẫn Wget: https://www.gnu.org/software/wget/manual/wget.html
Giới thiệu về web scraping với Python: https://realpython.com/python-web-scraping-practical-introduction/

Cập nhật lần cuối vào tháng 4 5, 2024

Phân Tích Cú Pháp HTML

Bash:Tải trang web

Cách thực hiện:

Sâu hơn

Tham khảo thêm

Bash:
Tải trang web