Fish Shell:
Phân Tích Cú Pháp HTML

Làm thế nào:

Fish Shell không phải là lựa chọn hàng đầu để phân tích cú pháp HTML, nhưng với các công cụ phù hợp, việc này có thể thực hiện được. Hãy sử dụng pup, một trình phân tích cú pháp HTML dòng lệnh, để làm việc với nội dung HTML.

# Đầu tiên, cài đặt pup
brew install pup

# Lấy tiêu đề từ example.com
curl -s http://example.com | pup 'title text{}'

# Đầu ra mẫu nên là tiêu đề của trang web, ví dụ như:
# Example Domain

Bây giờ, hãy thu thập tất cả các liên kết siêu văn bản:

# Trích xuất liên kết (thuộc tính href) từ example.com
curl -s http://example.com | pup 'a attr{href}'

# Đầu ra mẫu:
# http://www.iana.org/domains/example

Sâu hơn nữa

Trước khi có Fish Shell và pup, mọi người thường sử dụng regex rườm rà hoặc các kịch bản phía máy chủ phức tạp. Công cụ như pup đã làm cho quá trình này thông minh hơn, dựa vào cú pháp bộ chọn CSS cho việc phân tích cú pháp trực quan và đáng tin cậy hơn.

Các lựa chọn thay thế bao gồm Beautiful Soup của Python hoặc Node.js với Cheerio; chúng mạnh mẽ hơn nhưng không ngắn gọn như việc sử dụng một dòng lệnh.

Phân tích cú pháp HTML với Fish đều dựa vào việc ủy thác nhiệm vụ cho các công cụ chuyên biệt do khả năng thao tác văn bản hạn chế của nó. Fish gọi đến những công cụ này, thu thập đầu ra của chúng, và cho phép bạn thực hiện phép thuật lập trình của mình.

Xem thêm