HTML Parsen

Fish Shell:
HTML Parsen

Hoe te:

Fish Shell is niet de eerste keuze voor het parsen van HTML, maar met de juiste tools is het haalbaar. Laten we pup, een command-line HTML-parser, gebruiken om met HTML-inhoud te werken.

# Eerst, installeer pup
brew install pup

# Haal de titel op van example.com
curl -s http://example.com | pup 'title text{}'

# Voorbeelduitvoer zou de titel van de website moeten zijn, iets zoals:
# Voorbeeld Domein

Nu laten we alle hyperlinks vangen:

# Extraheren links (href attributen) van example.com
curl -s http://example.com | pup 'a attr{href}'

# Voorbeelduitvoer:
# http://www.iana.org/domains/example

Diepgaand

Voor Fish Shell en pup zouden mensen klungelige regex of complexe server-side scripts gebruiken. Tools zoals pup hebben het proces verfijnd, steunend op CSS-selector syntax voor een intuïtievere en betrouwbaardere parsing.

Alternatieven omvatten Python’s Beautiful Soup of Node.js met Cheerio; ze zijn krachtiger maar niet zo beknopt voor one-liners.

HTML parsen met Fish komt neer op het uitbesteden van de taak aan gespecialiseerde tools vanwege zijn beperkte tekstmanipulatiecapaciteiten. Fish roept deze tools aan, vangt hun uitvoer op en laat je je scriptmagie werken.

Zie Ook

Pup GitHub Repo - Documentatie en voorbeelden.
Fish Shell Documentatie - Leer meer over Fish.
Beautiful Soup Documentatie - Voor meer complexe HTML parsing in Python.
Cheerio GitHub Repo - Voor degenen die geïnteresseerd zijn in een op JavaScript gebaseerde aanpak.

bijgewerkt op maart 13, 2024

Een webpagina downloaden Een HTTP-verzoek verzenden

Fish Shell:HTML Parsen

Hoe te:

Diepgaand

Zie Ook

Fish Shell:
HTML Parsen