PHP:
Analysering av HTML

Hvordan:

For å parse HTML, kan PHP-utviklere utnytte innebygde funksjoner eller støtte seg på robuste biblioteker som Simple HTML DOM Parser. Her vil vi utforske eksempler ved å bruke både PHPs DOMDocument og Simple HTML DOM Parser.

Bruke DOMDocument:

PHPs DOMDocument-klasse er en del av dens DOM-utvidelse, som tillater parsing og manipulering av HTML- og XML-dokumenter. Her er et raskt eksempel på hvordan du bruker DOMDocument for å finne alle bildene i et HTML-dokument:

$html = <<<HTML
<!DOCTYPE html>
<html>
<head>
    <title>Eksempelside</title>
</head>
<body>
    <img src="bilde1.jpg" alt="Bilde 1">
    <img src="bilde2.jpg" alt="Bilde 2">
</body>
</html>
HTML;

$doc = new DOMDocument();
@$doc->loadHTML($html);
$images = $doc->getElementsByTagName('img');

foreach ($images as $img) {
    echo $img->getAttribute('src') . "\n";
}

Eksempel på utdata:

bilde1.jpg
bilde2.jpg

Bruke Simple HTML DOM Parser:

For mer komplekse oppgaver eller enklere syntaks, kan du foretrekke å bruke et tredjepartsbibliotek. Simple HTML DOM Parser er et populært valg, som tilbyr et jQuery-lignende grensesnitt for navigering og manipulasjon av HTML-strukturer. Her er hvordan du bruker det:

Først, installer biblioteket ved hjelp av Composer:

composer require simple-html-dom/simple-html-dom

Deretter, manipuler HTML for å, for eksempel, finne alle lenker:

require_once 'vendor/autoload.php';

use simplehtmldom\HtmlWeb;

$client = new HtmlWeb();
$html = $client->load('http://www.eksempel.com');

foreach($html->find('a') as $element) {
    echo $element->href . "\n";
}

Dette kodeutdraget vil hente HTML-innholdet fra ‘http://www.eksempel.com’, parse det, og skrive ut alle hyperlenkene. Husk å erstatte 'http://www.eksempel.com' med den faktiske URL-en du ønsker å parse.

Ved å bruke disse metodene kan PHP-utviklere effektivt parse HTML-innhold, tilpasse datautvinning etter sine behov, eller sømløst integrere eksternt webinnhold i sine prosjekter.