PHP:
Аналіз HTML

Як:

Для парсингу HTML програмісти PHP можуть використовувати вбудовані функції або звертатися до потужних бібліотек, як-от Simple HTML DOM Parser. Тут ми розглянемо приклади використання як класу DOMDocument в PHP, так і Simple HTML DOM Parser.

Використання DOMDocument:

Клас DOMDocument в PHP є частиною розширення DOM, що дозволяє парсити та маніпулювати HTML- та XML-документами. Ось швидкий приклад того, як використовувати DOMDocument для пошуку всіх зображень у HTML-документі:

$html = <<<HTML
<!DOCTYPE html>
<html>
<head>
    <title>Приклад сторінки</title>
</head>
<body>
    <img src="image1.jpg" alt="Зображення 1">
    <img src="image2.jpg" alt="Зображення 2">
</body>
</html>
HTML;

$doc = new DOMDocument();
@$doc->loadHTML($html);
$images = $doc->getElementsByTagName('img');

foreach ($images as $img) {
    echo $img->getAttribute('src') . "\n";
}

Приклад виводу:

image1.jpg
image2.jpg

Використання Simple HTML DOM Parser:

Для більш складних завдань або для спрощеного синтаксису ви можете віддати перевагу використанню сторонньої бібліотеки. Simple HTML DOM Parser є популярним вибором, надаючи інтерфейс схожий на jQuery для навігації та маніпулювання структурами HTML. Ось як це використовувати:

Спочатку встановіть бібліотеку за допомогою Composer:

composer require simple-html-dom/simple-html-dom

Потім маніпулюйте HTML, щоб, наприклад, знайти всі посилання:

require_once 'vendor/autoload.php';

use simplehtmldom\HtmlWeb;

$client = new HtmlWeb();
$html = $client->load('http://www.example.com');

foreach($html->find('a') as $element) {
    echo $element->href . "\n";
}

Цей код завантажить HTML-вміст ‘http://www.example.com’, проаналізує його та виведе всі гіперпосилання. Не забудьте замінити 'http://www.example.com' на фактичну URL-адресу, яку ви бажаєте проаналізувати.

Використовуючи ці методи, розробники PHP можуть ефективно парсити HTML-вміст, налаштувати витягування даних відповідно до своїх потреб або безпроблемно інтегрувати зовнішній веб-вміст у свої проєкти.