Python:
การวิเคราะห์ HTML

วิธีการ:

Python มีไลบรารีที่ทรงพลังเช่น BeautifulSoup และ requests สำหรับการเก็บข้อมูลจากเว็บและการวิเคราะห์ HTML เพื่อเริ่มต้น คุณต้องติดตั้งไลบรารีเหล่านี้ถ้าคุณยังไม่ได้ทำ:

pip install beautifulsoup4 requests

นี่คือตัวอย่างพื้นฐานในการใช้ requests เพื่อดึงเนื้อหา HTML ของเว็บเพจและใช้ BeautifulSoup เพื่อวิเคราะห์มัน:

import requests
from bs4 import BeautifulSoup

# ดึงเนื้อหาของเว็บเพจ
URL = 'https://example.com'
page = requests.get(URL)

# วิเคราะห์เนื้อหา HTML
soup = BeautifulSoup(page.content, 'html.parser')

# ตัวอย่างการดึงชื่อของหน้าเว็บ
title = soup.find('title').text
print(f'ชื่อของเว็บเพจ: {title}')

ตัวอย่างผลลัพธ์:

ชื่อของเว็บเพจ: Example Domain

สำหรับการค้นหาที่ซับซ้อนกว่า เช่น การดึงลิงก์ทั้งหมดจากเว็บเพจ คุณสามารถใช้วิธีต่างๆ ของ BeautifulSoup ในการเดินทางและค้นหาระบบมีข้อมูล:

# ดึงลิงก์ทั้งหมดภายในแท็ก <a>
links = soup.find_all('a')

for link in links:
    href = link.get('href')
    print(href)

ตัวอย่างผลลัพธ์:

https://www.iana.org/domains/example

ความยืดหยุ่นของ BeautifulSoup ช่วยให้คุณสามารถปรับเปลี่ยนการค้นหาข้อมูลที่ต้องการได้อย่างเฉพาะเจาะจง ทำให้การวิเคราะห์ HTML เป็นเครื่องมือที่ทรงพลังสำหรับโปรแกรมเมอร์ที่ทำงานกับเนื้อหาเว็บ