Python:
การวิเคราะห์ HTML
วิธีการ:
Python มีไลบรารีที่ทรงพลังเช่น BeautifulSoup และ requests สำหรับการเก็บข้อมูลจากเว็บและการวิเคราะห์ HTML เพื่อเริ่มต้น คุณต้องติดตั้งไลบรารีเหล่านี้ถ้าคุณยังไม่ได้ทำ:
pip install beautifulsoup4 requests
นี่คือตัวอย่างพื้นฐานในการใช้ requests
เพื่อดึงเนื้อหา HTML ของเว็บเพจและใช้ BeautifulSoup
เพื่อวิเคราะห์มัน:
import requests
from bs4 import BeautifulSoup
# ดึงเนื้อหาของเว็บเพจ
URL = 'https://example.com'
page = requests.get(URL)
# วิเคราะห์เนื้อหา HTML
soup = BeautifulSoup(page.content, 'html.parser')
# ตัวอย่างการดึงชื่อของหน้าเว็บ
title = soup.find('title').text
print(f'ชื่อของเว็บเพจ: {title}')
ตัวอย่างผลลัพธ์:
ชื่อของเว็บเพจ: Example Domain
สำหรับการค้นหาที่ซับซ้อนกว่า เช่น การดึงลิงก์ทั้งหมดจากเว็บเพจ คุณสามารถใช้วิธีต่างๆ ของ BeautifulSoup ในการเดินทางและค้นหาระบบมีข้อมูล:
# ดึงลิงก์ทั้งหมดภายในแท็ก <a>
links = soup.find_all('a')
for link in links:
href = link.get('href')
print(href)
ตัวอย่างผลลัพธ์:
https://www.iana.org/domains/example
ความยืดหยุ่นของ BeautifulSoup ช่วยให้คุณสามารถปรับเปลี่ยนการค้นหาข้อมูลที่ต้องการได้อย่างเฉพาะเจาะจง ทำให้การวิเคราะห์ HTML เป็นเครื่องมือที่ทรงพลังสำหรับโปรแกรมเมอร์ที่ทำงานกับเนื้อหาเว็บ