Python:
HTML विश्लेषण
कैसे करें:
Python, वेब स्क्रैपिंग और HTML पार्सिंग के लिए BeautifulSoup और requests जैसी शक्तिशाली लाइब्रेरी प्रदान करता है। शुरुआत करने के लिए, यदि आपने पहले से इन लाइब्रेरीज को इंस्टॉल नहीं किया है, तो आपको उन्हें इंस्टॉल करना होगा:
pip install beautifulsoup4 requests
यहाँ एक वेबपेज का HTML कंटेन्ट प्राप्त करने के लिए requests
का उपयोग करते हुए और इसे पार्स करने के लिए BeautifulSoup
का इस्तेमाल करते हुए एक मूल उदाहरण दिया गया है:
import requests
from bs4 import BeautifulSoup
# एक वेबपेज का कंटेन्ट प्राप्त करें
URL = 'https://example.com'
page = requests.get(URL)
# HTML कंटेन्ट को पार्स करें
soup = BeautifulSoup(page.content, 'html.parser')
# वेबपेज के शीर्षक को निकालने का उदाहरण
title = soup.find('title').text
print(f'वेबपेज शीर्षक: {title}')
नमूना आउटपुट:
वेबपेज शीर्षक: Example Domain
जैसे कि किसी वेबपेज से सभी लिंक्स निकालना, अधिक जटिल क्वेरीज़ के लिए, आप नेविगेट और पार्स ट्री की खोज करने के लिए BeautifulSoup के विभिन्न तरीकों का उपयोग कर सकते हैं:
# <a> टैग्स के भीतर सभी लिंक्स निकालें
links = soup.find_all('a')
for link in links:
href = link.get('href')
print(href)
नमूना आउटपुट:
https://www.iana.org/domains/example
BeautifulSoup की लचीलापन आपको वेब सामग्री के साथ काम करने वाले प्रोग्रामरों के लिए HTML पार्सिंग को एक शक्तिशाली उपकरण बनाता है, जिससे आप आवश्यक डेटा की खोज को अनुकूलित कर सकते हैं।