Python:
HTML विश्लेषण

कैसे करें:

Python, वेब स्क्रैपिंग और HTML पार्सिंग के लिए BeautifulSoup और requests जैसी शक्तिशाली लाइब्रेरी प्रदान करता है। शुरुआत करने के लिए, यदि आपने पहले से इन लाइब्रेरीज को इंस्टॉल नहीं किया है, तो आपको उन्हें इंस्टॉल करना होगा:

pip install beautifulsoup4 requests

यहाँ एक वेबपेज का HTML कंटेन्ट प्राप्त करने के लिए requests का उपयोग करते हुए और इसे पार्स करने के लिए BeautifulSoup का इस्तेमाल करते हुए एक मूल उदाहरण दिया गया है:

import requests
from bs4 import BeautifulSoup

# एक वेबपेज का कंटेन्ट प्राप्त करें
URL = 'https://example.com'
page = requests.get(URL)

# HTML कंटेन्ट को पार्स करें
soup = BeautifulSoup(page.content, 'html.parser')

# वेबपेज के शीर्षक को निकालने का उदाहरण
title = soup.find('title').text
print(f'वेबपेज शीर्षक: {title}')

नमूना आउटपुट:

वेबपेज शीर्षक: Example Domain

जैसे कि किसी वेबपेज से सभी लिंक्स निकालना, अधिक जटिल क्वेरीज़ के लिए, आप नेविगेट और पार्स ट्री की खोज करने के लिए BeautifulSoup के विभिन्न तरीकों का उपयोग कर सकते हैं:

# <a> टैग्स के भीतर सभी लिंक्स निकालें
links = soup.find_all('a')

for link in links:
    href = link.get('href')
    print(href)

नमूना आउटपुट:

https://www.iana.org/domains/example

BeautifulSoup की लचीलापन आपको वेब सामग्री के साथ काम करने वाले प्रोग्रामरों के लिए HTML पार्सिंग को एक शक्तिशाली उपकरण बनाता है, जिससे आप आवश्यक डेटा की खोज को अनुकूलित कर सकते हैं।