JavaScript:
HTML पार्स करना
कैसे करें:
चलिए DOMParser
API का उपयोग करते हुए JavaScript में HTML का पार्स करें।
const parser = new DOMParser();
const htmlString = `<p>Hello, world!</p>`;
const doc = parser.parseFromString(htmlString, 'text/html');
console.log(doc.body.textContent); // आउटपुट: Hello, world!
अब, चलिए कुछ और विशिष्ट चीज़ को पकड़ते हैं, जैसे एक क्लास के साथ एक तत्त्व:
const htmlString = `<div><p class="greeting">Hello, again!</p></div>`;
const doc = parser.parseFromString(htmlString, 'text/html');
const greeting = doc.querySelector('.greeting').textContent;
console.log(greeting); // आउटपुट: Hello, again!
गहराई से जानकारी
HTML का पार्सिंग वेब जितना पुराना है। शुरू में, यह एक ब्राउज़र चीज थी—ब्राउज़र्स HTML का पार्सिंग करते थे ताकि वेब पृष्ठों को प्रदर्शित किया जा सके। समय के साथ, प्रोग्रामर इस प्रक्रिया में दखल देना चाहते थे, जिससे DOMParser
जैसे API तक पहुँच प्राप्त हुई।
विकल्प? बिलकुल। हमारे पास jQuery
जैसी लाइब्रेरीज और BeautifulSoup
जैसे उपकरण Python के लिए हैं। लेकिन JavaScript का मूल DOMParser
तेज और बिना किसी अतिरिक्त लाइब्रेरी के मौजूद है।
कार्यान्वयन के दृष्टिकोण से, जब आप DOMParser
के साथ HTML का पार्सिंग करते हैं, यह एक Document
ऑब्जेक्ट बनाता है। इसे अपने HTML का एक पदानुक्रमिक मॉडल समझें। एक बार जब आप इसे प्राप्त कर लेते हैं, तो आप इसे नेविगेट और हेरफेर कर सकते हैं, ठीक उसी तरह जैसे आप एक सामान्य वेब पृष्ठ के DOM के साथ करेंगे।
यहां बात यह है—पार्सिंग खराब बनाई गई HTML पर ठोकर खा सकती है। ब्राउज़र्स क्षमाशील होते हैं, लेकिन DOMParser
नहीं हो सकता। इसलिए, जटिल कार्यों या गड़बड़ी वाले HTML के लिए, तीसरे पक्ष की लाइब्रेरी बेहतर सफाई कार्य कर सकती है।
साथ में देखें
DOMParser
API पर MDN वेब डॉक्स: MDN DOMParser- jQuery की पार्सिंग क्षमताएं: jQuery.parseHTML()
- Cheerio, सर्वर के लिए कोर jQuery का एक तेज़, लचीला और लीन कार्यान्वयन: Cheerio.js
- गैर-JS पार्सिंग के लिए: Python की BeautifulSoup लाइब्रेरी: Beautiful Soup