Java:
HTML पार्स करना

How to:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlParserExample {
    public static void main(String[] args) {
        String html = "<html><head><title>First Parse</title></head>"
                    + "<body><p>Parsed HTML into a doc.</p></body></html>";
        Document doc = Jsoup.parse(html);
        Elements paragraphs = doc.select("p");
        for (Element paragraph : paragraphs) {
            System.out.println(paragraph.text());
        }
    }
}

यहाँ सैंपल आउटपुट:

Parsed HTML into a doc.

Deep Dive

पार्सिंग HTML: इतिहास और विकल्प

HTML पार्स करने की प्रक्रिया 1990 के दशक से है, जब वेब विकास ने रफ़्तार पकड़ी थी। इतिहास में, विभिन्न लाइब्रेरीज और टूल्स विकसित किए गए हैं, जैसे कि HTMLParser, Jsoup, और HtmlUnit।

Jsoup का इस्तेमाल करने के विकल्पों में HtmlUnit और Java’s own HtmlUnit जैसे लाइब्रेरीज शामिल हैं। Jsoup अन्य लाइब्रेरीज की तुलना में संपूर्ण DOM के साथ काम करता है, साथ ही साथ वेब पेज से फॉर्म सबमिट करने, URL से डेटा खींचने, और कुकीज मैनेज करने जैसी विशेषताएं प्रदान करता है।

पार्सिंग की अच्छाई यह है कि यह डेवलपर्स को HTML में विशिष्ट टैग्स, एट्रिब्यूट, और टेक्स्ट कंटेंट खोजने में सक्षम बनाता है। Jsoup में CSS सेलेक्टर सपोर्ट भी होता है, जिससे डोम एलिमेंट्स को खोजने का काम और भी सरल हो जाता है।

See Also

इन लिंक्स पर जाकर आप और जानकारी ले सकते हैं कि जावा में HTML पार्सिंग कैसे की जाती है और Jsoup लाइब्रेरी का उपयोग करने में और क्या-क्या खासियतें हैं।