HTML विश्लेषण

Haskell:
HTML विश्लेषण

कैसे:

Haskell में HTML पार्स करने के लिए, हम इसकी साधारणता और लचीलेपन के लिए tagsoup लाइब्रेरी का उपयोग करेंगे। सबसे पहले, अपनी परियोजना की cabal फाइल में tagsoup जोड़कर या cabal install tagsoup चलाकर लाइब्रेरी को इंस्टॉल करना सुनिश्चित करें।

{-# LANGUAGE OverloadedStrings #-}

import Text.HTML.TagSoup

-- प्रदर्शन के लिए नमूना HTML
let sampleHtml = "<html><body><p>Learn Haskell!</p><a href='http://example.com'>Click Here</a></body></html>"

-- HTML पार्स करें और लिंक्स (a tags) के लिए फ़िल्टर करें
let tags = parseTags sampleHtml
let links = [fromAttrib "href" tag | tag <- tags, isTagOpenName "a" tag]

-- निकाले गए लिंक्स प्रिंट करें
print links

नमूना आउटपुट:

["http://example.com"]

अधिक जटिल HTML पार्सिंग आवश्यकताओं के लिए, विशेष रूप से यदि आप दस्तावेज़ परिवर्तन के साथ काम कर रहे हैं, तो pandoc लाइब्रेरी का उपयोग करने पर विचार करें। यह असाधारण रूप से बहुमुखी है लेकिन अधिक जटिलता के साथ आता है:

import Text.Pandoc

-- मान लें कि आपके पास एक Pandoc दस्तावेज़ (doc) लोड है, उदाहरण के लिए, एक फ़ाइल पढ़ने से
let doc = ... -- आपका Pandoc दस्तावेज़ यहाँ जाता है

-- दस्तावेज़ को HTML स्ट्रिंग में परिवर्तित करें
let htmlString = writeHtmlString def doc

-- अब, आप उपरोक्त के रूप में `htmlString` को पार्स करेंगे या अपनी आवश्यकताओं के अनुसार आगे बढ़ेंगे।

pandoc को ध्यान में रखें कि यह एक काफी बड़ी लाइब्रेरी है जो कई मार्कअप प्रारूपों के बीच परिवर्तन पर केंद्रित है, तो इसका उपयोग करें अगर आपको उन अतिरिक्त क्षमताओं की आवश्यकता है या यदि आप पहले से ही अपने एप्लिकेशन में दस्तावेज़ प्रारूपों से निपट रहे हैं।

अंतिम अपडेट मार्च 13, 2024 को

वेब पेज डाउनलोड करना HTTP अनुरोध भेजना

Haskell:HTML विश्लेषण

कैसे:

Haskell:
HTML विश्लेषण