JavaScript:
HTML পার্স করা
কীভাবে:
চলুন JavaScript-এ DOMParser
API ব্যবহার করে HTML পার্স করি।
const parser = new DOMParser();
const htmlString = `<p>Hello, world!</p>`;
const doc = parser.parseFromString(htmlString, 'text/html');
console.log(doc.body.textContent); // আউটপুট: Hello, world!
এখন, চলুন আরও নির্দিষ্ট কিছু নেই, যেমন একটি ক্লাসের সাথে একটি এলিমেন্ট:
const htmlString = `<div><p class="greeting">Hello, again!</p></div>`;
const doc = parser.parseFromString(htmlString, 'text/html');
const greeting = doc.querySelector('.greeting').textContent;
console.log(greeting); // আউটপুট: Hello, again!
গভীরে প্রবেশ
HTML পার্সিং ওয়েব যতদিনের ততদিনের বিষয়। প্রথমদিকে, এটি একটি ব্রাউজারের বিষয় ছিল—ব্রাউজারগুলি ওয়েব পৃষ্ঠাগুলি প্রদর্শনের জন্য HTML পার্স করত। সময়ের সাথে সাথে, প্রোগ্রামাররা এই প্রক্রিয়ায় নিজেদের প্রবেশ করাতে চেয়েছিল, যা DOMParser
এর মতো API লিডিং করে।
বিকল্প? অবশ্যই আছে। আমাদের কাছে jQuery
এবং BeautifulSoup
এর মতো টুলস আছে পাইথনের জন্য। কিন্তু JavaScript-এর নেটিভ DOMParser
হল দ্রুত এবং অন্তর্বতী, অতিরিক্ত লাইব্রেরিগুলির প্রয়োজন নেই।
বাস্তবায়নের দিক থেকে, যখন আপনি DOMParser
দিয়ে HTML পার্স করেন, এটি একটি Document
অবজেক্ট তৈরি করে। আপনার HTML-এর একটি হায়ারার্কিক্যাল মডেল হিসেবে এটিকে ভাবুন। একবার আপনার কাছে এটি থাকলে, আপনি এটি ন্যাভিগেট এবং ম্যানিপুলেট করতে পারেন যেমনটি আপনি একটি সাধারণ ওয়েব পৃষ্ঠার DOM এর সাথে করে থাকেন।
এখানে ব্যাপারটা হল—পার্সিং ভুল ফর্ম্যাট করা HTML-এ সমস্যা সৃষ্টি করতে পারে। ব্রাউজারগুলি ক্ষমাশীল হয়, কিন্তু DOMParser
হয়ত নয়। তাই, জটিল কাজ বা অগোছালো HTML-এর জন্য, থার্ড-পার্টি লাইব্রেরিগুলি ভাল পরিষ্কার কাজ করতে পারে।
দেখুন অতঃপর
DOMParser
API সম্পর্কে MDN ওয়েব ডকস: MDN DOMParser- jQuery-এর পার্সিং ক্ষমতা: jQuery.parseHTML()
- সার্ভারের জন্য jQuery-এর মূল বাস্তবায়নের দ্রুত, নমনীয় ও পাতলা প্রকাশ: Cheerio.js
- নন-জেএস পার্সিং: পাইথনের BeautifulSoup লাইব্রেরি: Beautiful Soup