Python:
HTML পার্স করা

কিভাবে:

Python ওয়েব স্ক্রেপিং এবং HTML পার্সিং এর জন্য BeautifulSoup এবং requests এর মতো শক্তিশালী লাইব্রেরি প্রদান করে। শুরু করার জন্য, আপনি এই লাইব্রেরিগুলি ইনস্টল করে নিতে হবে যদি আপনি এর আগে ইনস্টল না করে থাকেন:

pip install beautifulsoup4 requests

এখানে একটি বেসিক উদাহরণ দেওয়া হল, যা requests ব্যবহার করে একটি ওয়েবপেজের HTML কনটেন্ট ফেচ করে এবং BeautifulSoup দ্বারা তা পার্স করে:

import requests
from bs4 import BeautifulSoup

# ওয়েবপেজের কনটেন্ট ফেচ করুন
URL = 'https://example.com'
page = requests.get(URL)

# HTML কনটেন্ট পার্স করুন
soup = BeautifulSoup(page.content, 'html.parser')

# ওয়েবপেজের শিরোনাম নির্যাসের একটি উদাহরণ
title = soup.find('title').text
print(f'ওয়েবপেজের শিরোনাম: {title}')

নমুনা আউটপুট:

ওয়েবপেজের শিরোনাম: এক্সাম্পল ডোমেইন

ওয়েবপেজ থেকে সমস্ত লিঙ্ক নির্যাস করার মতো আরো জটিল কোয়েরির জন্য, আপনি BeautifulSoup এর বিভিন্ন পদ্ধতি ব্যবহার করে পার্স ট্রি নেভিগেড করা এবং খুঁজে পেতে পারেন:

# <a> ট্যাগের মধ্যে সমস্ত লিঙ্ক নির্যাস করুন
links = soup.find_all('a')

for link in links:
    href = link.get('href')
    print(href)

নমুনা আউটপুট:

https://www.iana.org/domains/example

BeautifulSoup এর নমনীয়তা আপনাকে প্রয়োজনীয় ঠিক তথ্য অনুসন্ধানের জন্য আপনার অনুসন্ধান কাস্টমাইজ করতে দেয়, ওয়েব কনটেন্ট নিয়ে কাজ করা প্রোগ্রামারদের জন্য HTML পার্সিংকে একটি শক্তিশালী টুল করে তোলে।