একটি ওয়েবপেজ ডাউনলোড করা

Bash:
একটি ওয়েবপেজ ডাউনলোড করা

কিভাবে:

এই কাজের জন্য যেতে হবে কোন টুলের কাছে? curl। এটি একটি শক্তিশালী কমান্ড-লাইন ইউটিলিটি যা ওয়েব থেকে ডেটা আহরণ করে। এখানে সবচেয়ে সহজ ব্যবহারের উদাহরণ দেওয়া হল:

curl https://example.com -o webpage.html

এই কমান্ডটি example.com এর HTML ডাউনলোড করে এবং এটিকে webpage.html নামে একটি ফাইলে লিখে। আউটপুট দেখুন:

# নমুনা আউটপুট
  % মোট    % প্রাপ্ত % স্থানান্তরিত  গড় গতি   সময়    সময়     সময়  বর্তমান
                                 ডাউনলোড  আপলোড   মোট   খরচ    বাকি  গতি
100  1256  100  1256    0     0   6458      0 --:--:-- --:--:-- --:--:--  6497

আপনি কি ডাউনলোড করছেন তা সময় অনুযায়ী দেখতে চান? -o ফেলে দিন এবং ডাউনলোডটি সরাসরি আপনার কনসোলে প্রিন্ট হবে:

curl https://example.com

গভীর ডাইভ

curl 1997 সাল থেকে চালু আছে, ওয়েব অপারেশনের জন্য নিজের স্থান তৈরি করে নিয়েছে। ব্রাউজার ডাউনলোডের চেয়ে curl কেন? অটোমেশন এবং স্ক্রিপ্ট-বান্ধব। এটি ইন্টারঅ্যাক্টিভ নয় এবং ব্যাশ স্ক্রিপ্টগুলিতে সহজে সংযোজিত করা সম্ভব।

উল্লেখ্য বিকল্পগুলি: wget, আরেকটি কমান্ড-লাইন পাওয়ারহাউস যা রিকার্সিভভাবে ওয়েব পৃষ্ঠা ডাউনলোড করতে পারে। ভারী-দায়িত্ব স্ক্র্যাপিং বা একটি বাস্তব ব্রাউজার প্রসঙ্গ প্রয়োজন হলে, প্রোগ্রামাররা সেলেনিয়াম, প্যাপেটিয়ার, অথবা স্ক্র্যাপি এর মত টুলস ব্যবহার করেন।

curl এর প্রক্রিয়া সম্পর্কে: এটি HTTP এবং HTTPS থেকে FTP পর্যন্ত একাধিক প্রটোকল সমর্থন করে, এবং বিভিন্ন অপশন (–header, –cookie, –user-agent, ইত্যাদি) দিয়ে অনুরোধগুলি সূক্ষ্মভাবে সামঞ্জস্য করার জন্য। প্লাস, এটি সাধারণত ইউনিক্স-ভিত্তিক সিস্টেমগুলিতে পূর্ব-ইনস্টল করা হয়ে থাকে।

আরও দেখুন

কার্ল ডকুমেন্টেশন: https://curl.haxx.se/docs/manpage.html
Wget ম্যানুয়াল: https://www.gnu.org/software/wget/manual/wget.html
পাইথন দিয়ে ওয়েব স্ক্রাপিং ভূমিকা: https://realpython.com/python-web-scraping-practical-introduction/

সর্বশেষ হালনাগাদ এপ্রিল 5, 2024

HTML পার্স করা

Bash:একটি ওয়েবপেজ ডাউনলোড করা

কিভাবে:

গভীর ডাইভ

আরও দেখুন

Bash:
একটি ওয়েবপেজ ডাউনলোড করা