Bash:
একটি ওয়েবপেজ ডাউনলোড করা
কিভাবে:
এই কাজের জন্য যেতে হবে কোন টুলের কাছে? curl
। এটি একটি শক্তিশালী কমান্ড-লাইন ইউটিলিটি যা ওয়েব থেকে ডেটা আহরণ করে। এখানে সবচেয়ে সহজ ব্যবহারের উদাহরণ দেওয়া হল:
curl https://example.com -o webpage.html
এই কমান্ডটি example.com
এর HTML ডাউনলোড করে এবং এটিকে webpage.html
নামে একটি ফাইলে লিখে। আউটপুট দেখুন:
# নমুনা আউটপুট
% মোট % প্রাপ্ত % স্থানান্তরিত গড় গতি সময় সময় সময় বর্তমান
ডাউনলোড আপলোড মোট খরচ বাকি গতি
100 1256 100 1256 0 0 6458 0 --:--:-- --:--:-- --:--:-- 6497
আপনি কি ডাউনলোড করছেন তা সময় অনুযায়ী দেখতে চান? -o
ফেলে দিন এবং ডাউনলোডটি সরাসরি আপনার কনসোলে প্রিন্ট হবে:
curl https://example.com
গভীর ডাইভ
curl
1997 সাল থেকে চালু আছে, ওয়েব অপারেশনের জন্য নিজের স্থান তৈরি করে নিয়েছে। ব্রাউজার ডাউনলোডের চেয়ে curl
কেন? অটোমেশন এবং স্ক্রিপ্ট-বান্ধব। এটি ইন্টারঅ্যাক্টিভ নয় এবং ব্যাশ স্ক্রিপ্টগুলিতে সহজে সংযোজিত করা সম্ভব।
উল্লেখ্য বিকল্পগুলি: wget
, আরেকটি কমান্ড-লাইন পাওয়ারহাউস যা রিকার্সিভভাবে ওয়েব পৃষ্ঠা ডাউনলোড করতে পারে। ভারী-দায়িত্ব স্ক্র্যাপিং বা একটি বাস্তব ব্রাউজার প্রসঙ্গ প্রয়োজন হলে, প্রোগ্রামাররা সেলেনিয়াম, প্যাপেটিয়ার, অথবা স্ক্র্যাপি এর মত টুলস ব্যবহার করেন।
curl
এর প্রক্রিয়া সম্পর্কে: এটি HTTP এবং HTTPS থেকে FTP পর্যন্ত একাধিক প্রটোকল সমর্থন করে, এবং বিভিন্ন অপশন (–header, –cookie, –user-agent, ইত্যাদি) দিয়ে অনুরোধগুলি সূক্ষ্মভাবে সামঞ্জস্য করার জন্য। প্লাস, এটি সাধারণত ইউনিক্স-ভিত্তিক সিস্টেমগুলিতে পূর্ব-ইনস্টল করা হয়ে থাকে।
আরও দেখুন
- কার্ল ডকুমেন্টেশন: https://curl.haxx.se/docs/manpage.html
- Wget ম্যানুয়াল: https://www.gnu.org/software/wget/manual/wget.html
- পাইথন দিয়ে ওয়েব স্ক্রাপিং ভূমিকা: https://realpython.com/python-web-scraping-practical-introduction/