কীভাবে রোবট ডট টেক্সট ব্যবহার করবেন-How to Use Robots.txt to Allow or Disallow Everything
Robots.txt ফাইলটি আপনার ডোমেনে অবস্থিত একটি ফাইল। এটি একটি সাধারণ টেক্সট ফাইল যার মূল উদ্দেশ্য ক্রোলার বা রোবটকে বা বটকে জানানো যে কোন কোন ফাইল ও ফোল্ডার থেকে দূরে থাকবে।
অনুসন্ধান ইঞ্জিনগুলির বট গুলি এমন প্রোগ্রাম যা পৃথিবীর সকল সাইট পরিদর্শন করে এবং সাইট এর পৃষ্ঠাগুলি সম্পর্কে জানতে এটির লিঙ্কগুলি অনুসরণ করে।
আপনার সাইটে ঢোকার আগে বটগুলি সাধারণত robots.txt ফাইলটি পরীক্ষা করে। বটটিকে কোথায় কোথায় যাবার অনুমতি দেয়া নাই তা তারা দেখে নেয়। এবং ওই সকল এলাকা এড়িয়ে যায়।
Robots.txt আপনার ডোমেনের শীর্ষ স্তরের ডিরেক্টরিতে উদাহরণস্বরূপ.com/ robots.txt স্থাপন করা উচিত ।
এডিট করার ভালো উপায় হ’ল ফাইলজিলার মতো ফ্রি এফটিপি ক্লায়েন্টের মাধ্যমে আপনার ওয়েব হোস্টে লগ ইন করা, তারপরে নোটপ্যাড (উইন্ডোজ) বা টেক্সটএডিট (ম্যাক) এর মতো কোনও কিছু দ্বারা ফাইলটি তৈরি করা।
আপনি যদি এফটিপি-র মাধ্যমে আপনার সার্ভারে লগইন করতে না জানেন তবে নির্দেশাবলী জিজ্ঞাসা করার জন্য আপনার ওয়েব হোস্টিং সংস্থার সাথে যোগাযোগ করা উতিচ।
অন্য দিকে ইয়োস্ট এসইওর মতো কিছু প্লাগইন রয়েছে যারা আপনাকে আপনার ওয়ার্ডপ্রেস ড্যাশবোর্ডের মধ্য থেকে রোবট.টেক্সট ফাইল তৈরি করে দেবে।
Robots.txt ব্যবহার করে সবাইকে না করা :
আপনি যদি সমস্ত রোবটকে আপনার সাইট থেকে দূরে থাকার নির্দেশ দিতে চান তবে আপনার কোডটি এমন হয়ে উচিৎ:
User-agent: *
Disallow: /
মূলত, এটি সমস্ত বট এবং ওয়েব ক্রোলারকে বলে যে, এই সাইটে অ্যাক্সেস বা ক্রল করার অনুমতি নাই।
গুরুত্বপূর্ণ: একটি লাইভ ওয়েবসাইট এ হঠাৎ সমস্ত রোবটকে অস্বীকার করার ফলে ওই সাইটটি অনুসন্ধান ইঞ্জিনগুলি থেকে সরিয়ে ফেলা হতে পারে এবং এর ফলে ট্রাফিক এবং অর্থ উপার্জনের ক্ষতির কারণ হতে পারে।
Robots.txt ব্যবহার করে সবাইকে হ্যা করা:
আপনি যদি চান যে বটগুলি আপনার পুরো সাইটটির সকল জায়গা ক্রল করতে সক্ষম হবে তবে আপনি তা খালিও রাখতে পারেন আবার Robots.txt ফাইলের মাধ্যমে সব ক্রলার গুলো কে অনুমতি দিতে পারেন :
User-agent: *
Disallow:
নির্দিষ্ট ফাইল ও ফোল্ডারগুলি কীভাবে বাতিল করবেন
আপনি পৃথক ফাইল এবং ফোল্ডারগুলি ব্লক করতে পারেন। “Disallow:” কমান্ডটি ব্যবহার করে এই কাজটি সহজেই করতে পারেন।
আপনি যে ফাইল বা ফোল্ডারটিকে ক্রলার থেকে লুকিয়ে রাখতে চান তা শুধু আলাদা লাইন এ লিখতে হবে। যেমন :
User-agent: *
Disallow: /uktg/
Disallow: /efdg/
Disallow: /hidden/file.html
এখানে দুটি সাব ফোল্ডার এবং একটি একক ফাইল ছাড়া সকল কিছুর অনুমতি রয়েছে।
নির্দিষ্ট একটি বা দুটি বটকে কীভাবে বাতিল করবেন
আপনি যদি কেবল একটি বা দুটি নির্দিষ্ট বটকে ক্রলিং থেকে আটকাতে চান তবে আপনি এই কাজটি করতে পারেন:
User-agent: Baidubot
Disallow: /
User-agent: Yahoobot
Disallow: /
User-agent: *
Disallow:
এটি আপনার সাইটকে Baidu ও Yahoo বট থেকে রক্ষা করবে, অর্থাৎ ওই দুটি সার্স ইঞ্জিন বটকে ব্লক করবে। তবে অন্যান্য বটগুলি সমস্ত সাইটটি ক্রল করতে পারবে।
আপনি “User-agent: Googlebot” ব্যবহার করে গুগল বট কেও আটকে দিতে পারেন।
আবার নির্দিষ্ট ফাইল এবং ফোল্ডার অ্যাক্সেস থেকেও নির্দিষ্ট বটকে ব্লক করতে পারেন।
ওয়ার্ডপ্রেসের জন্য robots.txt ফাইল এটি
নিচের এই রোবট টেক্সটটি ওয়ার্ডপ্রেসের জন্য একটি ভাল ডিফল্ট সেটিংস
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://searchfacts.com/sitemap.xml
এই robots.txt ফাইলটি বটকে বলছে যে, সার্চ ইঞ্জিনেরা wp-admin ফোল্ডার বাদে সবকিছু ক্রল করতে পারবে। তবে এডমিন- ajax.php নামে একটি ফাইল , যা কিনা wp-admin ফোল্ডারে আছে তাকে ক্রল করার অনুমতি দেয়া হয়েছে।
এই সেটিংটির কারণ হ’ল গুগল সার্চ কনসোল যদি admin-ajax.php ফাইল ক্রল করতে না পারতো তবে একটি সাইট এ সমস্যা আছে বলে প্রতিবেদন তৈরি করত।
আপনার XML সাইটম্যাপটি কোথায় পাওয়া যাবে সে সম্পর্কে বটগুলিকে জানাতে আপনি “Sitemap:” লাইনটিও ব্যবহার করতে পারেন। এই সাইটম্যাপটিতে আপনার সাইটের সমস্ত পৃষ্ঠাগুলির একটি তালিকা থাকে, তাই বটের পক্ষে সেগুলি খুজে বের করা অনেক সহজ হয়।