অনলাইনে ইনকাম

কীভাবে রোবট ডট টেক্সট ব্যবহার করবেন-How to Use Robots.txt to Allow or Disallow Everything

Robots.txt ফাইলটি আপনার ডোমেনে অবস্থিত একটি ফাইল। এটি একটি সাধারণ টেক্সট ফাইল যার মূল উদ্দেশ্য ক্রোলার বা রোবটকে বা বটকে জানানো যে কোন কোন ফাইল ও ফোল্ডার থেকে দূরে থাকবে।



অনুসন্ধান ইঞ্জিনগুলির বট গুলি এমন প্রোগ্রাম যা পৃথিবীর সকল সাইট পরিদর্শন করে এবং সাইট এর পৃষ্ঠাগুলি সম্পর্কে জানতে এটির লিঙ্কগুলি অনুসরণ করে।
আপনার সাইটে ঢোকার আগে বটগুলি সাধারণত robots.txt ফাইলটি পরীক্ষা করে। বটটিকে কোথায় কোথায় যাবার অনুমতি দেয়া নাই তা তারা দেখে নেয়। এবং ওই সকল এলাকা এড়িয়ে যায়।
Robots.txt আপনার ডোমেনের শীর্ষ স্তরের ডিরেক্টরিতে উদাহরণস্বরূপ.com/ robots.txt স্থাপন করা উচিত ।

এডিট করার ভালো উপায় হ’ল ফাইলজিলার মতো ফ্রি এফটিপি ক্লায়েন্টের মাধ্যমে আপনার ওয়েব হোস্টে লগ ইন করা, তারপরে নোটপ্যাড (উইন্ডোজ) বা টেক্সটএডিট (ম্যাক) এর মতো কোনও কিছু দ্বারা ফাইলটি তৈরি করা।
আপনি যদি এফটিপি-র মাধ্যমে আপনার সার্ভারে লগইন করতে না জানেন তবে নির্দেশাবলী জিজ্ঞাসা করার জন্য আপনার ওয়েব হোস্টিং সংস্থার সাথে যোগাযোগ করা উতিচ।
অন্য দিকে ইয়োস্ট এসইওর মতো কিছু প্লাগইন রয়েছে যারা আপনাকে আপনার ওয়ার্ডপ্রেস ড্যাশবোর্ডের মধ্য থেকে রোবট.টেক্সট ফাইল তৈরি করে দেবে।

Robots.txt ব্যবহার করে সবাইকে না করা :

আপনি যদি সমস্ত রোবটকে আপনার সাইট থেকে দূরে থাকার নির্দেশ দিতে চান তবে আপনার কোডটি এমন হয়ে উচিৎ:
User-agent: *
Disallow: /

মূলত, এটি সমস্ত বট এবং ওয়েব ক্রোলারকে বলে যে, এই সাইটে অ্যাক্সেস বা ক্রল করার অনুমতি নাই।

গুরুত্বপূর্ণ: একটি লাইভ ওয়েবসাইট এ হঠাৎ সমস্ত রোবটকে অস্বীকার করার ফলে ওই সাইটটি অনুসন্ধান ইঞ্জিনগুলি থেকে সরিয়ে ফেলা হতে পারে এবং এর ফলে ট্রাফিক এবং অর্থ উপার্জনের ক্ষতির কারণ হতে পারে।



 

Robots.txt ব্যবহার করে সবাইকে হ্যা করা:

আপনি যদি চান যে বটগুলি আপনার পুরো সাইটটির সকল জায়গা ক্রল করতে সক্ষম হবে তবে আপনি তা খালিও রাখতে পারেন আবার Robots.txt ফাইলের মাধ্যমে সব ক্রলার গুলো কে অনুমতি দিতে পারেন :
User-agent: *
Disallow:

নির্দিষ্ট ফাইল ও ফোল্ডারগুলি কীভাবে বাতিল করবেন

আপনি পৃথক ফাইল এবং ফোল্ডারগুলি ব্লক করতে পারেন। “Disallow:” কমান্ডটি ব্যবহার করে এই কাজটি সহজেই করতে পারেন।
আপনি যে ফাইল বা ফোল্ডারটিকে ক্রলার থেকে লুকিয়ে রাখতে চান তা শুধু আলাদা লাইন এ লিখতে হবে। যেমন :
User-agent: *
Disallow: /uktg/
Disallow: /efdg/
Disallow: /hidden/file.html

এখানে দুটি সাব ফোল্ডার এবং একটি একক ফাইল ছাড়া সকল কিছুর অনুমতি রয়েছে।

নির্দিষ্ট একটি বা দুটি বটকে কীভাবে বাতিল করবেন

আপনি যদি কেবল একটি বা দুটি নির্দিষ্ট বটকে ক্রলিং থেকে আটকাতে চান তবে আপনি এই কাজটি করতে পারেন:
User-agent: Baidubot
Disallow: /

User-agent: Yahoobot
Disallow: /

User-agent: *
Disallow:

এটি আপনার সাইটকে Baidu ও Yahoo বট থেকে রক্ষা করবে, অর্থাৎ ওই দুটি সার্স ইঞ্জিন বটকে ব্লক করবে। তবে অন্যান্য বটগুলি সমস্ত সাইটটি ক্রল করতে পারবে।
আপনি “User-agent: Googlebot” ব্যবহার করে গুগল বট কেও আটকে দিতে পারেন।
আবার নির্দিষ্ট ফাইল এবং ফোল্ডার অ্যাক্সেস থেকেও নির্দিষ্ট বটকে ব্লক করতে পারেন।

ওয়ার্ডপ্রেসের জন্য robots.txt ফাইল এটি

নিচের এই রোবট টেক্সটটি ওয়ার্ডপ্রেসের জন্য একটি ভাল ডিফল্ট সেটিংস
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://searchfacts.com/sitemap.xml

এই robots.txt ফাইলটি বটকে বলছে যে, সার্চ ইঞ্জিনেরা wp-admin ফোল্ডার বাদে সবকিছু ক্রল করতে পারবে। তবে এডমিন- ajax.php নামে একটি ফাইল , যা কিনা wp-admin ফোল্ডারে আছে তাকে ক্রল করার অনুমতি দেয়া হয়েছে।
এই সেটিংটির কারণ হ’ল গুগল সার্চ কনসোল যদি admin-ajax.php ফাইল ক্রল করতে না পারতো তবে একটি সাইট এ সমস্যা আছে বলে প্রতিবেদন তৈরি করত।



 

আপনার XML সাইটম্যাপটি কোথায় পাওয়া যাবে সে সম্পর্কে বটগুলিকে জানাতে আপনি “Sitemap:” লাইনটিও ব্যবহার করতে পারেন। এই সাইটম্যাপটিতে আপনার সাইটের সমস্ত পৃষ্ঠাগুলির একটি তালিকা থাকে, তাই বটের পক্ষে সেগুলি খুজে বের করা অনেক সহজ হয়।

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button