ROBOTS ফাইলের শুরু থেকে শেষ পযন্ত A TO Z


Robots.txt ফাইল যদি না থাকে তাহলে আপনার ব্লগের আগা গোড়া সব ভুল হবে কারন Search Engine যখন কোন Site কে Crawl করে তখন Robots.txt ফাইল অনুযায়ী সাইটের তথ্য গুলোকে Index করে।  

এখন আপনার সাইটের জন্য কোন Robots.txt ফাইলই না থাকে তাহলে Search Engine Bot দিকনির্দেশনা না পাওয়ায় সাইট টিকে Crawl না করেই চলে যায় ফলে আপনার সাইট গুগলগ্রুপে ইন্ডেক্স হয় না।

Robots.txt ফাইল সেটাপ করার আগে আপনাকে জানতে হবে যে কি কি বস্তুুকে আপনি চান Search Engine এ ইন্ডেক্স করাতে। আপনি আপনার ইচ্ছা মত পোস্ট ও পেজ কে ইন্ডেক্স করাতে পারবেন, আপনি যদি চান কিছু পেজ বা পোস্ট কে রোবটস এর কাছে হিডেন করতে তাহলে আপনি নিমিষেই এটি করতে পারবেন। আর এগুলো সব কিছুই করা যাবে যদি আপনি ছোট্ট একটি ট্রিক্স জানেন।
Robots.txt ফাইল একটি সাধারন text file কিন্তুু এর কাজ অনেক। আপনি যদি ব্লগারের মাধ্যমে ব্লগ তৈরি করেন তাহলে আপনাকে ব্লগের ভিতরে এই টেক্সট ফাইল না দিলেও চলবে আপনাকে এই কোডটি বসাতে হবে গুগল সার্চ কনসোলে। আপনি যদি গুগল সার্চ কনসোলে ঢুকেন এবং আপনার সাইট সাবমিট করেন তাহলে Robots.txt পেজে গেলেই দেখতে পাবেন যে অটোমেটিক একটা টেক্সট ফাইল আছে, আর ওইটাই হল আপনার রোবটস টেক্সট ফাইল। আপনি যদি চান যে ওইটাই ব্যবহার করবেন বা মডিফাই ও করতে পারেন।




User-agent: Mediapartners-Google

Disallow:

User-agent: *

Disallow: /search

Allow: /

Sitemap: http:/ /www. YourSite  .com /sitemap.xml

একটা সাইটের নরমাল রোবটস ফাইল এইরকম হয়। আপনি যদি চান আপনি এভাবেও লিখতে পারেন।

User-agent: Mediapartners-Google*

Allow: /   

User-agent: Googlebot-Image

Allow: /wp-content/uploads/   

User-agent: Adsbot-Google

Allow: /

User-agent: Googlebot-Mobile

Allow: /

অর্থাৎ আপনি যা এলাও করাতে চান তা এলাও আর যা এলাও না দিয়ে ডিসএলাও।

User-agent: Mediapartners-Google*

Disallow: /

User-agent: Googlebot-Image

Disalow: /wp-content/uploads/

User-agent: Adsbot-Google

Allow: /

User-agent: Googlebot-Mobile

Allow: /

রোবটস ফাইলের শেষে আপনার সাইটম্যাপ অ্যাড্রেস টি দিবেন।

Sitemap: : http:/ /www. YourSite  .com  /sitemap.xml

Sitemap: http:/ /www. YourSite  .com /sitemap-image.xml

Sitemap: http:/ /www. YourSite  .com  /sitemap-video.xml

মনে করুন আপনি ওয়ার্ডপ্রেস সাইট এর জন্য রোবটস ফাইল লিখছেন এবং আপনি আপনার সাইটের রুট ডিরেক্টির কিছু আইটেম হিডেন রাখতে চান তখন আপনি এভাবে করতে পারেন।

User-agent:  *

Disallow: /cgi-bin/

Disallow: /wp-admin/

Disallow: /linkout/

Disallow: /recommended/

Disallow: /comments/feed/

Disallow: /trackback/

Disallow: /index.php

Disallow:/xmlrpc.php

আপনি উপরের মত করে আপনার যে কোন রুট ফোল্ডার কে হাইড করতে পারেন। আপনি যদি ব্লগারের কোন পোস্ট কে বা পেজ কে হাইড করতে চান তাহলে নিচের মত করে।

Disallow: /year/month/your-post-url.html

Disallow: /p/your-page-url.html

যদি আপনি চান আপনার সব পোস্ট Crawl হোক আর পোস্ট না হোক তখন নিচের মত করুন।

User-agent: *

Disallow: /

একটা কথা বলতে ভুলে গেছি আপনি শুধু গুগলকেই Crawl করতে দিবেন নাকি সব সার্চ Engine কে, নিশ্চয় আপনি চান সব সার্চ Engine আপনার সাইট Crawl করুক আর তাই আপনি নিচের মত করুন।

User-agent: *

Disallow:

আর যদি চান যেকোন একটি সার্চ Engine কে Crawl করার ক্ষমতা দিবেন তো নিচের মত করুন ,গুগলসার্চ এর জন্য: 

User-agent: Google

Disallow:

User-agent: *

Disallow: /

অন্য Engine গুলোর জন্য :

User-agent: এখানে সেই Bot এর নাম যেমন BadBot, NinjaBot ইত্যাদি

Disallow: /

No comments

Powered by Blogger.