زمانی که یکسری فرمان بر روی یک یو آر ال جاری ساختن می گردند، دستوری که دارنده بیشترین سئو سایت کاراکتر میباشد گزینه تایید قرار میگیرد. از جمله ببینیم که چه اتفاقی بر روی یو آر ال “/home/search/shirts” با اعتنا به پوشه robots.txt ذیل می افتد:
Disallow: /home
Allow: *search/*
Disallow: *shirts
درین نمایش یو آر ال متبوع پایش شود، به این دلیل که فرمان Allow دارنده 9 کاراکتر میباشد. در حالی که فرمان Disallow صرفا 7 کاراکتر دارااست. چنانچه که میخواهید این یو آر ال مطلقا بلاک گردد میتوانید کاراکترهای فرمان Disallow را به صورت ذیل ارتقاء دهید:
Disallow: *******************/shirts
همینطور در صورتیکه تعداد کاراکترها برابر باشد، فرمان Disallow در حق تقدم قرار میگیرد. از جمله یو آر ال “/search/shirts” با دقت امرها تحت بلاک شود:
Disallow: /search
Allow: *shirts
پوشه robots.txt در کجا می بایست قرار داشته باشد؟
موتورهای کاوش و دیگر پایشگرهای اینترنت بعداز ورود به یک وبسایت میدانند که باید درپی یک پوشه robots.txt باشند. ولی آن ها صرفا در یک مسیر مشخص و معلوم (مسیر ریشه سایت) در پی این پوشه میباشند. چنانچه یک پایشگر در مسیر www.example.com/robots.txt هیچ فایلی را مشاهده نکند، فرض را بر این قرار میدهند که هیچ پوشه robots.txt دراین وبسایت نیست.
حتی در صورتیکه این پوشه در بقیه مسیر ها وجود داشته باشد، پایشگر متوجه حضور آن نخواهند شد. براین اساس برای حصول یقین تاکید میکنیم که آن را در مسیر روت وبسایت قرار دهید.
چرا سایت شما به پوشه robots.txt نیاز داراست؟
با به کار گیری از پوشه robots.txt می شود به مدیر دسترسی پایشگر ها در وبسایت پرداخت. با اینکه این قابلیت میتواند در شکل غلط شما مقداری خطر ناک نیز باشد، ولی از طرفی بسیار کارامد نیز میباشد.
برخی از استعمال های مثبت از فولدر robots.txt عبارتند از:
پرهیز از ساخت نقص محتوای تکراری (اعتنا داشته باشید که در اکثر اوقات نمایش ها به کارگیری از متا robots آیتم بهتریست)
سری نگه داشتن بخشی از وبسایت (از جمله نصیب ادمین وب سایت)
پرهیز از ایندکس شدن صفحه ها نتیجه ها جستجوی داخلی وبسایت
اشاره به نقشه تارنما
خودداری از ایندکس شدن برخی از فولدر ها (مانند فولدر های PDF) در سایت
تولید تاخیر در پایش سایت برای خودداری از فشار زیاد بر روی سرور تارنما
سئو دارایی پایشی (Crawl Budget)
در شرایطیکه در تارنما شما هیچ بخشی برای مخفی کردن در نتیجه ها کاوش نیست، شاید عالی باشد که پوشه robots.txt را به تمام نادیده بگیرید.
زمانی که یکسری فرمان بر روی یک یو آر ال جاری ساختن می گردند، دستوری که دارنده بیشترین سئو سایت کاراکتر میباشد گزینه تایید قرار میگیرد. از جمله ببینیم که چه اتفاقی بر روی یو آر ال “/home/search/shirts” با اعتنا به پوشه robots.txt ذیل می افتد:
Disallow: /home
Allow: *search/*
Disallow: *shirts
درین نمایش یو آر ال متبوع پایش شود، به این دلیل که فرمان Allow دارنده 9 کاراکتر میباشد. در حالی که فرمان Disallow صرفا 7 کاراکتر دارااست. چنانچه که میخواهید این یو آر ال مطلقا بلاک گردد میتوانید کاراکترهای فرمان Disallow را به صورت ذیل ارتقاء دهید:
Disallow: *******************/shirts
همینطور در صورتیکه تعداد کاراکترها برابر باشد، فرمان Disallow در حق تقدم قرار میگیرد. از جمله یو آر ال “/search/shirts” با دقت امرها تحت بلاک شود:
Disallow: /search
Allow: *shirts
پوشه robots.txt در کجا می بایست قرار داشته باشد؟
موتورهای کاوش و دیگر پایشگرهای اینترنت بعداز ورود به یک وبسایت میدانند که باید درپی یک پوشه robots.txt باشند. ولی آن ها صرفا در یک مسیر مشخص و معلوم (مسیر ریشه سایت) در پی این پوشه میباشند. چنانچه یک پایشگر در مسیر www.example.com/robots.txt هیچ فایلی را مشاهده نکند، فرض را بر این قرار میدهند که هیچ پوشه robots.txt دراین وبسایت نیست.
حتی در صورتیکه این پوشه در بقیه مسیر ها وجود داشته باشد، پایشگر متوجه حضور آن نخواهند شد. براین اساس برای حصول یقین تاکید میکنیم که آن را در مسیر روت وبسایت قرار دهید.
چرا سایت شما به پوشه robots.txt نیاز داراست؟
با به کار گیری از پوشه robots.txt می شود به مدیر دسترسی پایشگر ها در وبسایت پرداخت. با اینکه این قابلیت میتواند در شکل غلط شما مقداری خطر ناک نیز باشد، ولی از طرفی بسیار کارامد نیز میباشد.
برخی از استعمال های مثبت از فولدر robots.txt عبارتند از:
پرهیز از ساخت نقص محتوای تکراری (اعتنا داشته باشید که در اکثر اوقات نمایش ها به کارگیری از متا robots آیتم بهتریست)
سری نگه داشتن بخشی از وبسایت (از جمله نصیب ادمین وب سایت)
پرهیز از ایندکس شدن صفحه ها نتیجه ها جستجوی داخلی وبسایت
اشاره به نقشه تارنما
خودداری از ایندکس شدن برخی از فولدر ها (مانند فولدر های PDF) در سایت
تولید تاخیر در پایش سایت برای خودداری از فشار زیاد بر روی سرور تارنما
سئو دارایی پایشی (Crawl Budget)
در شرایطیکه در تارنما شما هیچ بخشی برای مخفی کردن در نتیجه ها کاوش نیست، شاید عالی باشد که پوشه robots.txt را به تمام نادیده بگیرید.