/ / /
فایل Robots txt چیست و چه کاربردهایی دارد؟

فایل Robots txt چیست و چه کاربردهایی دارد؟

  • تاریخ انتشار 1397/09/19
  • .
  • 158
  • .
  • گروه رازهای طراحی وب سایت

برای اینکه دسترسی موتورهای جستجوگر گوگل را محدود کنید میتوانید از فایل Robots.txt استفاده کنید. با استفاده از این روش می توانید قوانینی را برای خزنده های گوگل تعیین کنید.

فایل Robots.txt چیست؟

شاید ساده ترین تعریفی که می توانیم در مورد این فایل داشته باشیم این است که این فایل همانند یک کتاب قانون سفت و سخت عمل می کند؛ شما از طریق این فایل به موتورهای جست وجو و اکثر روبات ها و خزنده ها دستور می دهید که چه صفحاتی را نبینند و یا اگر در حال حاضر نمی توانند ببینند، ببینند.
کاربردهای این فایل زمانی مشخص می شود که شما بر روی سایتتان بخش هایی دارید که نمی خواهید خزنده ها ببینند و یا اصلا نیازی نمی بینید که آن بخش ها بخواهند در نتایج جست وجو دیده شوند.

برای ایجاد فایل Robots.txt ابتدا شما باید به هاست دسترسی داشته باشید و این فایل را در ریشه اصلی آن کپی کنید. اگر به هر دلیلی شما به هاست دسترسی نداشته باشید می توانید با قرار دادن تگ های متا در هدر صفحه دسترسی روبات های گوگل را به آن محدود نمایید.

قوانین ایندکس

روبات های اینترنتی از دو قانون اصلی برای ایندکس یا ایندکس نکردن صفحات پیروی می کنند که عبارت اند از:

user-agent: که نشان دهنده نوع روباتی است که نباید به صفحه دسترسی داشته باشد.
Disallow: بیانگر آدرس صفحه ای است که می خواهید از دید روبات ها پنهان بماند.
با تلفیق این دو دستور شما قادر خواهید بود قوانین مختلفی برای دسترسی به صفحات داخلی سایت خود تعریف کنید. برای مثال با User-agent می توان مشخص کرد چندین آدرس را معرفی نمود و یا برعکس این کار.

بگذارید با تشریح این فایل شروع کنم. اصولا در ابتدای هر بخش دستوری ما مشخص می کنیم که این دستورات مختص چه خزنده ای است؛ پس:


user agent: google-image-search


حال می توانیم هر کدام از خزنده هایی که می خواهیم برای آنها قانون مشخص کنیم را روبروی user agent بنویسیم و در ابتدای فایل قرار دهیم. اکثر فایل های روبات به صورت Universal نوشته می شوند؛ یعنی قوانین را برای تمامی خزنده ها وضع می کنند؛ برای این که بتوانیم قوانین را برای همه یکسان در نظر بگیریم می توانیم به جای دستور فوق از *: user agent استفاده کنیم. علامت * تمامی user agent ها را موظف به خواندن این دستورات وادار می کند.
سپس باید ببینیم که چه پوشه هایی (دایرکتوری ها) را می خواهیم از دید گوگل پنهان کنیم. در ادامه عبارت فوق همانند چند خط زیر این قوانین را مشخص می کنیم:


Disallow: /wp-includes/
disallow: /wp-content/plugins

با این دستورات ما پوشه wp-includes را کلا بستیم و حال خزنده ها به هیچ عنوان نمی توانند فایل ها و پوشه های زیرشاخه این فولدر را ببینند. حالا اگر بخواهیم در همین پوشه، دسترسی پوشه ای را باز کنیم می توانیم به شکل زیر بنویسیم:


allow: /wp-includes/js/

دقت کنید که وقتی پوشه ای را می بندید تمامی زیرشاخه هایش را نیز محدود کرده اید.
یکی از مواردی که می توانیم برای دسترسی سریع تر خزنده ها در فایل Robots.txt مشخص کنیم، نقشه سایت است. برای این کار کافیست صرفا از ساختار زیر پیروی کنید:


sitemap: http://1admin.ir/sitemap.xml


آزمایش Robots.txt در بخش robots.txt Tester

سرچ کنسول گوگل یا همان وبسمتر گوگل قسمتی برای تست و ارزیابی فایل robots.txt دسترسی روبات ها به آن محدود شده است در نظر گرفته است این صفحه با نام robots.txt Tester شناخته می شود.
در این بخش می توانید میزان محدودیت روبات های گوگل و دسترسی آن ها را مورد سنجش قرار دهید، کافی است در بخش انتهایی شما یک نوع از روبات های گوگل را انتخاب کنید با فشردن دکمه Test نتیجه سنجش و میزان دسترسی روبات ها به هر یک از این آدرس ها به شما نمایش داده خواهد شد.


حال این فایل به پنالتی شدن چه ارتباطی دارد؟
شاید این که می گویم خیلی اتفاق جدیدی نباشد اما گاهی می بینم که سایت ها به این خاطر پنالتی می شوند؛ راستش تا چندی پیش می گفتند که گوگل نمی تواند فایل های JS و CSS را اجرا کند تا ظاهر سایت را ببیند یا بر طبق آنها نیز سایت را بررسی کند. اما بهتر است بگویم که گوگل چنین کاری می کند و نسبت به این قضیه بسیار هم حساس است.
اگر شما از طریق فایل Robots دسترسی به پوشه ای را بسته باشید (به طور مثال دسترسی به پوشه پلاگین های وردپرستان)، اما این پلاگین ها در سایت شما تاثیرگذار باشند و فایل بارگذاری کنند عملا گوگل نمی تواند آنها را ببیند و به همین خاطر سایت شما به درستی آن چیزی که برای کاربران بارگذاری می شود، برای گوگل بارگذاری نمی شود. گوگل هم نمی تواند آن فایل را از نظر امنیتی بررسی کند و ممکن است شما را جریمه کند.
اگر می خواهید گوگل صفحه ای را ایندکس نکند بهتر است از متاتگ Noindex استفاده کنید نه این که از طریق Robots.txt آن را ببندید.
توصیه می کنم همین حالا این فایل را بررسی کنید و ببینید که در نوشتن آن دچار اشتباه نشده باشید.

0

جدیدترین مقالات طراحی سایت

گروه مقالات طراحی سایت

طراحی سایت ها

شماره تماس پشتیبانی:

شماره تماس پشتیبانی:

نظرات کاربران

نظر شما چیست؟

سوال امنیتی: حاصل جمع 8 + 7 چند است ؟

x
02122324883    09198585818
آیا به مشاوره نیاز دارید؟

تماس بگیرید
021-22324883(مشاوره رایگان)

آنلاین هستیم
آنلاین هستیم