یک فایل robots.txt چیست و نحوه استفاده از آن به چه شکل می باشد؟
یک فایل robots.txt چیست و نحوه استفاده از آن به چه شکل می باشد؟ – با سایت تخصصی iranvps همراه باشید تا این مطلب را بررسی کنیم.
مطلب مرتبط: آشنایی با سایت ارزیابی سئو و محتوا Woorank
اطلاعات کلی
مبانی دستوری robots.txt
نمونه هایی از کاربرد آن
Robots.txt و SEO
حذف محدودیتهای تصاویر
اضافه کردن مرجع به فایل sitemap.xml خود
ملاحظات متفرقه
Robots.txt برای وب سایت وردپرس
مسدود کردن دایرکتوری اصلی وردپرس
مسدود کردن اساس و پایه ساختار سایت شما
مسائل محتوای تکراری در WordPress
Robots.txt – اطلاعات عمومی
Robots.txt یک فایل متنی است که در دایرکتوری روت سایت قرار دارد و برای خزنده ها و عنکبوت های موتورهای جستجو مشخص می کند که شما مایلید کدام صفحات وب و فایل هایی بازدید شوند و کدامیک خیر. معمولا، صاحبان سایت ها تلاش می کنند که این مسئله را از طریق موتورهای جستجو متوجه شوند، اما در مواردی لازم نیست این مسائل را ببینید : به عنوان مثال، اگر اطلاعات ذخیره شده حسابی را ذخیره کرده و یا می خواهید در پهنای باند خود بدون اینکه صفحات سنگین را با تصاویری عوض کنید،صرفه جویی کنید .
هنگامی که یک خزنده وب به یک سایت دسترسی پیدا می کند، یک فایل با نام ‘/robots.txt’ در وهله اول درخواست می کند. اگر چنین فایلی پیدا شود، آن را برای دستورالعمل های فهرست گذاری وب سایت بررسی می کند.
توجه: فقط یک فایل robots.txt برای وب سایت وجود دارد. یک فایل robots.txt برای دامنه افزونه باید در ریشه سند مربوطه قرار گیرد .
موضع رسمی گوگل در فایل robots.txt :
فایل robots.txt شامل خطوطی است که حاوی دو فیلد هستند: یک خط با یک نام نماینده کاربر (خزنده وب موتور جستجوگر) و یک یا چند خط با یک دستور مشخص
Disallow :
Robots.txt باید در قالب متن یونیکس ایجاد شود.
مبانی دستوری robots.txt
معمولا یک فایل robots.txt حاوی چیزی شبیه به این است:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~different/
در این مثال سه دایرکتوری: ‘/ cgi-bin /’، ‘/ tmp /’ و ‘/ ~ different /’ از indexation حذف می شوند.
نمونه هایی از کاربرد Robots.txt :
در اینجا چند نمونه مفید از کاربرد robots.txt بیان میکنیم:
حفاظت از کل سایت در برابر نمایه سازی توسط همه خزنده های وب:
User-agent: *
Disallow: /
اجازه دادن به تمام خزنده های وب جهت نمایه سازی کل سایت:
User-agent: *
Disallow: /
جلوگیری از تنها چندین دایرکتوری در برابر نمایه سازی کردن:
User-agent: *
Disallow: /cgi-bin/
جلوگیری از نمایه سازی سایت توسط یک خزنده وب خاص:
User-agent: Bot1
Disallow: /
لیست را با تمام نام کاربریهای عامل به دسته هایی تقسیم کنید.
اجازه نمایه سازی به یک خزنده وب خاص و جلوگیری از از دیگر خزنده ها:
User-agent: Opera 9
Disallow:
User-agent: *
Disallow: /
جلوگیری از نمایه سازی شدن تمام فایل ها بجز یکی.
این بسیار دشوار است زیرا دستورالعمل “اجازه دادن” وجود ندارد. در عوض، شما می توانید تمام فایل ها را به یک زیر پوشه خاص منتقل کنید و از نمایه سازی آنها جلوگیری کنید و فقط یک فایل خاص که مد نظر شماست را نمایه سازی کنید.
User-agent: *
Disallow: /docs/
شما همچنین می توانید از ژنراتور فایل robots.txt آنلاین در اینجا استفاده کنید:
Robots.txt و SEO
از بین بردن محدودیت تصاویر
فایل پیش فرض robots.txt در برخی از نسخه های CMS برای حذف پوشه تصاویر شما تنظیم شده است. این مسئله در جدیدترین نسخه های CMS رخ نمی دهد، اما نسخه های قدیمی تر باید بررسی شوند.
این محدودیت به این معنی است که تصاویر شما در فهرست جستجوی تصویر Google نمایش داده نمیشوند و شاید این چیزی است که شما می خواهید، بدلیل اینکه این امر رتبه بندی SEO شما را افزایش می دهد.
اگر بخواهید این را تغییر دهید، فایل robots.txt خود را باز کرده و دستور زیر را حذف کنید:
Disallow: /images/
اضافه کردن مرجع به فایل sitemap.xml شما
اگر شما یک فایل sitemap.xml داشته باشید (که شما باید آن را جهت افزایش رتبه بندی SEO خود داشته باشید)، مناسب است که خط زیر را در فایل robots.txt خود داشته باشید:
sitemap: http: //www.domain.com/sitemap.xml
(این خط باید با نام دامنه و فایل نقشه سایت شما به روز شود).
ملاحظات متفرقه
CSS، جاوا اسکریپت و سایر منابع را به صورت پیش فرض بلاک نکنید. این باعث می شود که Google-bot از صحت رندر صفحه جلوگیری کند و متوجه شود که سایت شما بصورت خودکار بهینه شده است.
شما همچنین می توانید از این فایل برای جلوگیری از نشان دادن صفحات خاص مانند login یاصفحات 404 استفاده کنید، اما این کار با استفاده از روبات های متا تگ بهتر انجام می شود.
اضافه کردن بیانیه های disallow به یک فایل robots.txt محتوا را حذف نمی کند بلکه به سادگی دسترسی به عنکبوت ها را مسدود می کند. اگر می خواهید محتوایی را حذف کنید، بهتر است از meta no-index استفاده کنید.
به عنوان یک قانون، فایل robots.txt هرگز نباید برای اداره محتوای تکراری استفاده شود. روش های بهتر مانند برچسب Rel = canonical وجود دارند که بخشی از صفحه HTML صفحه وب هستند.
همیشه در ذهن داشته باشید که فقط robots.txt وجود ندارد بلکه ابزارهای دیگری در اختیار شما هستند که می توانند کارایی بهتر داشته باشند ، مانند ابزارهای پارامتر دستکاری در گوگل ،Bing Webmaster ، تگ x-robots-tag و تگ های متا ربات.
Robots.txt برای وردپرس
وردپرس هنگامی که شما اولین پست خود را با ان منتشر می کنید یک فایل robots.txt مجازی ایجاد می کند. اگر در حال حاضر فایل robots.txt واقعی در سرور شما وجود داشته باشد، وردپرس یک فایل مجازی را اضافه نخواهد کرد.
robot.txt مجازی در سرور وجود ندارد و بنابراین شما می توانید از طریق لینک زیر به آن دسترسی پیدا کنید: http://www.yoursite.com/robots.txt
به طور پیش فرض آن باعث میشود که Media-bot گوگل آزاد باشد ، اما دسته ای از اسپم ها و برخی از پوشه ها و فایل های استاندارد WordPress ممنوع خواهد بود.
بنابراین در صورتی که شما هنوز یک robots.txt واقعی ایجاد نکرده اید، یکی را از طریق ویرایشگر متن ایجاد کنید و آن را به پوشه ریشه سرور خود از طریق FTP آپلود کنید.
مسدود کردن دایرکتوری اصلی وردپرس
سه دایرکتوری استاندارد در هر بار نصب وردپرس وجود دارد – wp-content، wp-admin، wp-include که نیازی به نمایه سازی ندارند.
هرگز تمام پوشه WP-content را غیر فعال نکنید، زیرا حاوی sub-folder “آپلودها” با فایل های رسانه ای سایت شما می باشد، که شما نمی خواهید مسدود شوند. به همین دلیل است که شما باید به صورت زیر عمل کنید:
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
مسدود کردن بر اساس ساختار سایت شما
هر وبلاگ را می توان به شیوه های مختلف ساخت:
a) بر مبنای دسته بندی ها
ب) بر اساس تگ ها
ج) بر مبنای هر دو یا هیچ یک از آن ها
د) بر اساس آرشیوهای مبتنی بر تاریخ
الف) اگر سایت شما طبقه بندی شده است، نیازی نیست که آرشیو تگ ها نمایه شود. پایه تگ خود را در صفحه گزینه های Permalinks در زیر منوی تنظیمات پیدا کنید. اگر فیلد خالی باقی بماند، پایه تگ ها به روشنی یک “تگ” می باشد:
Disallow: /tag/
ب) اگر سایت شما تگ ساختار باشد، بایستی بایگانی دسته را مسدود کنید. پایه گروه خود را پیدا کنید و از دستور زیر استفاده کنید:
Disallow: /category/
ج) اگر از هر دو شکل گروه و تگ استفاده می کنید، نیازی به استفاده از دستورالعمل ها ندارید. در صورت استفاده از هیچ یک از آنها، شما باید هر دو آنها را مسدود کنید:
Disallow: /tags/
Disallow: /category/
د) اگر سایت شما بر مبنای آرشیوهای مبتنی بر تاریخ باشد، می توانید آنها را از طریق روش های زیر مسدود کنید:
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/
نکته: شما نمیتوانید از دستور Disallow: / 20 * / استفاده کنید زیرا این دستور هر پست وبلاگ یا صفحه ای که با شماره «20» شروع می شود را مسدود می کند.
مسائل محتوای تکراری در WordPress
به طور پیش فرض، وردپرس دارای صفحات تکراری است که برای رتبه بندی SEO شما خوب نیست. برای اصلاح آن، ما توصیه می کنیم که از robots.txt استفاده نکنید، اما به جای آن از روش زیر استفاده کنید:
منبع: www.namecheap.com