فایل robots.txt

هنوز که هنوز است خیلی‌ها از عملکرد دقیق فایل‌های ربات اطلاعی ندارند. استانداردهای خاصی برای آن وجود ندارد و نمی‌توان با قطعیت گفت کدام المان‌ها و به چه شکل در فایل‌های Robots.txt می‌توانند سرنوشت ساز باشند. در این مقاله به طریقه و روش استفاده‌ی صحیح از این فایل‌ها پرداخته‌ایم تا بدون هر گونه ریسک و تاثیرگذاری منفی در سئو از آن‌ها استفاده کنید. قبل از آن بهتر است با این فایل‌ها آشنا شوید.

فایل Robots.txt چیست و چکار می‌کند؟

فایل Robots.txt فایلی برای گزارش ساختار صفحات وب به ربات‌های کراولر (crawler) است تا بدانند کدام صفحات باید در موتورهای جستجو نمایش داده شوند و کدام صفحات نمایش داده نشوند. این فایل کاملا قایل دسترسی است و می‌توانید اطلاعات داخل آن را بخوانید و یا ویرایش کنید و افراد مختلف نیز صرفا با اضافه کردن این پسوند به لینک وبسایت شما می‌توانند آن را ببینند.

فایل Robots.txt در حقیقت به ربات‌ها اطلاع می‌دهد که کجا می‌توانند فایل یا فایل‌های نقشه سایت XML را پیدا کنند و در این میان کدام صفحات نباید کراول شوند. قبل از اینکه ربات‌های موتورهای جستجو نظیر گوگل صفحات وب را کراول کنند ابتدا فایل Robots.txt را بررسی می‌کنند و اگر این فایل موجود باشد مطابق با اطلاعات مندرج در آن اقدام به ایندکس کردن صفحات می‌کنند.

Robots.txt در حقیقت جزو مهارت‌های اولیه‌ای است که متخصصین سئو آن را یاد می‌گیرند و یکی از صدها بخش سئو سایت می‌باشد. اما متاسفانه در بسیاری از موارد نتایجی که از آن گرفته می‌شود یا منفی و مخرب است و یا عملا هیچ تاثیری در سئو ندارد.

1. ریسک امنیتی فایل Robots.txt

فایل Robots.txt یک ضرورت نیست ولی یک ابزار جالب توجه است و ربات‌های گوگل خیلی وابسته به آن هستند. اما گاهی می‌تواند به ضرر سایت‌ها تمام شود. بگذارید مثالی بزنیم:

اگر یک نفر بخواهد به صفحاتی از وبسایت شما دسترسی پیدا کند که شما این صفحات را در فایل ربات بلاک کرده‌اید یقینا برای شناسایی این صفحات می‌تواند به راحتی از فایل ربات استفاده کند. خیلی‌ها فکر می‌کنند که از طریق فایل‌های ربات از اطلاعات محرمانه‌ی خود مراقبت می‌کنند در حالی که کاملا برعکس است و برخی ربات‌ها می‌توانند از این اطلاعات شما سوءاستفاده کنند.

کیس‌های مختلف دیگری هم وجود دارند که در آن‌ها به دلیل عدم امنیت فایل‌های ربات اگر به دست رقبای شما بیفتد می‌تواند به ضرر شما تمام شود. برای کاهش این ریسک‌ها چه باید کرد؟

فایل Robots.txt به شما کمک نمی‌کند تا یک URL را از ایندکس موتورهای جستجو حذف کنید و همچنین از موتورهای جستجو در برابر اضافه کردن یک URL جلوگیری نمی‌کند. پس فایل ربات صرفا برای جلوگیری از کراول نیست و موتورهای جستجو در هر صورت صفحات شما را ایندکس و کراول می‌کنند اما با فایل ربات به آن‌ها اطلاع می‌دهید که این صفحات را در نتایج جستجو نمایش ندهد.

2. در استفاده از Nofollow‌ و Disallow به طور همزمان مراقب باشید.

در چند مورد نادر که در یک صفحه همزمان از تگ‌های نوفالو و ربات دیس‌آلو استفده می‌شود ممکن است مشکلاتی به وجود بیاید. چرا که اگر به طور همزمان استفاده شود گوگل در نتایج جستجو چنین پیغامی را نمایش می‌دهد که «توضیحی برای این صفحه در دسترس نیست» و در کارکرد کلی سایت شما تاثیر می‌گذارد. باید دقت داشته باشید که صفحات شما همزمان از این دو تگ و ربات استفاده نکنند تا صفحات به درستی به موتورهای جستجو معرفی شوند.

3. برای صفحات محرمانه اما قابل دسترسی از Noindex استفاده کنید.

اگر از تگ نوایندکس استفاده کنید مستقیما به ربات‌های کراولر اعلام می‌کنید که این صفحه نباید در نتایج جستجو نمایش داده شود. یعنی کراولر صفحه‌ی شما را کراول و شناسایی می‌کند اما نمی‌تواند و حق ندارد محتوای شما را در نتایج نشان دهد. این مورد برای صفحات محرمانه‌ با دسترسی عمومی بسیار مناسب است. برای صفحاتی محرمانه‌ای که نباید به صورت عمومی نمایش داده شوند ایجاد پسورد و یا شناسایی IP پیشنهاد می‌شود.

4. از Disallow برای مسیرها استفاده کنید نه صفحات خاص

با لیست کردن برخی صفحات خاص و استفاده از Disallow‌ در حقیقت شما به ربات‌های مخرب و هکرها می‌گویید که این صفحات سایت مهم هستند و نباید به آن‌ها دسترسی پیدا کنید و آن‌ها به راحتی این صفحات را پیدا می‌کنند. اما اگر مسیرها و دایرکتوری‌ها را دیس‌آلو کنید این ربات‌ها صرفا می‌توانند صفحه‌ی دایرکتوری را ببینند و امکان دیدن سایر صفحات و وب‌پیج‌ها وجود ندارد. توجه داشته باشید که حتما از یک صفحه‌ی 404 یا صفحات مشابه برای دایرکتوری‌هایی که قرار نیست ایندکس شوند اما وجود دارند استفاده کنید.

5. برای لیست سیاه IP از یک Honeypot استفاده کنید.

اگر می‌خواهید امنیت فایل ربات خود را چند درجه بالاتر ببرید از مکانیزم امنیتی Honeypot (یک مکانیزم مبتنی بر داده‌هایی که قابل دسترسی هستند اما دسترسی آن‌ها به صورت مداوم مانیتور می‌شود) استفاده کنید. اگر از ورود آی‌پی‌های مختلف به منابع Dissallow اطلاع داشته باشید می‌توانید از یک لیست سیاه برای این کار استفاده کنید و قسمت‌های مختلف سایت را با استفاده از این تکنیک ایمن کنید.

جمع بندی

فایل Robots.txt‌ یک ابزار بسیار بحرانی برای سئو می‌باشد و اگر نتوانید به درستی آن را هندل کنید ممکن است در امنیت سایت شما تاثیر منفی داشته باشد. اما اگر اصول و قواعد و تکنیک‌های آن را یاد بگیرید می‌توانید به راحتی از آن برای بهبود کارایی وبسایت خود استفاده کنید.