آموزش: آموزش کامل robots.txt [بایگانی]

soroush.r70

سه شنبه 13 دی 1390, 11:12 صبح

txt یک فایل متنی است که این فایل را میتوانید در سرور و در دایر کتوری وب سایت خود قراردهید تا تنظیمات گردش برنامه های گردشگر را در آن کنترل کنید و در حقیقت زحمت این برنامه ها را کم کنید . اما اطلاعاتی که در این فایل باید قرار گیرد الگوی خاصی دارد که در زیر به آن اشاره شده و در ان سطح دسترسی گردشگرها را با ذکر نامشان معین میکنید.

:User-agent

:Disallow

این دو خط را در فایل متنی وارد و آنرا با پسوند txt ذخیره میکنید.

User-agent به برنامه هایی میگویند که برای وب ساخته میشوند تا در اختیار کاربان قرار کیرند و گردشگر ها مانندrobot ها و crawler ها از این قبیل هستند و هر سایت جستجو یک گردشگر با اسم مشخص دارد ، مانند سایت گوگل که بنام Googlebot معروف است . برای تعیین سطح دسترسی باید نام برنامه را در خط اول نویسد و در خط دوم هم نام فایلها یا دایر کتوری هاییکه نباید لیست شوند را مینویسید. اگر بطور کل نمیخواهید سایت شما لیست شود طبق دستور زیر عمل میکنید :

:User-agent*

:Disallow/

اول لز همه یک فایل متنی با پسوند txt. ایجاد کرده و نام فایل را robots.txt قرار دهید و این فایل را در ریشه سایتان قرار دهید.

به طور مثال این فایل robots.txt سایته منه

*: User-agent
Disallow:/db.php
Disallow:/get_jalali_date.php
Disallow:/jalali.php
Disallow:/soroushr70
Disallow:/js
Disallow:/images
Disallow:/fonts
Sitemap:http://www.111111.ir/sitemap.xml

خط اول به تمام جستجوگرها می گوید صفحات سایت منو فهرست کن.

خط دوم تا چهارم فایلهای مشخص شده را فهرست نمی کند.

خط پنجم تا هشتم پوشه های مشخص شده من رو فهرست نمی کنددقت داشته باشید که بعد از نام پوشه ها باید / قرار گیرد مثلا بعد از پوشه fonts باید / بگذارید که من نذاشتم.

خط آخر هم مسیر و نام نقشه سایت منو مشخص می کند.

بعد از اتمام کار این فایل یک متا تگ باید در فایل های سایتون تعریف کنید.

<head>
<meta name="robots" content="index, follow">
<head/>

به همین راحتی شما یک فایل robots.txt کامل و بی نقص دارید.

Saber Mogaddas

سه شنبه 13 دی 1390, 12:15 عصر

سلام
با تشکر و با اجازه کاملترش کنم..
شما می تونید برای کار یا از فایل robots.txt استفاده کنید و یا از متا تگ robots و نیاز به استفاده هر دو با هم نیست..
و تو هر صفحه می تونید از متاتگ برای اجازه دادن به crawler برای جستجو در آن صفحه استفاده کنید ..
متاتگ های مختلف برای محدود کردن spider موتورهای جستجو :
<meta NAME="GOOGLEBOT" CONTENT="NOARCHIVE"></meta>
در این متا تگ روبات صفحه را از نظر keywords و description آرشیو نخواهد کرد

<meta NAME="ROBOTS" CONTENT="ALL"> </meta>
به طور پیش فرض موتورها این همه لینکها را دنبال میکنند و صفحه را index میکنند و کد بالا نیز همین کار را انجام خواهد داد..بودن و نبودن این متا تگ فرقی ندارد ولی پیش نهاد میکنم بخواتر برتری کار خود از آن استفاده کنید..

<meta NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"> </meta>

در این متاتگ صفحه وب شما ایندکس خواهد شد و لی لینک های صفحه پیگیری نخواهد شد..

<meta NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"> </meta>

صفحه شما index نخواهد شد ولی لینک های صفحه پیگیری می شوند..

<meta NAME="ROBOTS" CONTENT="NONE"></meta>
<meta NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"></meta>
هر دو متا تگ بالا کار یکسانی انجام می دهند هر دو مانع از index شدن و پیگیریه لینک ها خواهند شد.

یک قضیه قابل توجه هم هست اونم اینه که بعضی از spider های موتورهای جستجو به robots ها توجه نمیکنند و کل صفحات شما را می گردن..

موفق باشید..