PDA

View Full Version : سوال: جلوگیری از index کردن google !!!??



cactuskhan
چهارشنبه 13 آذر 1387, 12:44 عصر
سلام خدمت اساتید بزرگ
یه سوال فنی داشتم اونم اینکه اساسا آیا میشه کاری کرد که سایتمون رو گوگل ایندکس نکنه ؟؟
یعنی اطلاعاتی رو که روی صفحه سایت ما وجود داره رو گوگل نبینه ؟؟؟:متفکر:

kiosksoft
چهارشنبه 13 آذر 1387, 12:48 عصر
بله میشه,

شما میتونید از ایندکس کردن صفحات خود بوسیله موتورهای جستجو (استاندارد البته)جلوگیری کنید!
با استفاده از فایل متنی robot.txt

:

robot.txt چیست

بطور خلاصه فایل robots.txt (http://www.robotstxt.org/orig.html) محدودیت هایی رو برای موتورهای جستجو در زمینه جستجو و گردآوری سایت شما انجام می ده.
شاید شما هم به این فکر رسیده باشید که اگر بخواهید جلوی قسمتی از سایت، محتوا و یا جایی از سایتتون رو برای خوانده شدن توسط موتورهای جستجویی نظیر گوگل یا یاهو بگیرید چه کاری باید انجام بدید.
خب، راه حل استفاده از فایل robots.txt هست. موتورهای جستجو قبل از هر کاری ابتدا به این فایل مراجعه می کنند و اگر اجازه داشتند به ادامه کار می پردازند. پیروی از فایل robots.txt نوعی قانون در موتورهای جستجو محسوب می شه.
خب، اگه شما می خواهید موتورهایی جستجو همه سایت شما رو بخوانند بنابراین نیازی نیست این مطلب رو بخوانید. نبود این فایل نشانگر رضایت شما از خوانده شدن تمام محتوای قابل دسترس برای موتورهای جستجو هست …
+ فایل robots.txt کجا باید قرار گیرد؟
- فایل robots.txt باید در root هاست شما ( پوشه اصلی که دامنه شما در آن قرار دارد ) قرار گیرد. بطور مثال آدرس فایل http://www.example.com/robots.txt قابل قبول هست ولی آدرسی مانند http://www.example.com/mysite/robots.txt غیرقابل قبول محسوب می شود و محتویات اون خوانده نمی شود. اگر شما به پوشه اصلی ( root ) دسترسی ندارید می توانید از META tag (http://www.robotstxt.org/wc/exclusion.html#meta) ها استفاده کنید ( + (http://www.google.com/support/webmasters/bin/answer.py?answer=40361) ).
+ چگونه فایل robots.txt رو بسازم ؟
- شما کافیست برای این کار فایلی با نام robots و با پسوند txt بسازید. توجه داشته باشید تمامی حروف باید کوچک باشد و برای هنگام ذخیره باید حالت ASCII-encoded text رو انتخاب کنید. با برنامه ای مثل notepad می توانید خیلی راحت این کار را انجام دهید.
ساده ترین فایل robots.txt شامل ۲ نقش است:

User-agent : روبات های مجاز
Disallow : صفحه های غیرمجاز
بطور مثال برای اجازه دادن به تمامی روبات های خزنده وب می تونید از دستور زیر استفاده کنید :
User-agent: *
چند تا مثال کاربردی:
- جلوگیری از خوانده شدن محتوا برای تمامی موتورهای جستجو:
User-agent: *
Disallow: /

- جلوگیری از خوانده شدن محتوای ۴ پوشه مشخص شده :

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

- جلوگیری از خواندن محتویات پوشه private توسط گوگل :
User-agent: Googlebot
Disallow: /private/
- جلوگیری از خوانده شدن یک فایل خاص :
User-agent: *
Disallow: /directory/file.html
- برای کامنت گذاری از # استفاده می شه. تمامی نوشته ها بعد از # در یک خط کامنت محسوب می شوند ( در نظر گرفته نمی شوند ).
- توجه داشته باشید که بزرگ و کوچک بودن آدرس ها مهم است
- برای مشاهده لیستی کامل از نام روبات های جستجوگر می توانید به این آدرس (http://www.robotstxt.org/db.html) مراجعه کنید

منبع asrone.net

milade
چهارشنبه 13 آذر 1387, 13:15 عصر
به غیر از فایل روبات میتونی برا هر صفحه بنویسی:

<meta name="robots" content="noindex,nofollow">
که باعث میشه نه لیست بشه نه لینکهاش دنبال بشه
+
یه سرچ هم توی سایت www.irpdf.com (http://www.irpdf.com) بکن مقالات به وفور یافت میشه
موفق باشی

Neo Persian
پنج شنبه 14 آذر 1387, 02:27 صبح
بله میشه,

شما میتونید از ایندکس کردن صفحات خود بوسیله موتورهای جستجو (استاندارد البته)جلوگیری کنید!
با استفاده از فایل متنی robot.txt

:

robot.txt چیست

بطور خلاصه فایل robots.txt (http://www.robotstxt.org/orig.html) محدودیت هایی رو برای موتورهای جستجو در زمینه جستجو و گردآوری سایت شما انجام می ده.
شاید شما هم به این فکر رسیده باشید که اگر بخواهید جلوی قسمتی از سایت، محتوا و یا جایی از سایتتون رو برای خوانده شدن توسط موتورهای جستجویی نظیر گوگل یا یاهو بگیرید چه کاری باید انجام بدید.
خب، راه حل استفاده از فایل robots.txt هست. موتورهای جستجو قبل از هر کاری ابتدا به این فایل مراجعه می کنند و اگر اجازه داشتند به ادامه کار می پردازند. پیروی از فایل robots.txt نوعی قانون در موتورهای جستجو محسوب می شه.
خب، اگه شما می خواهید موتورهایی جستجو همه سایت شما رو بخوانند بنابراین نیازی نیست این مطلب رو بخوانید. نبود این فایل نشانگر رضایت شما از خوانده شدن تمام محتوای قابل دسترس برای موتورهای جستجو هست …
+ فایل robots.txt کجا باید قرار گیرد؟
- فایل robots.txt باید در root هاست شما ( پوشه اصلی که دامنه شما در آن قرار دارد ) قرار گیرد. بطور مثال آدرس فایل http://www.example.com/robots.txt قابل قبول هست ولی آدرسی مانند http://www.example.com/mysite/robots.txt غیرقابل قبول محسوب می شود و محتویات اون خوانده نمی شود. اگر شما به پوشه اصلی ( root ) دسترسی ندارید می توانید از META tag (http://www.robotstxt.org/wc/exclusion.html#meta) ها استفاده کنید ( + (http://www.google.com/support/webmasters/bin/answer.py?answer=40361) ).
+ چگونه فایل robots.txt رو بسازم ؟
- شما کافیست برای این کار فایلی با نام robots و با پسوند txt بسازید. توجه داشته باشید تمامی حروف باید کوچک باشد و برای هنگام ذخیره باید حالت ASCII-encoded text رو انتخاب کنید. با برنامه ای مثل notepad می توانید خیلی راحت این کار را انجام دهید.
ساده ترین فایل robots.txt شامل ۲ نقش است:

User-agent : روبات های مجاز
Disallow : صفحه های غیرمجاز
بطور مثال برای اجازه دادن به تمامی روبات های خزنده وب می تونید از دستور زیر استفاده کنید :
User-agent: *
چند تا مثال کاربردی:
- جلوگیری از خوانده شدن محتوا برای تمامی موتورهای جستجو:
User-agent: *
Disallow: /

- جلوگیری از خوانده شدن محتوای ۴ پوشه مشخص شده :

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

- جلوگیری از خواندن محتویات پوشه private توسط گوگل :
User-agent: Googlebot
Disallow: /private/
- جلوگیری از خوانده شدن یک فایل خاص :
User-agent: *
Disallow: /directory/file.html
- برای کامنت گذاری از # استفاده می شه. تمامی نوشته ها بعد از # در یک خط کامنت محسوب می شوند ( در نظر گرفته نمی شوند ).
- توجه داشته باشید که بزرگ و کوچک بودن آدرس ها مهم است
- برای مشاهده لیستی کامل از نام روبات های جستجوگر می توانید به این آدرس (http://www.robotstxt.org/db.html) مراجعه کنید

منبع asrone.net
يه مشكل اساسي كه اين روش داره اينه كه از طريق خود گوگل ميشه سايت هايي رو كه اين فايل توشون هست پيدا كرد!!!

milade
پنج شنبه 14 آذر 1387, 04:31 صبح
يه مشكل اساسي كه اين روش داره اينه كه از طريق خود گوگل ميشه سايت هايي رو كه اين فايل توشون هست پيدا كرد!!!
بله این روش معایبی هم داره مثلا این که هکر با داشتن این فایل میتونه پی ببره چه ادرسهاای مهمه و بازش کنه!

cactuskhan
پنج شنبه 14 آذر 1387, 10:08 صبح
من توی سایت نگاه کردم همچین فایلی نبود !! این سایت با اینکه بیش از 1 ساله داره کار میکنه روزی حداقل 1000 تا بازدید کننده داره ولی توی گوگل هیچ صفحه ای از اون ایندکس نشده !!! توی گوگل اگه بزنیم site:mysitenasme.com تمام صفحات ایندکس شده اون رو نشون میده

Exception
پنج شنبه 14 آذر 1387, 10:42 صبح
من توی سایت نگاه کردم همچین فایلی نبود !! این سایت با اینکه بیش از 1 ساله داره کار میکنه روزی حداقل 1000 تا بازدید کننده داره ولی توی گوگل هیچ صفحه ای از اون ایندکس نشده !!! توی گوگل اگه بزنیم site:mysitenasme.com تمام صفحات ایندکس شده اون رو نشون میده
اشتباه میکنی: http://www.google.com/search?q=site%3Abarnamenevis.org (http://www.google.com/search?q=site%3Abarnamenevis.org)
من الان چک کردم، حدود 450000 تا نتیجه داد.

cactuskhan
پنج شنبه 14 آذر 1387, 10:47 صبح
اشتباه میکنی: http://www.google.com/search?q=site%3Abarnamenevis.org (http://www.google.com/search?q=site%3Abarnamenevis.org)
من الان چک کردم، حدود 450000 تا نتیجه داد.

آقا خیلی باحالی !!! :قهقهه:

کی گفت که شما نام سایت برنامه نویس رو بزنی !؟ منظور من سایت خودم بود
http://www.hozehonari.com

milade
پنج شنبه 14 آذر 1387, 15:06 عصر
علل مختلفی داره که به اختصار شرح میدم:
1-سرور شما یا ایپی شما یا ادرس سایت شما اسپم شده
2-سایت شما به تازگی ثبت شده و گوگل هنوز اونو پیدا نکرده
3-دیگه یادم نیست!

Exception
پنج شنبه 14 آذر 1387, 17:51 عصر
آقا خیلی باحالی !!! :قهقهه:

کی گفت که شما نام سایت برنامه نویس رو بزنی !؟ منظور من سایت خودم بود
http://www.hozehonari.com
َشرمنده! یکمی مشکل از IQ بود! :خجالت:
اما سایت خودت هم مشکلی نداره و ایندکس شده. برای من 55 نتیجه نشون میده:
http://www.google.com/search?q=site:hozehonari.com&hl=en&filter=0
فکر کنم اگر یه sitemap درست کنی برای سایتت، صفحات اصلیت بهتر نشون داده بشه.

RoostaYeBekr
پنج شنبه 14 آذر 1387, 18:06 عصر
به غیر از فایل روبات میتونی برا هر صفحه بنویسی:

<meta name="robots" content="noindex,nofollow">
که باعث میشه نه لیست بشه نه لینکهاش دنبال بشه
+
یه سرچ هم توی سایت www.irpdf.com (http://www.irpdf.com) بکن مقالات به وفور یافت میشه
موفق باشی
پس برای همین چیزی که گفتید ، به نظرتان ، همین کد کافی هست تا هیچ چیز در جستجوی موتورها قابل رویت نباشد ؟


<html xmlns="http://www.w3.org/1999/xhtml" >
<head runat="server">
<title>Untitled Page</title>
<meta name="robots" content="noindex,nofollow" />
</head>
<body>
<form id="form1" runat="server">
<div>
<center>
<b>
Hello
</b>
</center>
</div>
</form>
</body>
</html>

امید امرایی
پنج شنبه 14 آذر 1387, 18:45 عصر
پس برای همین چیزی که گفتید ، به نظرتان ، همین کد کافی هست تا هیچ چیز در جستجوی موتورها قابل رویت نباشد ؟


بله دوست عزیز .
برای گوگل همین کافیه و حتی می تونید صفحات ایندکش شده رو هم با روش هایی که خود گوگل شرح داده حذف کنید .
کمی در مستندات گوگل جستجو کنید خودش بهترین راهنماست .