PDA

نسخه کامل مشاهده نسخه کامل : سوال خیلی اظطراری درباره robot.txt



shiapics
05-10-2009, 11:07
سلام دوستان خوبم ،ببخشید که دوباره مصّدی اوقات شریفتون میشم..

توی این 2 ماهی که سایتم رو راه اندازی کردم متوجه شدم که ایندکس شدن تصاویر و صفحات سایتم در گوگل افتضاح بوده! حتی یک عکس هم ثبت نشده در گوگل! الان رفتم در قسمت google webmaster و دیدم فایلی وجود داره به نام robot.txt و محتویات اون این شکلی هست:

برای مشاهده محتوا ، لطفا وارد شوید یا ثبت نام کنید

اونطوری که متوجه شدم طی این 2 ماه این فایل باعث میشد هیچ چیزی در سایتم ایندکس نشه؟ آیا این صحت داره؟!

و میخواستم از حضور شریفتون بپرسم اکنون که فایل robot.txt را از root هاستم حذف کردم مشکلم حل خواهد شد؟!

بسیار سپاسگذارم برادر یا علی مدد

MAXXX
05-10-2009, 19:40
همان طور که می دانید، جمع شدن صفحات سایت توسط یک موتور جستجو، اولین گام در ایجاد یک سایت قابل دسترس روی محیط وب است. ساده ترین راه برای این کار این است که به موتور های جستجوی بگویید سایت شما موجود است!
برای این کار می توانید آدرس سایت (URL) خود را در موتورهای جستجوی مختلف ثبت کنید. (که کمابیش با نحوه انجام این کار آگاهی دارید)
حذف روبات
قبل از اینکه بخواهید سایت و یا وبلاگ خود را در هر موتور جستجویی قرار دهید، به خاطر داشته باشد که داشتن یک روبات که کل سایت شما را ایندکس کند، ایده خوبی نیست! اولین دلیل آن، این است که بعضی صفحات مثل برنامه هایی که در دایرکتوری cgi-bin شما هستند، نیازی به ایندکس شدن ندارند و دومین دلیل اینکه بعضی از صفحات موقت و ناپایدار هستند و ایندکس کردن آن ها، منجر به ایجاد خطاهای بسیاری هنگام بازیابی آن ها می شود.
Robots.txt
برای محدود کردن دسترسی به روبات، پروتکل، تهیه شده است و ایده ابتدایی آن، استفاده از فایل خاص Robot.txt در دایرکتوری ریشه سایت است.
برای مثال اگر یک Spider در حال ایندکس کردن باشد، ابتدا به جستجوی فایل robots.txt می پردازد. اگر این فایل را پیدا کرد، قبل از شروع به اینکس سایت، آن را تجزیه و تحلیل می کند.
فرمت اولیه فایل Robots.txt، لیستی از Spider های خاص است که می خواهید آن ها را محدود کنید و یا مسیر های دایرکتوری خاصی را برای آن ها ممنوع نمایید.


برای مشاهده محتوا ، لطفا وارد شوید یا ثبت نام کنید
در این حالت، دسترسی را برای همه روبات ها به دایرکتوری cgi-bin، images و archive ممنوع کرده ایم.
باید در آنچه که در فایل Robots.txt قرار می دهید دفیت کنید. فایل زیر را در نظر بگیرید:


برای مشاهده محتوا ، لطفا وارد شوید یا ثبت نام کنید
در این فایل important.html و only-users، مجاز به ایندکس شدن نیستند اما با این کار به مردم فهماندید که این فایل ها، حساس هستند. اگر محتویاتی را می خواهید مخفی کنید، نباید آن را در فایل Robots.txt لیست کنید چرا که با تایپ آدرسی مثل [ برای مشاهده لینک ، لطفا با نام کاربری خود وارد شوید یا ثبت نام کنید ] لیست فایل هایی را که نمی خواهید دیگران ببینند، به راحتی قابل رویت است!
کنترل Robot با تگ meta
یک روش دیگر برای فایل Robots.txt (به خصوص برای کسانی که دسترسی به دایرکتوری ریشه ندارند)، استفاده از برچسب meta برای کنترل ایندکس کردن است. برای عدم اجازه به ایندکس یک صفحه خاص، از این تگ meta در بخش head قالبتان استفاده کنید:
* تگ را داخل <> قرار دهید!
کد:
meta name="robots" content="noindex"
منبع :
برای مشاهده محتوا ، لطفا وارد شوید یا ثبت نام کنید
__________________