PDA

نسخه کامل مشاهده نسخه کامل : جست‌وجو، كليد حل معماها در اينترنت



soleares
14-10-2006, 17:26
اگر در گذشته يافتن مطالب مورد نيازمان احتياج به مسافرت و يا صرف وقت زيادي داشت و سخت بود،
امروزه با نشستن در پشت كامپيوتر و اتصال به شبكه جهاني اينترنت آن اطلاعات و دانش در اختيار ما قرار مي‌گيرد. چگونه؟ جست‌وجو كليد حل اين معماست.





جست‌و‌جو، كليد حل معما در اينترنت
مهدي رودكي- حيات‌نو
اشاره:
اينترنت شبكه‌اي بسيار گسترده است و حاوي مطالب زيادي در موضوعات گوناگون. اين رسانه جديد كه انقلابي در زمينه اطلاعات ايجاد كرده قرن نوين را به قرن اطلاعات بدل نموده است. اگر در گذشته يافتن مطالب مورد نيازمان احتياج به مسافرت و يا صرف وقت زيادي داشت و سخت بود، امروزه با نشستن در پشت كامپيوتر و اتصال به شبكه جهاني اينترنت آن اطلاعات و دانش در اختيار ما قرار مي‌گيرد. اما چگونه مي‌توانيم در بين اين حجم اطلاعات در اين رسانه مطلب مورد نظر خود را بيابيم. جست‌وجو كليد حل اين معماست.

ابزار‌هاي جست‌وجو
همان طوركه فهرست مطالب و نمايه‌ها ابزارهاي اصلي براي دسترسي به محتواي كتاب‌ها و مجلات به شمار مي‌روند، ابزارهاي كاوش نيز جست‌وجو و بازيابي منابع اطلاعاتي موجود در شبكه اينترنت را تسهيل مي‌نمايند. هر كدام از ابزارهاي كاوش، محتوا، پوشش و واسط منحصر به فرد خود را دارند و براي استفاده از آنها و همچنين انجام جست‌وجوي موفق و مفيد در آنها بايد از مجموعه‌اي از اصول و قواعد جست‌وجو در اين ابزارها آگاه بود.

آشنايي با اين ابزارها براي جست‌وجوگران اطلاعات در اينترنت امري ضروري مي‌باشد و لازم است. ضمن شناسايي ابزارهاي كاوش اينترنت در حوزه‌هاي مختلف، با روش‌هاي جست‌وجو در آنها آشنا شده و مناسب‌ترين آنها را براي رفع نيازهاي اطلاعاتي خود انتخاب نمايند. ابزارهاي كاوش اينترنت در يك دسته‌بندي كلي در دو دسته موتورهاي جست‌وجو و راهنماهاي موضوعي تقسيم‌بندي مي‌شوند.

راهنماهاي موضوعي وب (Web Directory): راهنماهاي وب يكي از مهم‌ترين ابزارهاي كاوش در اينترنت به شمار مي‌روند كه گزينشي بوده و منابع آنها بر اساس موضوع دسته‌بندي شده‌اند. در اين ابزارها جست‌وجو را مي‌توان در ساختار موضوعي و به صورت سلسله مراتبي انجام داد.

راهنماهاي وب بر خلاف موتورهاي جست‌وجوي كليد واژه‌اي، امكان دسترسي سريع و مناسب به اطلاعات معتبر و ارزشمند تحليل شده را منطبق با نيازهاي مخاطبان از طريق ساختار موضوعي نظام‌مند در اختيار قرار مي‌دهند. در واقع نتايج جست‌وجو از طريق راهنماهاي موضوعي در هم ريختگي كمتري دارد، زيرا منابع و وب سايت‌هايي كه پيدا مي‌شوند در اغلب موارد به وسيلة متخصصان موضوعي گزينش شده‌اند، لذا كاربر كل شبكه وب را جست‌وجو نمي‌كند، بلكه روي طبقه موضوعي انتخاب شده به جست‌وجو مي‌پردازد و از اين طريق از اتلاف وقت كاربر جلوگيري مي‌شود.

به عبارت ديگر، راهنماهاي وب مجموعه‌اي از منابع شبكه وب را در ساختار موضوعي كلي (فرضاً سلسله مراتبي يا درختي) دسته‌بندي كرده و آنها را در طبقه موضوعي كلي و هر طبقه را به موضوعات ريز و خاص‌تر تقسيم مي‌كنند. نقطه قوت اين ابزارها دقيق و مرتبط بودن نتيجه جست‌وجو با موضوع مورد نظر و اعتبار و كيفيت بالاي منابع بازريابي شده و نقطه ضعف آنها نيز پوشش محدود منابع وب، چند مرحله‌اي بودن فرآيند جست‌وجو و همچنين پايين بودن سرعت روزآمدي منابع آنها مي‌باشد.

موتورهاي جست‌وجو (Search Engines): موتورهاي جست وجو ابزارهايي هستند كه براي كاوش انواع منابع اطلاعاتي موجود در شبكه اينترنت طراحي شده‌اند. موتورهاي جست‌وجو با جمع‌آوري صفحات وب و ايجاد پايگاه‌هاي اطلاعاتي فرآيند مرور و جست‌وجو را براي استفاده‌كنندگان تسهيل مي‌كنند. به كمك اين ابزارها و از طريق كليد واژه، عبارت و ساير قابليت‌ها مي‌توان به جست‌وجوي اطلاعات در اينترنت پرداخت.

هر كدام از موتورهاي جست‌وجو از برخي جنبه‌ها با هم تفاوت دارند و نقاط قوت و ضعف و نيز گسترة اطلاعات خاص خود را دارا مي‌باشند كه بايد بر اساس نياز اطلاعاتي و نوع مدرك مورد جست‌وجو هر يك از اين ابزارها را براي جست‌وجوي منابع وب انتخاب كرد. در واقع موتورهاي جست‌وجو از نظر تنوع، محتوا و استراتژي‌هاي جست‌وجو، تهيه منابع و مجموعة ابزارهايي كه براي كمك به استفاده‌كنندگان ارائه مي‌دهند، تفاوت‌ها و پيچيدگي‌هاي خاص خود را دارا هستند. از طرفي بوسيله هيچ يك از موتورهاي جست‌وجو نمي‌توان در تمام منابع اطلاعاتي موجود در اينترنت جست‌وجوكرد.

با تايپ واژه يا عبارت مربوط به موضوع مورد نظر خود در هر كدام از اين ابزارها، همه صفحات و سايت‌هاي مرتبط با آن موضوع بازيابي مي‌شوند. از نقاط قوت اين ابزارها مي‌توان به پوشش وسيع منابع وب و سرعت در روزآمد‌سازي منابع و از نقاط ضعف آن نيز مي‌توان به بازيابي بعضي منابع كم ربط يا نامربوط با موضوع مورد نظر اشاره كرد.

تفاوت اصلی این دو گروه نیز در نحوه تشکیل پایگاه داده و جمع‌آوری اطلاعات آنهاست. در فهرست‌ها، این کار به عهده انسان است اما در موتورهای جست‌وجوگر جمع‌آوری اطلاعات پایگاه داده را نرم‌افزارها انجام می‌دهند. دانستن تفاوت کار این دو گروه بسیار مهم است زیرا هر یک از آنها به گونه‌ای متفاوت رفتار می‌نمایند. فهرست هرگز از وجود يك سایت اطلاع نمی‌یابد مگر زمانی‌که شخصی آن را به وی معرفی نماید.

بعد از معرفی است که ویراستار آن فهرست به سایت شما مراجعه نموده، در صورت رعایت قوانین فهرست و انتخاب گروه مناسب، آن سایت را به پایگاه داده فهرست اضافه می‌نماید. اما در موتورهای جست‌وجوگر وضع به گونه‌ای دیگر است، موتور جست‌وجوگر می‌تواند از وجود آن سایت اطلاع یابد اگر راه ورود آن فراهم شده باشد. در واقع نرم‌افزار موتور جست‌وجوگر هر لحظه در حال وبگردی و به روزرسانی اطلاع قدیمی و همین طور افزودن اطلاعات جدید به پایگاه داده موتور جست‌وجوگر است.

بخش‌هاي مختلف يك موتور جست‌وجو
جست‌وجویی در یک موتور جست‌وجوگر انجام و نتایج جست‌وجو ارائه می‌شود، كاربران در واقع نتیجه كار بخش‌های متفاوت موتور جست‌وجوگر را می‌بینند. موتور جست‌وجوگر قبلا پایگاه داده‌اش را آماده كرده است و این گونه نیست كه درست در همان لحظه جست‌وجو، تمام وب را بگردد. هیچ موتور جست‌وجوگری توانایی انجام این كار را ندارند. همه آنها در زمان پاسخ گویی به جست‌وجوهای كاربران، تنها در پایگاه داده‌ای كه در اختیار دارند به جست‌وجو می‌پردازند و نه در وب! موتور جست‌وجوگر به كمك بخش‌های متفاوت خود، اطلاعات مورد نیاز را قبلا جمع‌آوری، تجزیه و تحلیل می‌كند، آن را در پایگاه داده‌اش ذخیره می‌نماید و به هنگام جست‌وجوی کاربر تنها در همین پایگاه داده می‌گردد.

بخش‌های مجزای یك موتور جست‌وجوگر عبارتند از: Spider ، Crawler ، Indexer ، Database و Ranker حال هر كدام را به تفضيل بررسي مي‌كنيم:

Spider (عنکبوت): اسپایدر نرم‌افزاری است كه كار جمع‌آوری اطلاعات مورد نیاز یك موتور جست‌وجوگر را بر عهده دارد. اسپایدر به صفحات مختلف سر می‌زند، محتوای آنها را می‌خواند، لینک‌ها را دنبال، اطلاعات مورد نیاز را جمع‌آوری و آن را در اختیار سایر بخش‌های موتور جست‌وجوگر قرار می‌دهد. همانطور كه كاربران، صفحات مختلف را بازدید می‌كنند، اسپایدر هم درست این كار را انجام می‌دهد با این تفاوت كه اسپایدر كدهای HTML صفحات را می‌بیند اما كاربران نتیجه حاصل از كنار هم قرار گرفتن این كدها را. اسپایدر، به هنگام مشاهده صفحات، بر روی سرورها رد پا برجای می‌گذارد.
شما اگر اجازه دسترسی به آمار دید و بازدیدهای صورت گرفته از یک سایت و اتفاقات انجام شده در آن را داشته باشید، می‌توانید مشخص كنید كه اسپایدر كدام یک از موتورهای جست‌وجوگر صفحات سایت را مورد بازدید قرار داده است.

Crawler (خزنده): كراولر، نرم‌افزاری است كه به عنوان یك فرمانده برای اسپایدر عمل می‌كند. خزنده مشخص می‌كند که اسپایدر كدام صفحات را مورد بازدید قرار دهد. در واقع کراولر تصمیم می‌گیرد كه كدام یك از لینك‌های صفحه‌ای كه اسپایدر در حال حاضر در آن قرار دارد، دنبال شود. کراولر، ممكن است قبلا برنامه‌ریزی شده باشد که آدرس‌های خاصی را طبق برنامه، در اختیار اسپایدر قرار دهد تا از آنها دیدن کند. دنبال كردن لینك‌های یک صفحه به این بستگی دارد كه موتور جست‌وجوگر چه حجمی از اطلاعات یک سایت را می‌تواند در پایگاه داده‌اش ذخیره كند. همچنین ممكن است اجازه دسترسی به بعضی از صفحات به موتورهای جست‌وجوگر داده نشده باشد. دارنده سایت، همان طور كه دوست دارد موتورهای جست‌وجوگر اطلاعات سایت را با خود ببرند، می‌تواند آنها را از بعضی صفحات سایت‌ دور كند و اجازه دسترسی به محتوای آن صفحات را به آنها ندهد.

Indexer (بایگانی كننده): تمام اطلاعات جمع‌آوری شده توسط اسپایدر در اختیار ایندکسر قرار می‌گیرد. در این بخش اطلاعات ارسالی مورد تجزیه و تحلیل قرار می‌گیرند و به بخش‌های متفاوتی تقسیم می‌شوند. تجزیه و تحلیل بدین معنی است كه مشخص می‌شود اطلاعات از كدام صفحه ارسال شده است، چه حجمی دارد، كلمات موجود در آن كدامند، کلمات چند بار تكرار شده‌اند، كلمات در كجای صفحه قرار دارند و ... . در حقیقت ایندکسر، صفحه را به پارامترهای آن خرد می‌کند و تمام این پارامترها را به یک مقیاس عددی تبدیل می‌کند تا سیستم رتبه‌بندی بتواند پارامترهای صفحات مختلف را با هم مقایسه کند. در زمان تجزیه و تحلیل اطلاعات، ایندکسر برای كاهش حجم داده‌ها از بعضی كلمات كه بسیار رایج هستند صرف‌نظر می‌کند. كلماتی نظیر a، an، the، www، is و ... از این گونه كلمات هستند.

DataBase (پایگاه داده): تمام داده‌های تجزیه و تحلیل شده در ایندکسر، به پایگاه داده ارسال می‌گردد. در این بخش داده‌ها گروه‌بندی، كدگذاری و ذخیره می‌شود. همچنین داده‌ها قبل از آنكه ذخیره شوند، طبق تکنیک‌های خاصی فشرده می‌شوند تا حجم كمی از پایگاه داده را اشغال كنند. یك موتور جست‌وجوگر باید پایگاده داده عظیمی داشته باشد و به طور مداوم حجم محتوای آنرا گسترش دهد و البته اطلاعات قدیمی را هم به روز رسانی نماید. بزرگی و به روز بودن پایگاه داده یك موتور جست‌وجوگر برای آن امتیاز محسوب می‌گردد. یكی از تفاوت‌های اصلی موتورهای جست‌وجوگر در حجم پایگاه داده آنها و همچنین روش ذخیره‌سازی داده‌ها در پایگاه داده است.

Ranker (سیستم رتبه‌بندی): كاربران براي استفاده از يك موتور جست‌وجو چند كلمه را در جعبه جست‌وجوی آن وارد می‌كنند و سپس با فشردن Enter منتظر پــاسخ می‌مانند. برای پاسخگویی به درخواست کاربر، ابتدا تمام صفحات موجود در پایگاه داده كه به موضوع جست‌وجو شده، مرتبط هستند، مشخص می‌شوند. پس از آن سیستم رتبه‌بندی وارد عمل شده، آنها را از بیشترین ارتباط تا كمترین ارتباط مرتب می‌كند و به عنوان نتایج جست‌وجو به كاربر نمایش می‌دهد.
حتی اگر موتور جست‌وجوگر بهترین و كامل‌ترین پایگاه داده را داشته باشد اما نتواند پاسخ‌های مرتبطی را ارائه كند، یك موتور جست‌وجوگر ضعیف خواهد بود. در حقیقت سیستم رتبه‌بندی قلب تپنده یك موتور جست‌وجوگر است و تفاوت اصلی موتورهای جست‌وجوگر در این بخش قرار دارد. سیستم رتبه‌بندی برای پاسخ‌گویی به سوالات كاربران، پارامترهای بسیاری را در نظر می‌گیرد تا بتواند بهترین پاسخ‌ها را در اختیار آنها قرار دارد.

راه ورود موتور جست‌وجوگر به يك سایت
موتور جست‌وجوگر مي‌تواند از راه‌های متفاوتی به یک سایت وارد شود. این راه‌ها همان لینک‌ها هستند. موتور جست‌وجوگر برای خواندن صفحات سایت مجوزهای لازم و محدودیت‌ها را در فایل ROBOTS.TXT بررسی می‌کند، هر چند که می‌تواند آن مجوزها را به طور کلی نادیده بگیرد. موتور جست‌وجوگر می‌تواند انواع فایل را بخواند: فایل DOC، PDF، HTML، PHP و ... شب به سایت سر بزند و یا روز. گاهی هم که به سایت سر می‌زند با دست خالی بر می‌گردد زیرا سرور سایت جواب نمی‌دهد و سایت موقتا و یا برای همیشه فعال نیست.

اگر می‌خواهید موتور جست‌وجوگر را به میهمانی سایتتان دعوت کنید باید راه را هم به وی نشان دهید و وی آدرس سایت شما را بداند. موتور جست‌وجوگر بهانه‌های بسیاری برای نپذیرفتن این دعوت دارد زیرا در همان لحظه به سایت‌های بسیار دیگری هم دعوت شده است! بنابراین باید در آدرس دادن نهایت دقت را انجام دهید. پیوندی هم که شما با آن موتور جست‌وجوگر را به سایتتان دعوت می‌کنید، بسیار مهم است. همواره پیوند به سایتتان را در سایت (صفحات) مهم دیگر قرار دهید تا موتور جست‌وجوگر نه یکبار که چندین بار به سایت شما از آن طریق مراجعه کند.

موتور جست‌وجوگر، کافیست که آدرس سایت شما را یاد بگیرد. آن وقت می‌توانید مطمئن باشید که هر ماه حداقل یکبار بدان مراجعه می‌کند. اما اگر پیوندهای سایتتان در سایت‌های معتبر و مهمی باشند آن وقت بیش از یک بار در ماه و حتی هر چند روز یک بار بدان مراجعه می‌کند. پیوند دادن و پیوند گرفتن امروزه مقوله‌ای بسیار جدی میان مدیران سایت‌هاست. شاید هر روزه میلیون‌ها پست الکترونیک فقط برای این موضوع میان مدیران سایت‌ها رد و بدل می‌شود