نگاهى به موتورهاى جست وجو در اينترنت [بایگانی] - مرکز تخصصی آموزش کامپیوتر و اینترنت آریا دانلود

توجه ! این یک نسخه آرشیو شده میباشد و در این حالت شما عکسی را مشاهده نمیکنید برای مشاهده کامل متن و عکسها بر روی لینک مقابل کلیک کنید : نگاهى به موتورهاى جست وجو در اينترنت

Mohamad

06-30-2010, 07:26 PM

حتما شما هم بارها، زمانى كه به يك مقاله علمى، سياسى و... نياز داشته ايد يا حتى براى يافتن معنى اصطلاحى، پشت كامپيوترتان نشسته ايد و با استفاده از اينترنت در مدت زمان كوتاهى آن را پيدا كرده ايد. اما آيا تابه حال فكر كرده ايد چگونه در عرض چند ثانيه انبوهى از اطلاعات در اختيار شما قرار مى گيرد؟ صدها ميليون صفحه در اينترنت در دسترس وجود دارند و منتظر هستند تا اطلاعات را با تنوع شگفت انگيزى از موضوعات ارائه دهند. زمانى كه شما مى خواهيد در مورد يك موضوع مخصوص اطلاعات كسب كنيد، چگونه مى دانيد كه چه صفحاتى را بايد بخوانيد؟ احتمالاً مانند اكثر مردم، شما از يك موتور جست وجوى اينترنت بازديد مى كنيد.
موتورهاى جست وجوى اينترنتى، سايت هاى مخصوصى در شبكه هستند و طورى طراحى شده اند كه به افراد كمك مى كنند تا اطلاعات مورد نيازشان را كه در سايت هاى ديگر ذخيره شده است بيابند. تفاوت هايى در شيوه عملكرد موتورهاى جست وجوى مختلف وجود دارد، اما همه آنها سه وظيفه اصلى را انجام مى دهند:
۱ - در اينترنت، يا بخش هاى برگزيده اى از اينترنت، براساس كلمات مهم جست وجو را انجام مى دهند.
۲- يك فهرست از كلماتى كه پيداكرده اند و جايى كه آنها را پيدا كرده اند، تهيه مى كنند.
۳ - اين امكان را براى كاربران فراهم مى كنند تا كلمات يا مجموعه اى از كلمات مورد نظر خود را كه در فهرست يافت مى شود جست وجو كنند.
موتورهاى جست وجوى اوليه يك فهرست شامل تنها چندصد هزار صفحه و فايل نگهدارى مى كردند و در روز شايد يك يا دو هزار بازديدكننده داشتند. امروزه يك موتور جست وجوى خوب، صدها ميليون صفحه را فهرست مى كند و در روز پاسخگوى ده ها ميليون جست وجو كننده است. حالا بايد ببينيم چگونه اين مسئوليت مهم انجام مى شود و چگونه موتورهاى جست وجوى اينترنتى، بخش هاى مختلف را به كار مى برند تا ما بتوانيم اطلاعات مورد نياز خود را در شبكه بيابيم.
• جست وجو ميان صدها ميليون صفحه
قبل از اينكه يك موتور جست وجوگر بتواند به شما بگويد كه يك فايل در كجا قرار دارد، بايد آن فايل پيدا شود. يك موتور جست وجوگر براى يافتن اطلاعات از ميان صدها ميليون صفحه كه در شبكه وجود دارند، روبات نرم افزارى خاصى به نام spiders را به كار مى گيرد تا ليستى از كلماتى كه در سايت هاى شبكه يافت مى شود را ايجاد كند. فرآيندى كه يك spider ليست خود را ايجاد مى كند، Web crawling ناميده مى شود. براى ايجاد و نگهدارى يك ليست مفيد و مناسب از كلمات، يك spider موتور جست وجوگر بايد صفحات بسيار زيادى را بررسى كند. چگونه هر spider مسيرش را در شبكه آغاز مى كند ؟ معمولاً نقطه شروع، ليستى از صفحاتى است كه توسط سرورها زياد استفاده مى شوند و همچنين صفحاتى كه عمومى تر و معروف تر هستند. spider از يك سايت عمومى شروع مى كند، كلمات موجود در صفحات آن را ليست مى كند و هر لينكى كه در آن سايت يافت مى شود را دنبال مى كند. به اين طريق سيستم جست وجوگر به سرعت شروع به حركت مى كند و در بخش هايى كه بيشتر از همه مورد استفاده قرار مى گيرد حركت مى كند.
Google.com به عنوان يك موتور جست وجوگر علمى آغاز به كار كرد. سرجى برين و لورنس پيج بيان كرده اند كه spiderهاى سيستم آنها با چه سرعتى مى توانند كار كنند. آنها سيستم اوليه خود را به گونه اى ساختند كه از چندين spider استفاده كند، معمولاً سه تا در يك زمان. هر spider مى توانست با حدود سيصد صفحه شبكه كه در يك زمان باز بودند اتصال برقرار كند. در بهترين عملكرد خود، با استفاده از چهار spider، اين سيستم مى توانست در هر ثانيه به صد صفحه متصل باشد و حدود ۶۰۰ كيلو بايت داده را در هر ثانيه ايجاد كند. براى سرعت بخشيدن به جست وجو، ايجاد سيستمى براى ارائه اطلاعات لازم به spider لازم است. سيستم گوگل اوليه داراى سرورى بود كه به فراهم كردن URL ها براى spider ها اختصاص يافته بود. به جاى وابسته بودن به يك فراهم كننده سرويس اينترنتى براى DNS كه نام يك سرور را به يك آدرس تبديل مى كند، گوگل DNS خودش را داشت تا تاخيرها را به حداقل برساند.
زمانى كه spider گوگل يك صفحه HTML را مشاهده مى كرد، به دو نكته توجه مى كرد: كلمات درون صفحه، در كجا كلمات پيدا شده اند.
كلماتى كه در عنوان اصلى يا عناوين فرعى و يا ساير موقعيت هايى كه داراى اهميت نسبى هستند، قرار دارند براى جست وجوى بعدى كاربر مورد توجه خاص قرار مى گرفتند. spider گوگل هر كلمه معنى دارى در صفحه را فهرست مى كرد و از كلمات a an, the صرف نظر مى كرد. ساير spider ها از روش هاى متفاوتى استفاده مى كردند. در كل تمامى اين روش ها معمولاً سعى مى كند تا عملكرد spider را سريع تر كند، به كاربران اجازه بدهد تا با كارايى بهتر و بهينه تر جست وجو كنند و يا هر دو آنها. به عنوان مثال، بعضى spider ها كلماتى كه در عنوان ها، عنوان هاى فرعى و لينك ها وجود دارند يا كلماتى كه بارها در صفحه تكرار مى شوند و هر كلمه اى در بيست خط اوليه متن را نگهدارى مى كند. سايت Lycos از اين روش استفاده مى كند.
ساير سيستم ها، از قبيل AltaVista، هر كلمه در صفحه، شاملa an, the و ساير كلمات كه بى اهميت هستند را هم ليست مى كنند.
• ايجاد فهرست
زمانى كه spider ها وظيفه يافتن اطلاعات از صفحات شبكه را به اتمام رساندند (البته بايد در نظر داشته باشيم كه اين وظيفه هرگز واقعاً تمام نمى شود، خاصيت تغيير دائمى شبكه به اين معنى است كه spiders ها هميشه در حال حركت و جست وجو هستند)، موتور جست وجو بايد اين اطلاعات را به شكلى كه مفيد باشد، ذخيره كند. دو مولفه كليدى براى در دسترس قرار دادن اطلاعات جمع آورى شده براى كاربران وجود دارد: اطلاعات ذخيره شده با داده ها - روشى كه توسط آن اطلاعات فهرست مى شود.
در آسان ترين حالت، موتور جست وجوگر مى تواند تنها كلمه و URL را ذخيره كند. در حقيقت، اين روش براى موتورى با كاربرد محدود است، زيرا در اين حالت راهى وجود ندارد براى اينكه تعيين كند آيا كلمه در بخش مهم يا بخش بى اهميتى از صفحه استفاده شده است، آيا كلمه تنها يك بار يا چندين مرتبه تكرار شده است يا صفحه لينك هايى به صفحات ديگرى كه شامل آن كلمه هستند، دارد. به عبارت ديگر راهى براى ايجاد ليستى رتبه بندى شده كه تلاش مى كند تا مفيدترين و بهترين صفحات را در بالاى ليست نتايج جست وجو قرار بدهد، وجود ندارد.
براى به دست آوردن نتايج بهتر، بيشتر موتورهاى جست وجو اطلاعات بيشترى علاوه بر كلمه و URL ذخيره مى كنند. موتور ممكن است تعداد دفعاتى كه كلمه در صفحه تكرار شده است را ذخيره كند، يا ممكن است مقدارى را به هر ورودى اختصاص بدهد و زمانى كه كلمات در عناوين، عنوان هاى فرعى و لينك ها ظاهر مى شوند ارزش اختصاص يافته به آنها بيشتر مى شود. هر موتور جست وجوگر تجارى، فرمول متفاوتى براى ارزش گذارى كلمات فهرست خود دارد. اين مسئله يكى از دلايلى است كه موجب مى شود جست وجوى يك كلمه در موتورهاى جست وجوگر متفاوت، ليست هاى متفاوتى را ارائه بدهد و صفحاتى با ترتيب هاى متفاوت ارائه شود.
داده ها براى صرفه جويى در فضاى ذخيره سازى رمزگذارى مى شوند. مثلاً در صفحه گوگل اطلاعاتى از قبيل اينكه آيا كلمه با حروف بزرگ بوده است، اندازه فونت آن، موقعيت كلمه و ساير اطلاعاتى كه به رتبه بندى آن كمك مى كند را به صورت بيت و بايت ذخيره مى كند. در نتيجه ميزان بسيار زيادى از داده ها مى تواند به شكل بسيار فشرده اى ذخيره شود. بعد از اينكه اطلاعات فشرده شد، براى فهرست شدن آماده است.
هدف از ايجاد يك فهرست اين است كه باعث شود تا بتوانيم اطلاعات را با سريع ترين حالت ممكن پيدا كنيم. به طور كل، تنها چند راه براى ايجاد فهرست وجود دارد، اما يكى از مهمترين و موثرترين روش ها، ايجاد جدول hash است. در اين روش فرمولى به كار مى رود تا به هر كلمه يك ارزش عددى اختصاص بدهد.
پرسش و جست وجوى انجام شده توسط كاربر مى تواند خيلى ساده باشد، حتى يك كلمه. براى پرسش هاى پيچيده تر لازم است تا از عملگرهاى بولين (AND, OR, NOT, NEAR,) و... استفاده كنيد تا بتوانيد شرايط جست وجو را گسترش بدهيد.
به طور خلاصه عملكرد يك موتور جست وجو به اين صورت است: نرم افزار spider با جست وجو در سايت هاى مختلف ليستى از كلمات و جايى كه قرار دارند فراهم مى كند، سپس براساس سيستم ارزش گذارى خود فهرستى رتبه بندى شده تهيه مى كند، داده ها را رمزگذارى مى كند و سرانجام اطلاعات را براى دسترسى كاربران ذخيره مى كند.
• آينده موتورهاى جست وجوگر
در جست وجوهايى كه از عملگرهاى بولين استفاده مى شود، جست وجوهاى لفظى است. موتور دقيقاً همان كلمات يا عبارتى كه وارد شده است را جست وجو مى كند. زمانى كه كلمات ورودى داراى چندين معنى هستند، جست وجوى صحيح آنها مشكل است. در اين حالت، اگر براى شما تنها يكى از معانى آن كلمه مهم باشد، احتمالاً شما نمى خواهيد ساير صفحات را كه شامل معانى ديگر كلمه است ببينيد. شما مى توانيد يك جست وجوى لفظى ايجاد كنيد كه تا حدودى معنى هاى ناخواسته را حذف كند، اما بهتر اين بود كه خود موتور جست وجو مى توانست اين كار را انجام بدهد.
يكى از حوزه هاى تحقيق در موتورهاى جست وجوگر، جست وجو براساس مفهوم است. به عنوان مثال، استفاده كردن از تحليل هاى آمارى صفحاتى كه شامل كلمات يا عباراتى است كه شما جست وجو مى كنيد، براى اينكه صفحات ديگرى را كه ممكن است شما به آن علاقه داشته باشيد پيدا كند. بديهى است كه در يك موتور جست وجوگر مبتنى بر مفهوم، اطلاعات ذخيره شده براى هر صفحه، بيشتر است. هنوز بسيارى از گروه ها تلاش مى كنند تا نتايج و عملكرد اين نوع از موتورهاى جست وجو را افزايش دهند. قلمرو ديگرى كه پژوهشگران درباره آن تلاش مى كنند، پرسش ها به زبان طبيعى ناميده مى شود. منظور از اين پژوهش اين است كه شما بتوانيد پرسش تان را به گونه اى تايپ كنيد مثل اينكه آن را از شخصى كه كنار شما نشسته است مى پرسيد و نيازى نباشد تا از عملگرهاى بولين يا ساختارهاى پيچيده براى پرسش استفاده كنيد. معروف ترين سايت جست وجو به شيوه پرسش به زبان طبيعى، سايت AskJeeves.com است. اين سايت تنها با جملات ساده كار مى كند، اما تلاش بسيارى انجام مى شود تا اين روش جست وجو گسترش يابد تا بتواند سئوالات پيچيده تر را هم بپذيرد.
همچنان تلاش هاى بسيارى براى افزايش كيفيت و ارائه خدمات بيشتر موتورهاى جست وجوگر انجام مى شود و هر روز شاهد خبرهاى جديدى در اين زمينه هستيم و رقابت بين سايت هاى داراى موتور جست وجوگر بيشتر و بيشتر مى شود.
ليستى از سايت هاى مهم داراى موتور جست وجو
* AltaVista -Dogpile - Go -Google - HotBot - Looksmart -Lycos -Mamma -Metacrawler - Northern Light - Open Directory Project -Search.com - NBCi -WebCrawler - Yahoo