View Full Version : نحوه کار خزنده های و یا رباتهای جستجو گر
n0o0b_sina
چهارشنبه 06 اسفند 1393, 17:42 عصر
دوستان چند وقتی ذهنم مشغول این موضوع شده و هر چقدرم سرچ کردم به نتیجه ای نرسیدم. موتورهای جستجویی مثل گوگل یا یاهو و... یا موتورهای جستجوری ایرانی مانند "یوز" که تازه رو نمایی شده، نحوه کارشون به چه صورته؟ یعنی وبسایت هارو از کجا پیدا میکنن؟ البته نحوه جستجوشون با تجزیه تحلیل کدهای HTML هست ولی نحوه ی پیدا کردم وبسایت هارو و مخصوصا تمام صفحات اون وبسایت رو نفهمیدم! چند جا خودم که با پیدا کردم href تگ a در html صفحه هارو پیدا میکنه ولی ممکنه همه ی صفحه ها با تگ لینک به هم وصل نشده باشد. در کل ممنون میشم به این 2 تا سوال پاسخ بدید چون مطمئنم برای خیلی از دوستان مفیده و باعث افزایش اطلاعاتشون میشه.
1- نحوه پیدا کردن وبسایت های تازیه تاسیس شده یا کلا همه ی وبسایت ها
2- نحوه یافتن تمام صفحات آن وبسایت
3- آیا php برای نوشتن ربات جستجو که نحوه کارش در سوالات بالا شرح داده شد (توسط شما) مناسبه یا باید از زبان های جامع تر مثله python یا java استفاده کنیم؟
پ.ن: دوستان سوالاته من تنها برای افزایش اطلاعاتمه و هیچ قصدی مثله راه اندازی موتور جستجو یا ... ندارم.
ممنون
n0o0b_sina
پنج شنبه 07 اسفند 1393, 00:21 صبح
کسی اطلاعاتی نداره؟
n0o0b_sina
پنج شنبه 07 اسفند 1393, 01:33 صبح
حداقل یه شکلک بزارید :((
aliphp1
پنج شنبه 07 اسفند 1393, 01:47 صبح
تا لینک جایی گذاشته نشده باشه یعید می دونم بتونن پیدا کنن
البته بعضی وقتا لینک رو جایی میزاریم که اصلا خودمون متوجه نمیشیم
مثلا ممکنه با افزونه های فایرفاکس و . . . بتونه لینک هایی که باز میشه رو پیدا کنه
اما این بحث به کنار من هم مدتی هست روی همین موضوع فکرم مشغول هست و میخوام بدونم دقیقا ربات های گوگل چطوری کار می کنن و اگر بتونم یک ربات بنویسم
اگر کسی می تونه کمک کنه
n0o0b_sina
پنج شنبه 07 اسفند 1393, 01:55 صبح
تا لینک جایی گذاشته نشده باشه یعید می دونم بتونن پیدا کنن
البته بعضی وقتا لینک رو جایی میزاریم که اصلا خودمون متوجه نمیشیم
مثلا ممکنه با افزونه های فایرفاکس و . . . بتونه لینک هایی که باز میشه رو پیدا کنه
اما این بحث به کنار من هم مدتی هست روی همین موضوع فکرم مشغول هست و میخوام بدونم دقیقا ربات های گوگل چطوری کار می کنن و اگر بتونم یک ربات بنویسم
اگر کسی می تونه کمک کنه
برادرا گوگل رو نخواستیم "یوز" موتور جستجوری ایرانی چطوری کار میکنه و سایت هارو برای بررسی سورس html پیدا میکنه؟
مغزم هنگ کرد به خدا :دی
اینم آدرس یوز : http://yooz.ir/
prans.info
پنج شنبه 07 اسفند 1393, 02:45 صبح
برادرا گوگل رو نخواستیم "یوز" موتور جستجوری ایرانی چطوری کار میکنه و سایت هارو برای بررسی سورس html پیدا میکنه؟
مغزم هنگ کرد به خدا :دی
اینم آدرس یوز : http://yooz.ir/
بیش از نصف سایت های جدید رو از صفحات سایت های فعلی که تویه دیتابیس هستند استخراح می کنند و سایت هایی که تخصصشون لینک و سایت باشه کم نیست .
پیدا کردت لینک های یک سایت هم که بیش از 95 درصدش خود سایت اصلی هست و میشه از لینک هایی که به سایت مورد نظر در سایت دیگه هست هم استفاده کرد .
prans.info
پنج شنبه 07 اسفند 1393, 02:47 صبح
در ضمن با php هم میشه موتور جستجو ساخت بلاخره پی اچ پی هم یک زبان تحت وب هست و موتور ها معمولا تحت وب .
اگر بخواهید بلند مدت نگاه کنید و امکانات خاصی از زبان انتظار دارید باید برید سمت یک زبان دیگه که برای کار شما مناسب باشه ، بلاخره هر زبانی را بهر کاری ساختند .:لبخند:
n0o0b_sina
پنج شنبه 07 اسفند 1393, 09:34 صبح
میدونم بیشتر جاها نوشته بودن python مناسبه، ربات گوگل هم از python استفاده میکنه!
ببینید فرض کنید من یه سایت جدید ایجاد کردم بدون حتی 1 تبلیغ!!! این موتورهای جستجو از کجا سایته منو پیدا میکنن؟! این اصلا منطقی نیست که از سایتای دیگ لینک رو بگیره، چون مثلا همین موتور جستجوی ایرانی که تازه تاسیس شده از کجا این همه سایت رو ایندکس کرده؟!
MMSHFE
پنج شنبه 07 اسفند 1393, 10:18 صبح
دوست عزیز، سایتهایی مثل dmoz یا yahoo directory و... هستن که سایتها توی اونها توسط وب مسترها لینک میشن. گوگل با کمک پنجره Search که توی firefox داره و با همکاری مرورگرهایی مثل Chrome خودش میتونه به سایتهایی که مشاهده میکنید دسترسی پیدا کنه (لزوماً نه با این هدف که جاسوسی کنه بلکه صرفاً به این منظور که سایتها رو به دیتابیس خودش اضافه کنه). گوگل به سرورهای DNS پول میده تا آمار DNS Lookup Record های خودشون رو بهش بفروشن. مثلاً شما هاست میخرین، ممکنه سرویس دهنده هاست شما پول بگیره و آدرس سایتهایی که روش هست رو به گوگل بفروشه. امضای شما توی صفحات سایتهایی مثل برنامه نویس و... خونده میشه. کلی راههای دیگه هم هست مثل نوشتن Toolbar برای مرورگرها یا باگهای مرورگرهایی مثل IE و... که یک موتور جستجوی غول مثل گوگل از همه استفاده میکنه و اینطوریه که میشه گوگل (معنی گوگل یعنی یک عدد 1 با صد صفر جلوش!).
freeman99
پنج شنبه 07 اسفند 1393, 10:28 صبح
میدونم بیشتر جاها نوشته بودن python مناسبه، ربات گوگل هم از python استفاده میکنه!
یه چیزی به عظمت گوگل بعید میدونم فقط از پایتون استفاده کنه. احتمالا در بعضی بخشها که نیاز به پرفورمنس بالا دارن از زبانهایی مثل سی++ هم استفاده کردن. ولی منطق و عملیات سطح بالاش که نیازی به پرفورمنس حداکثری نداره احتمالا با همون پایتون و اینا باشه.
بهرحال یه موتور جستجو و روبات اونم در حد گوگل چیز ساده و کم حجمی نیست و لایه های مختلفی داره. مثلا یه بخشش اینه که میره توی سایتها گشت میزنه، ولی بخشهایی دیگری هم داره، مثلا ذخیره سازی و سرچ و آپدیت در دیتابیس و غیره.
MMSHFE
پنج شنبه 07 اسفند 1393, 10:30 صبح
گوگل جدا از پایتون یه زبان داره به اسم GWT یا Google Web Toolkit که کارهای اصلیش رو با اون انجام میده.
freeman99
پنج شنبه 07 اسفند 1393, 10:37 صبح
باوجود تمام تبحر و قدرت موتورهای جستجو، با روشهایی که مهندس شهرکی اشاره کرد، درواقع بخش بزرگی از اطلاعات وب در دسترس موتورهای جستجو نیست. این بخش درواقع چند ده برابر وب مرئی برای موتورهای جستجو است!
مقالهء ویکیپدیا در این مورد: https://en.wikipedia.org/wiki/Deep_Web
البته وقتی شما میگید صفحات وب، مفهومش با چیزی که ما میگیم، یعنی اطلاعات موجود در وب بطور کلی، تفاوت میکنه، چون همهء اطلاعات که لزوما بصورت یک صفحهء خاص و دارای دسترسی از طریق لینک مستقیم نیست (مثلا موقعی که با استفاده از یک فرم اطلاعاتی رو سرچ میکنید که توی اون سایت هست اما صفحه و لینک مستقیمی برای نتایج جستجوی خاصی لزوما وجود نداره).
n0o0b_sina
پنج شنبه 07 اسفند 1393, 10:50 صبح
میشه اینم "yooz.ir" توضیح بدید که از کجا 1 میلیار صفحه (به گفته خودشون) ایندکس کرده و هر روزم بیشتر داره ایندکس میکنه؟
freeman99
پنج شنبه 07 اسفند 1393, 11:09 صبح
اینا بیشترش با لینکه دیگه. از یک یا چندجا شروع میکنه، ممکنه این نقاط شروع رو بصورت دستی بهش بدن، بعد میره و به هر لینک میرسه چه توی اون سایت باشه چه توی سایت دیگه دنبال میکنه و همینطوری آدرس سایتها و صفحات رو ایندکس میکنه.
اصلا وب یعنی چی؟
web به انگلیسی یعنی تار عنکبوت. چرا؟ چون مثل تار عنکبوت همینطور اسناد/صفحات و سایتها به هم لینک دادن و متصل هستن. شما از هرجای این تار عنکبوت که شروع کنید و اونجا رو نقطهء شروع خودتون قرار بدید و همینطور سر نخ ها/تارها یا همون لینک ها رو بگیرید و دنبال کنید نهایتا از تمام تارها و نقاط عبور میکنید، چون همهء نقاط به هم وصل هستن. البته الگوریتم جستجو هم هوشمندی و نکات خاص خودش رو داره که مثلا جاهایی که قبلا رفته رو میدونه و از افتادن در loop پیشگیری میکنه (مثلا از یه لینک بره به سایت دیگری که اون سایت دوباره به همون سایت و صفحهء قبلی لینک داده، روبات نباید توی این حلقه بینهایت گیر بیفته) و این حرفا.
freeman99
پنج شنبه 07 اسفند 1393, 11:14 صبح
مثلا روبات بیاد توی همین فروم شونصدهزارتا تا سایت و لینک دیگه توش پیدا میکنه. بعد بره توی هر کدام از اون شونصدهزارتا سایت و لینک دیگه دوباره آدرس شونصدتا سایت و لینک دیگه رو پیدا میکنه. به همین ترتیب تقریبا هیچ سایت و لینکی در نهایت باقی نمیمونه که در دسترس روبات قرار نگیره. روبات همینطور فقط باید مسیرها رو دنبال و نقاط و آدرسها و سایتها و لینک هایی رو که پیدا میکنه رو در دیتابیس خودش ثبت کنه. ممکنه به یک لینک در اون سایت دیگری که میره، دوباره یک لینک باشه به همین سایت برنامه نویس ولی لینکی که روبات قبلا در خود سایت برنامه نویس ندیده، بنابراین روبات باید این رو تشخیص بده و دوباره، حالا هروقت که نوبت طبق الگوریتم بهش رسید، برگرده و محتویات اون لینک رو هم چک کنه و ایندکس کنه و اگر سایت و لینک جدید دیگری درش بود اونا رو هم دنبال کنه.
البته این کارها به حرف ساده است اما در عمل مسائل جزیی و نکات زیادی داره بنظر بنده. یکیش از نظر بهینه سازی، چون بهرحال تعداد و عمق این لینک ها بسیار زیاده و همزمان هم که نمیشه تعداد خیلی زیادی رو fetch و پردازش کرد (البته گوگل میتونه چون سرورهای زیاد و قدرتمندی داره)، و واکشی هر صفحه هم که زمان میبره و ممکنه در مواقعی یکسری خطاهایی پیش بیاد سایت هدف داون یا تحت بار شدید باشه و درست جواب نده و غیره، پس اینا باید طبق یک الگوریتمی اولویت بندی و برنامه ریزی و پیشبینی بشن و هوشمند عمل کنه. مثلا هر لینک رو اول تا چه عمقی دنبال کنه و تا چه تعداد سایت یا لینک دیگر رو که در مسیر بهشون میرسه fetch کنه، با چه هزینه هایی چه حداکثر زمانی چه پردازش و حجمی، و چه وقت بره سراغ لینک های سطح اول دیگری که در صف قرار گرفتن. اینا همه دانش و تحلیل و منطق و اصول میخواد اگر بخواد یک موتور جستجوی قوی و حرفه ای باشه و حجم زیادی از وب رو جستجو و ایندکس کنه.
بعد مسائل آپدیت هست. مثلا هر چند وقت یک بار بر اساس چه معیاری سر بزنه ببینه کدوم سایت کدوم لینک ها کدوم فایلها هنوز سرجاشون هستن و آیا تغییری کردن و یا نه و چه تغییری چقدر چطوری و آیا هنوز با اطلاعات قبلی هم میشه ربطشون داد یا نه و غیره (مسائل مربوط به رتبه بندی و page ranking و اینها). منبع تا منبع میتونه فرق کنه. مثلا یک فایل استاتیک HTML رو آیا باید فرق بذاریم با صفحهء PHP، یک عکس رو با چیز دیگه، و اصلا چطور آیا میشه و درسته اینا رو با چه معیاری از هم تفکیک کنیم، برای هرکدام در چه دوره زمانی ای بازدید و چک مجدد بشن، دستورات کش ارسال شده از طرف سرورها در این موارد در نظر گرفته بشن، آیا صفحهء اول یا تا عمق فلان با صفحات درونی تر و یا کم لینک تر تفاوت بذاریم و خلاصه خیلی هوشمندی ها و منطق میشه در این موتورهای جستجو و روبات هاشون درنظر گرفت که حتما امثال گوگل خیلی از این بند و بساط ها و جزییات در درون موتورهای جستجو/روبات های خودشون دارن!
n0o0b_sina
پنج شنبه 07 اسفند 1393, 11:26 صبح
چی بگم، به نظر من این روش زیاد منطقی نیومد واسه همین سوال کردم! توی درباره ما موتور جستجوی یوز نوشته نخبه ها و محقق های بهترین دانشگاه های کشور گفتم حتما روش خاصی داره و این روش چقدر پیچیده و سختی داره :| اینو که اگه یکی باشه شکممونو پر کنه و هزینه سرورهارو بده میتونیم بزنیم :| تجزیه تحلیل html هم که خیلی سادست
خسته نباشید برادرا
freeman99
پنج شنبه 07 اسفند 1393, 11:31 صبح
چی بگم، به نظر من این روش زیاد منطقی نیومد واسه همین سوال کردم! توی درباره ما موتور جستجوی یوز نوشته نخبه ها و محقق های بهترین دانشگاه های کشور گفتم حتما روش خاصی داره و این روش چقدر پیچیده و سختی داره :| اینو که اگه یکی باشه شکممونو پر کنه و هزینه سرورهارو بده میتونیم بزنیم :| تجزیه تحلیل html هم که خیلی سادست
خسته نباشید برادرا
جزییاتی رو که بنده گفتم و تازه اینا فقط یکسری موارد کلی بود که بالبداهه در عرض همین چند دقیقه به ذهن منی که تاحالا روبات و موتور جستجو ننوشتم و درموردش تخصص ندارم رسید بخونید و دقت کنید. اینا رو با مقیاس بزرگی که کار باید درش انجام بشه جمع کنید که کلی مسائل بهینه سازی و کلاسترینگ و توزیع شدگی و در دسترس بودن دائمی و بلاانقطاع و redundancy و reliability و فلان و فلان در کارهای جدی و بزرگ رو هم باید درنظر گرفت و طراحی و پیاده سازی کرد در خودش داره.
اونوقت متوجه میشید که در مجموع این یک کار بزرگ و کاملا حرفه ای خواهد بود.
البته بنده معمولا به تدریج در همون زمان پستهام رو ویرایش میکنم و مطالبی رو اضافه و ویرایش میکنم که شاید به همین علت همهء مطالب و جزییاتی رو که اشاره کردم ندیدید.
برای پیاده سازی یک موتور جستجوی بزرگ و حرفه ای نیاز به دانش و مهارت های گسترده ای هست و برنامه نویسان نخبه در سطوح مختلف میخواد. شما باید خیلی چیزها بدونید و در چند سطح کار کنید. مثلا باید به پروتکل های مختلف بخصوص HTTP احاطه داشته باشید. به گمانم باید در بهینه سازی در زبانهای سطح بالا و پایین هم دانش و مهارت خوبی داشته باشید. در مسائل توزیع کردن و کلاسترینگ و Load balance و این حرفها.
اینا کجاش کار کم و ساده ایه؟!
بله کلیت و روش و قدم اول و پایه ساده است، ولی مقیاس و جزییات و هوشمندی و منطق و تمهیدات مورد نیاز در نهایت خیلی زیاده.
موتورهای جستجوی موفقی مثل گوگل هم به مرور رشد پیدا کردن و به تکامل رسیدن. بنظر من الگوریتم و برنامه های بسیار حجیم و پیچیده ای باید داشته باشن و موارد خاص و موردی زیادی هم درشون لحاظ شده، و با این حال باید نظارت و کمک انسانی هم همواره درشون وجود داشته باشه. البته الان کسی بخواد موتور جستجو بنویسه کارش طبیعتا راحت تره، چون قبلا این راه توسط دیگران رفته شده و به تکامل رسیده و خیلی ابزارها و نکات و جزییات و تجربه ها در دسترس دیگران قرار گرفته.
-سیّد-
پنج شنبه 13 فروردین 1394, 16:39 عصر
سلام
من از نیروهای فنی تیم موتور یوز هستم.
دوستان چند وقتی ذهنم مشغول این موضوع شده و هر چقدرم سرچ کردم به نتیجه ای نرسیدم. موتورهای جستجویی مثل گوگل یا یاهو و... یا موتورهای جستجوری ایرانی مانند "یوز" که تازه رو نمایی شده، نحوه کارشون به چه صورته؟ یعنی وبسایت هارو از کجا پیدا میکنن؟ البته نحوه جستجوشون با تجزیه تحلیل کدهای HTML هست ولی نحوه ی پیدا کردم وبسایت هارو و مخصوصا تمام صفحات اون وبسایت رو نفهمیدم! چند جا خودم که با پیدا کردم href تگ a در html صفحه هارو پیدا میکنه ولی ممکنه همه ی صفحه ها با تگ لینک به هم وصل نشده باشد. در کل ممنون میشم به این 2 تا سوال پاسخ بدید چون مطمئنم برای خیلی از دوستان مفیده و باعث افزایش اطلاعاتشون میشه.
1- نحوه پیدا کردن وبسایت های تازیه تاسیس شده یا کلا همه ی وبسایت ها
2- نحوه یافتن تمام صفحات آن وبسایت
3- آیا php برای نوشتن ربات جستجو که نحوه کارش در سوالات بالا شرح داده شد (توسط شما) مناسبه یا باید از زبان های جامع تر مثله python یا java استفاده کنیم؟
پ.ن: دوستان سوالاته من تنها برای افزایش اطلاعاتمه و هیچ قصدی مثله راه اندازی موتور جستجو یا ... ندارم.
ممنون
خوب دوستان تقریباً جواب دادن. من فقط برای تکمیل بحث عرض میکنم:
یه موتور جستجو برای کشف صفحات از روشهای مختلفی میتونه استفاده کنه که معروفترینش (همونطور که دوستان به خوبی اشاره کردن) پیمایش صفحه به صفحه هست (کلمات web و spider و خود crawler به خاطر همین روش به کار میرن). توجه کنید که لینک فقط تگ a به همراه href نیست. خیلی چیزای دیگه هم لینک هستن که باید بررسی بشن (مثلاً img:src یا script:src، البته اینا به صفحات معمولی وب اشاره نمیکنن ولی بالاخره لینک هستن و توی گراف وب اهمیت دارن).
یه راه دیگه، که باز هم دوستان اشاره کردن، گرفتن آمار از جاهای مختلف هست. مثلاً گوگل با شرکت (فکر میکنم) parallels قرارداد داره که هر دامنهای رو شما توی parallels ثبت میکنید، بلافاصله به گوگل اطلاع میده. یا مثلاً از طریق وبمستر تولز به گوگل اطلاع میدید. یا مثلاً توی chrome به محض این که یه آدرس رو تایپ میکنید، برای گوگل فرستاده میشه (برای همین میتونه برای شما آدرس هایی رو که تا به حال از طریق chrome بهشون سر نزدید auto-complete کنه). یا مثلاً از طریق DNS خود گوگل (به آدرس 8.8.8.8).
ولی روش اصلی همون روش پیمایش هست. این روشهای دیگه فقط کمک میکنن.
همهی اینایی که گفتم رو تقریباً دوستان اشاره کرده بودن، من فقط جمعبندی کردم.
در مورد این که آیا php برای نوشتن یه خزشگر مناسبه یا نه:
بستگی به scale کارتون داره. اگه فقط میخواین یه خزشگر داشته باشین که آروم آروم کار کنه و جلو بره، میشه با php نوشت و اصلاً کار سختی نیست (البته هر چقدر بخواین بهش قابلیت اضافه کنید، کارتون سختتر میشه). ولی اگه میخواین توی scale بزرگ فکر کنید (مثلاً بالای ۱۰۰ میلیون صفحه)، php اصلاً برای این کار مناسب نیست. چرا؟ چون php برای این کار ساخته نشده. اگر facebook رو به عنوان سردستهی استفاده کنندگان از php فرض کنیم، میبینیم که خود facebook فقط برای UI از PHP استفاده میکنه و پشت سیستم برای همچین کارهایی از زبونهایی مثل جاوا و فریمورکهایی مثل hadoop استفاده میکنه. چون اصلاً توی scale بالا نمیصرفه بخواین با php یه همچین چیزی بسازین. python هم همچنین. معمولاً برای کارهایی در این ابعاد از زبانهایی مثل جاوا و دات نت استفاده میکنن، یا اگه خیلی خفن باشن و توانایی فنیاش رو داشته باشن، از ++C استفاده میکنن (مثل گوگل).
گوگل جدا از پایتون یه زبان داره به اسم GWT یا Google Web Toolkit که کارهای اصلیش رو با اون انجام میده.
البته این خیلی درست نیست. GWT یه زبون نیست، یه مجموعهی کمکی هست که میشه باهاش ژانگولرهای UI رو (در قالب جاوا اسکریپت) راحتتر و در زبان جاوا انجام داد. ویکیپدیا:
https://en.wikipedia.org/wiki/Google_Web_Toolkit
در نتیجه کارهای داخلی گوگل (مثل خزش کردن وب، یا نمایهگذاری (indexing) صفحات) ارتباطی به GWT نداره.
چی بگم، به نظر من این روش زیاد منطقی نیومد واسه همین سوال کردم! توی درباره ما موتور جستجوی یوز نوشته نخبه ها و محقق های بهترین دانشگاه های کشور گفتم حتما روش خاصی داره و این روش چقدر پیچیده و سختی داره :| اینو که اگه یکی باشه شکممونو پر کنه و هزینه سرورهارو بده میتونیم بزنیم :| تجزیه تحلیل html هم که خیلی سادست
خسته نباشید برادرا
همونطور که دوستمون اشاره کردن، انقدا هم که فکر میکنید ساده نیست! آقای freeman99 بسیار خوب توضیح دادند (یه لحظه شک کردم از بچههای تیم خودمون باشن! :) ) :
جزییاتی رو که بنده گفتم و تازه اینا فقط یکسری موارد کلی بود که بالبداهه در عرض همین چند دقیقه به ذهن منی که تاحالا روبات و موتور جستجو ننوشتم و درموردش تخصص ندارم رسید بخونید و دقت کنید. اینا رو با مقیاس بزرگی که کار باید درش انجام بشه جمع کنید که کلی مسائل بهینه سازی و کلاسترینگ و توزیع شدگی و در دسترس بودن دائمی و بلاانقطاع و redundancy و reliability و فلان و فلان در کارهای جدی و بزرگ رو هم باید درنظر گرفت و طراحی و پیاده سازی کرد در خودش داره.
اونوقت متوجه میشید که در مجموع این یک کار بزرگ و کاملا حرفه ای خواهد بود.
البته بنده معمولا به تدریج در همون زمان پستهام رو ویرایش میکنم و مطالبی رو اضافه و ویرایش میکنم که شاید به همین علت همهء مطالب و جزییاتی رو که اشاره کردم ندیدید.
برای پیاده سازی یک موتور جستجوی بزرگ و حرفه ای نیاز به دانش و مهارت های گسترده ای هست و برنامه نویسان نخبه در سطوح مختلف میخواد. شما باید خیلی چیزها بدونید و در چند سطح کار کنید. مثلا باید به پروتکل های مختلف بخصوص HTTP احاطه داشته باشید. به گمانم باید در بهینه سازی در زبانهای سطح بالا و پایین هم دانش و مهارت خوبی داشته باشید. در مسائل توزیع کردن و کلاسترینگ و Load balance و این حرفها.
اینا کجاش کار کم و ساده ایه؟!
بله کلیت و روش و قدم اول و پایه ساده است، ولی مقیاس و جزییات و هوشمندی و منطق و تمهیدات مورد نیاز در نهایت خیلی زیاده.
موتورهای جستجوی موفقی مثل گوگل هم به مرور رشد پیدا کردن و به تکامل رسیدن. بنظر من الگوریتم و برنامه های بسیار حجیم و پیچیده ای باید داشته باشن و موارد خاص و موردی زیادی هم درشون لحاظ شده، و با این حال باید نظارت و کمک انسانی هم همواره درشون وجود داشته باشه. البته الان کسی بخواد موتور جستجو بنویسه کارش طبیعتا راحت تره، چون قبلا این راه توسط دیگران رفته شده و به تکامل رسیده و خیلی ابزارها و نکات و جزییات و تجربه ها در دسترس دیگران قرار گرفته.
کاملاً درست میفرمایید و ما توی موتور یوز با همهی این مسائل درگیر هستیم. یعنی کار به خاطر scale بالا توزیع شده هست، scalable هست، fault-tolerant هست، سیستم کاملاً realtime هست (از خزش تا پیدا شدن صفحه در نتایج جستجو حدوداً یک دقیقه طول میکشه)، و بقیهی چیزایی که اشاره کردید.
شما فقط در نظر بگیرید که یک میلیارد صفحه دارید، که باید update هم بشن (البته با rate های مختلف)، صفحات جدید هم باید خزش بشن. پهنای باندتون هم بالاخره محدود هست. پس باید بتونید از بین این صفحات بهترینها رو انتخاب کنید. در ضمن باید حواستون به politeness هم باشه! نمیتونید یه دفعه بریزید سر یه سایت و ازش هزار تا صفحه بگیرید! خزشگر باید برنامهریزی شده حرکت کنه و آروم آروم صفحات یه سایت رو بگیره.
از طرف دیگه درگیر یه سری مسائل میشید، مثلاً این که یه سایتی به هر دلیلی تو یه بازه به شما اصلاً جواب نمیده، بعد از یه مدت درست میشه.
یا یه سایتی توی robots.txt به شما میگه شما حق ندارید با rate بیش از یک بار در هر ده ثانیه به من سر بزنید! خوب خزشگر بدبخت چطوری میتونه از این سایت مثلاً یک میلیون صفحه بگیره؟! حساب کن ببین چقدر طول میکشه!
یا مثلاً توی بحثهای HTTP، مثلاً در مورد redirect ها، چند جور redirect داریم. یکی ۳۰۱، یکی ۳۰۲، یکی با meta، یکی با جاوا اسکریپت! شما باید بتونید همهی اینا رو درست handle کنید. بعد تازه این که redirect آیا همیشه اوکی هست؟ من میام یه سایت میسازم توش مزخرف مینویسم، بعد redirect میکنم به ویکیپدیا! آیا ویکیپدیا باید از redirect ای که از من گرفته، توی سیستم من اثر بگیره؟
بعد اون طرف توی بحث parse کردن، فکر نکنید همینطوری میزنیم صفحهی HTML پارس میشه! انواع و اقسام صفحهی HTML توی وب هست که از نظر syntax مشکل دارن! شما باید بتونید همهی اینا رو handle کنید. مثلاً بعضی سایتها ۲ تا تگ title دارن! (حتی بعضیا ۳ تا دارن!!!) یا مثلاً یه تگی رو باز کردن و نبستن! اینا همه مثالهایی هستن که ریز ریز هستن، ولی تعدادشون خیلی زیاده!
یه نکته در مورد جملهی آخرتون:
«البته الان کسی بخواد موتور جستجو بنویسه کارش طبیعتا راحت تره، چون قبلا این راه توسط دیگران رفته شده و به تکامل رسیده و خیلی ابزارها و نکات و جزییات و تجربه ها در دسترس دیگران قرار گرفته.»
کلیت حرفتون درسته. حتی اگه به سختافزارها نگاه کنید، الان بسیار پیشرفتهتر شدن و نگهداری کمتری نسبت به ۱۷ سال پیش که گوگل کارشو شروع کرد نیاز دارن.
ولی یه نکتهی دیگه که هست اینه که در کنار این که ابزارهای این کار تکامل پیدا کردن و در دسترس هستن، وب هم به شدت پیشرفت کرده و بسیاری مسائل جدید به وجود اومده. همچنین اندازهی کار به شدت بالا رفته! ابتدای کار گوگل فکر میکنید چند صفحه index کرده بود؟ یعنی از نظر حجمی، الان یوز با یک میلیارد صفحه از گوگل اولیه جلوتر هست!
خلاصهی حرفم اینه که این یک trade-off هست. هر چقدر ابزارها پیشرفت میکنن، مسائل هم پیچیدهتر میشه. از طرفی معمولاً ابزارهای open-source جواب کار رو توی scale بالا نمیدن. این اتفاق دقیقاً در مورد یوز افتاده. ما اول کار (حدود ۵ سال پیش) که شروع کردیم، اول به سراغ ابزارهای متن باز رفتیم. ولی هیچ کدوم از اونا جواب کار ما رو نمیداد (ما از اول برای میلیاردها صفحه برنامهریزی کردیم). برای همین ما توی بخش index مون، ۳ بار معماریمون رو عوض کردیم تا به این معماری رسیدیم و مجبور شدیم خودمون خیلی از بخشها رو پیادهسازی کنیم.
امیدوارم ابهامی باقی نمونده باشه. اگه سؤالی هست تا جایی که وقتم اجازه بده در خدمتم.
m.esmaeilzadeh
شنبه 15 فروردین 1394, 11:24 صبح
کاملاً درست میفرمایید و ما توی موتور یوز با همهی این مسائل درگیر هستیم. یعنی کار به خاطر scale بالا توزیع شده هست، scalable هست، fault-tolerant هست، سیستم کاملاً realtime هست (از خزش تا پیدا شدن صفحه در نتایج جستجو حدوداً یک دقیقه طول میکشه)، و بقیهی چیزایی که اشاره کردید.
موتور جستجو realtime ؟ کلا مفهوم موتور جستجو و بحث index و cache رو زیر سوال بردی ؟!؟!؟!؟
عجب ......
MMSHFE
شنبه 15 فروردین 1394, 11:39 صبح
البته این خیلی درست نیست. GWT یه زبون نیست، یه مجموعهی کمکی هست که میشه باهاش ژانگولرهای UI رو (در قالب جاوا اسکریپت) راحتتر و در زبان جاوا انجام داد. ویکیپدیا:
https://en.wikipedia.org/wiki/Google_Web_Toolkit
در نتیجه کارهای داخلی گوگل (مثل خزش کردن وب، یا نمایهگذاری (indexing) صفحات) ارتباطی به GWT نداره.
مطمئن باشین گوگل خیلی از جزئیات کاری خودش رو نمیگذاره توی ویکیپدیا منتشر بشن. اینکه گوگل بخشهایی از GWT رو بطور عمومی منتشر نکرده، موضوع واضحیه که اگه یکم به سیاستهای شرکتهای بزرگ دقت کنید، متوجهش میشین. البته من خودم توی چت با یکی از کارمندان سابقشون متوجه این مسئله شدم.
-سیّد-
شنبه 15 فروردین 1394, 22:38 عصر
موتور جستجو realtime ؟ کلا مفهوم موتور جستجو و بحث index و cache رو زیر سوال بردی ؟!؟!؟!؟
عجب ......
ببخشید متوجه منظورتون نشدم. چطوری من مفهوم موتور جستجو رو زیر سؤال بردم؟
همونطور که توی پرانتز نوشتم، «از خزش تا پیدا شدن صفحه در نتایج جستجو حدوداً یک دقیقه طول میکشه».
realtime اینجا در مقابل batch هست. موتورهای جستجویی که batch هستن، صفحات جدید خزش شده رو توی یه index مجزا ذخیره میکنن، و جستجوهای کاربران رو از یه index دیگه جواب میدن. بعد به صورت دورهای (مثلاً هر هفته، یا هر شب) جای این دو تا index رو با هم عوض میکنن. در نتیجه اگه مثلاً هر شب این کار انجام بشه، صفحات خزش شده در یک روز، در روز بعد توی index اصلی قرار گرفته و در نتیجه قابل جستجو میشن.
اما موتورهای realtime به این صورت کار نمیکنن. به عنوان مثال در موتور یوز هر صفحه وقتی خزش میشه، به طور متوسط حدود یک دقیقه طول میکشه تا قابل جستجو بشه (توجه کنید که این صفحات شامل update ها هم میشن، یعنی از زمانی که یه صفحه update میشه، بعد از مدت زمانی که خزشگر متوجه update شدنش میشه و مجدداً میگیرش، حدود یک دقیقه بعد توی index هم update میشه و در نتیجه توی نتایج جستجو هم update میشه).
قابل ذکره که گوگل از ابتدای کار (۱۷ سال پیش) به صورت batch کار میکرد و ذره ذره به سمت realtime رفت، و الان نزدیک ۴ سال هست که کاملاً realtime شده.
ما هم از ابتدای کار بنا رو بر realtime بودن گذاشتیم که البته یکی از دلایلی که پروژه بیش از ۴ سال طول کشید تا به مرحلهی بهرهبرداری بود، همین قابلیتهایی هست که از اول توش دیده بودیم. یعنی اگه از اول میخواستیم یه موتور batch داشته باشیم که مثلاً ۵۰ میلیون صفحه رو توش جا بدیم، قطعاً خیلی سریعتر از این به نتیجه میرسید. چون وقتی شما بعضی از مشخصات سیستم رو عوض میکنید، بخشهایی از معماری کلاً عوض میشن. مثلاً همین تعداد صفحات، اگه قرار بود عددای چند ده میلیونی باشه، اصلاً نیازی به استفاده از سیستمهای توزیع شده نبود و میشد خیلی راحتتر handle اش کرد. ولی به محض این که میخواستیم بریم بالاتر (مثلاً یک میلیارد الان)، باید معماری رو زیر و رو میکردیم. برای همین از اول به فکر scale بالا بودیم و الان تا حد بسیار خوبی تونستیم این مسئله رو برآورده کنیم. معماری فعلی ما بهمون اجازه میده که به راحتی تا ۱۰ میلیارد صفحه رو پشتیبانی کنیم (البته این عدد رو خیلی مطمئن حساب کردم، اگه از روی تئوری بخوام بگم تا ۴۰ میلیارد هم میشه بالا بره، ولی تجربه نشون داده توی عمل مشکلاتی پیش میاد که معمولاً آدم به عددای تئوری نمیرسه).
این رو هم بگم که منظورم این نیست که ما تونستیم دقیقاً کاری رو که گوگل کرده بکنیم! قطعاً scale گوگل از ما خیلی بالاتر هست و توی اون scale مسائل دیگهای پیش میاد که ما هنوز بهش برخورد نکردیم.
اگه هنوز ابهامی مونده خوشحال میشم دربارهاش بحث کنیم.
vBulletin® v4.2.5, Copyright ©2000-1403, Jelsoft Enterprises Ltd.