PDA

View Full Version : فراخوان ایجاد یک موتور جستجوی داخلی



sourceweb
یک شنبه 10 اسفند 1393, 19:02 عصر
با درود و احترام فراوان
دوستان عزیز و گرامی بنده قصد دارم برنامه نویسی یک موتور جستجوی کاملا اختصاصی رو شروع کنم
ممکنه در اوایل خیلی پیشرفته نباشه و ... اما مطمئننا در ادامه مطمئناحرفی برای گفتن خواهیم داشت
از اونجایی که موتور جستجو نیازمند تفکرات دست جمعی و برنامه نویسی چند گانه هست بنده از دوستانی که واقعا تحت وب مسلط هستن به برنامه نویسی و دوست دارن در این ضمینه به بنده کمک کنن و درنهایت در لیست سازندگان این موتورجستجو قرار بگیرن میتونن از طریق خصوصی با من در ارتباط باشن تا راه های ارتباطی رو شرح بدم براشون
دوستان اینو هم بگم که هرکس میخواد کمک کنه باید بدون هیچ چشم داشتی بیاد جلو چون بنده بودجه ای ندارم و یک کار دولتی هم نیست که بخوام حقوق بدم یا بدن
بهرحال مطمئنا در آینده خیلی خوب میشه برای ما(سازندگانش)

منتظرم دوستان نظراتشونو بگن و از طریق خصوصی درارتباط باشن
درضمن اینو هم بگم که تاحالا تمام موتور های جستجوی ایرانی که فقط اسمشون ایرانیه نتایجشونو از یاهو بینگ و گوگل دریافت میکنن و به هیچ عنوان اختصاصی نیستن
پس بیاید یه موتورجستجوگر قدرتمند ایرانی اختصاصی بنویسیم
به امید دیدار
یا حق

white tower
یک شنبه 10 اسفند 1393, 21:04 عصر
فکر قشنگیه.قبل از شروع کار یه نگاه به جیبت بنداز.از روی تجربه عرض کردم.

ravand
دوشنبه 11 اسفند 1393, 07:42 صبح
شما که میخوای یه موتور جستجوگر بومی بسازی این همه اطلاعات رو میخوای کجا ذخیره کنی؟ کلی هزینه ی هاستش هست! چقدر میخوای هزینه کنی؟ هر روز خدا باید فضای هاست رو ، پهنای باند رو باید افزایش بدی.

sourceweb
دوشنبه 11 اسفند 1393, 11:07 صبح
از لحاظ سرور مشکلی نیست خیالتون راحت
دوستان خوشحال میشم پیشنهاداتتونو میشنوم

ravand
دوشنبه 11 اسفند 1393, 12:41 عصر
من همیشه دوست داشتم یه موتور جستجوگر بسازم که فقط دارای مطالب آموزشی و بدرد بخور باشه. الان این توی گوگل وقتی جستجو میکنی به جای مثلا اموزش به مطالب تبلیغاتی برخورد میکنی. برای همین میگم اطلاعات سایت هایی که توی موتور جستجوگر شما قراره ثبت بشه خودتون تایید کنید بهتره. نمیدونم شایدم کار سختی و وقت گیری باشه. ولی حالا هر چی هست باید مطالب سایت هایی که مطلب درست و حسابی ندارن و تبلیغاتی هستن حذف بشه.

MMSHFE
دوشنبه 11 اسفند 1393, 14:32 عصر
میشه امکان Report کردن لینکهای تبلیغاتی و... رو به سیستم اضافه کرد.

prans.info
دوشنبه 11 اسفند 1393, 15:51 عصر
باید یک سیستم رتبه بندی سایت ها داشته باشید و در ابتدای کار خوتون به سایت های معروف رتبه بدید بعد هم با توجه به کلیک ها و موارد دیگه رتبه بندی رو آپدیت کنید

sourceweb
دوشنبه 11 اسفند 1393, 20:01 عصر
درحال حاظر اصلی ترین مشکل بنده خزنده ی موتور جستجو هست که سایت هارو پیدا کنه و وارد دیتابیس کنه و آپدیت سایت هایی که وارد دیتابیس شده !

rambod18
دوشنبه 11 اسفند 1393, 20:22 عصر
ایده ای داری در این مورد؟

firebox
دوشنبه 11 اسفند 1393, 20:47 عصر
به نظر من ساخت موتور جستجوگر با وجود سرمایه کار عقلانی ای نیست ، چه برسه بدون داشتن سرمایه !

قصد نا امید کردنتون رو ندارم ، برای رسیدن به امکانات پایه موتورهای جستجوگر چند سال زمان میبره (اونم هم در صورتی که تیم مجرب و سرمایه کافی داشته باشی)

از نظر تئوری شاید ساختن موتور جستجوگر کار دشواری نباشه ، مبنای همه موتورهای جستجوگر اینه که یک خزنده میره بین سایت های میچرخه اطلاعات سایت ها رو تو یک دیتابس ذخیره میکنه و بعد به کاربرها این امکان رو میده که بین اون داده های جستجو کنن.

اما در عمل مشکلات زیادی وجود داره ، چطور سایت های رو به اساس ارتباط شون به موضوع نمایش بدیم ، چطور محتوای مرتبط رو نشون بدیم ، چطور سایت های اسپمر رو شناسایی کنیم (کاری که هنوز گوگل هم تو سایت های فارسی نتونسته انجام بده / یا اصلا نخواسته :دی) ، چطور مفهوم یک مطلب رو درک نه و.... حالا مشکلاتی مثل مدیریت داده های با حجم بالا و سرعت جستجو و.. نگفتم.

sourceweb
دوشنبه 11 اسفند 1393, 21:05 عصر
خب دوست عزیز
تمام اینهایی که گفتید رو گوگل یه شبه که انجام نداده
25 سال طول کشیده
منم نمیخوام یک شبه انجام بدم
هنگامی که گوگل تشکیل شد حتی دیتابیس نداشت و اطلاعات روی هارد سیستم خودشون ذخیره میشد !
بهرحال من فقط میخوام برای ایران کاری کرده باشم

در مورد خزنده هم باید بگم تا حالا تونستم چیزی بنویسم
که بهش یک ادرس بدی اون خزنده بره به اون اردس و تمام لینک هایی که تو تمام صفحاتش هست رو لیست میکنه + تایتل و کلمه کلیدی و توضیحات + لینک های سایت های دیگری که توی اون سایت وجود داشت + تایتیل و توضیحات و کلمه های کلیدی رو پیدا میکنه و وارد دیتابیس میکنه
باید حدودا بگم خزنده ش داره به یه جاهایی میرسه
اما در مورد اینکه چطور این همه سایت آپدیت بشه و یا اینکه برای اینکه این خزنده کار کنه نیازه تا یک ادرس بهش داده بشه ولی تعداد محدودی صفحه از اون ادرس میتونه وارد دیتابیسش کنه
اما من میخوام طوری باشه که تمام سایت ها رو جستجو کنه اون خزنده

بازم میگم مشکل اساسی من یکی خزنده ش هست که باز یکم انجامش دادم و اینکه سایت هایی که وارد دیتابیس شده چطور دوباره محتویاتش آپدیت بشه

n0o0b_sina
دوشنبه 11 اسفند 1393, 21:21 عصر
خب دوست عزیز
تمام اینهایی که گفتید رو گوگل یه شبه که انجام نداده
25 سال طول کشیده
منم نمیخوام یک شبه انجام بدم
هنگامی که گوگل تشکیل شد حتی دیتابیس نداشت و اطلاعات روی هارد سیستم خودشون ذخیره میشد !
بهرحال من فقط میخوام برای ایران کاری کرده باشم

در مورد خزنده هم باید بگم تا حالا تونستم چیزی بنویسم
که بهش یک ادرس بدی اون خزنده بره به اون اردس و تمام لینک هایی که تو تمام صفحاتش هست رو لیست میکنه + تایتل و کلمه کلیدی و توضیحات + لینک های سایت های دیگری که توی اون سایت وجود داشت + تایتیل و توضیحات و کلمه های کلیدی رو پیدا میکنه و وارد دیتابیس میکنه
باید حدودا بگم خزنده ش داره به یه جاهایی میرسه
اما در مورد اینکه چطور این همه سایت آپدیت بشه و یا اینکه برای اینکه این خزنده کار کنه نیازه تا یک ادرس بهش داده بشه ولی تعداد محدودی صفحه از اون ادرس میتونه وارد دیتابیسش کنه
اما من میخوام طوری باشه که تمام سایت ها رو جستجو کنه اون خزنده

بازم میگم مشکل اساسی من یکی خزنده ش هست که باز یکم انجامش دادم و اینکه سایت هایی که وارد دیتابیس شده چطور دوباره محتویاتش آپدیت بشه
سلام
سایت ها توی دیتابیس ثبت میشن با یه cron job میشه هر روز یه بار چک کرد اونارو و اگه مطلب جدیدی داشتن (بر اساس پارامترهایی مثله عنوان و...) اضافه بشه و در صورت تغییر در صفحات موجود اونها آپدیت بشه.
الان گوگل بیشتر از heading ها استفاده میکنه. تگ هایی مثله session و nav و footer و header هم تشخیص میده که چه قسمتی از سایت هست.
در کل موفق باشید :)

peymang
دوشنبه 11 اسفند 1393, 21:22 عصر
موتور جستجو های باز متن هم هستن. می تونید سورس اونها رو ببینید، از اونها ایده بگیرید یا بهترشون کنید

sourceweb
دوشنبه 11 اسفند 1393, 21:34 عصر
سلام
سایت ها توی دیتابیس ثبت میشن با یه cron job میشه هر روز یه بار چک کرد اونارو و اگه مطلب جدیدی داشتن (بر اساس پارامترهایی مثله عنوان و...) اضافه بشه و در صورت تغییر در صفحات موجود اونها آپدیت بشه.
الان گوگل بیشتر از heading ها استفاده میکنه. تگ هایی مثله session و nav و footer و header هم تشخیص میده که چه قسمتی از سایت هست.
در کل موفق باشید :)
خب منم همینکارو با کرون جاب میخواستم انجام بدم اما حساب کردم اگر 1 ملیون صفحه وجود داشته باشه و کمترین حالت کرون جاب یک دقیقه هست یعنی در رروز 1440 سایت رو میتونه آپدیت کنه یعنی برای 1 ملیون صفحه حدودا 900 روز طول میکشه آپدیت بشه درحالی که حدودا در ایران تنها 12 ملیون صفحه وجود داره


دوست عزیزی ک گفتن موتور های سورس باز رو نگاه کن نگاه کردم اونها بسیار ساده بودن

leaping
دوشنبه 11 اسفند 1393, 21:52 عصر
دوستان در اینجا که از وب سایتهای تبلغایت و مطالب نامرتبط گله میکردن توی گوگل باید بهشون بگم احتمالا فقط توی گوگل از جست و جو استفاده میکنید.در حالی که گوگل تنظیمات بسیار زیادی برای حذف این وب سایتها , ست کردن رده بندی , جست و جو بر اساس رتبه وب سایت , جست و جو بر اساس بازده وب سایت و همه اینهارو داره کافیه یک gmail داشته باشید و این تنظیمات رو شخصی سازی کنید.
به نظرم وقتی چیزی به اسم گوگل هست اینکارها فقط وقت تلف کردنه
مگر اینکه بازهم دنبال سناریوی بزرگ توطئه جهانی و جاسوسی و هزارتا چیز دیگه تو ذهن عزیزان باشه , حتی در این مورد هم باز ترجیح میدم از گوگل استفاده کنم.
به جای این کارها به نظرم بشیینید و به یک ایده بهتر فکر کنید خیلی بهتر میتونه باشه به ملت هم میشه خدمت کرد.

n0o0b_sina
دوشنبه 11 اسفند 1393, 22:33 عصر
فکر نمیکنم اینطوری باشه، cron job که میاد صفحه رو میبینه 1 میلیون رکور هیچ 1 میلیاردم باشه تموم میکنه میره دیگ!

sourceweb
دوشنبه 11 اسفند 1393, 22:52 عصر
فکر نمیکنم اینطوری باشه، cron job که میاد صفحه رو میبینه 1 میلیون رکور هیچ 1 میلیاردم باشه تموم میکنه میره دیگ!
نمیشه که همه سایت ها با یک بار بازدید همه سایت هارو آپدیت کنه !
باید قطعه قطعه بشه سایت ها
مثلا دفعه ای 100 تا سایت در حالی که هر سایت رو آپدیت میکنه باز اگر لینک جدیدی داشت اضاف کنه به دیتابیس !

[younes]
دوشنبه 11 اسفند 1393, 23:06 عصر
به نظر من این کار برای استفاده واقعی و گسترده بی نتیجه است اما به عنوان یک پروژه تحقیقی/مطالعاتی شخصی ایده جالبی به نظر میاد.

sourceweb
سه شنبه 12 اسفند 1393, 07:53 صبح
تصویر از خزنده ای که نوشتم ! (کامل نیست)
http://8pic.ir/images/0k54xkzu9vpiqihnzuqs.png

rambod18
سه شنبه 12 اسفند 1393, 07:54 صبح
خوب مگه نمیشه چندتا خزنده داشت؟ برای جلو گیری از تداخل و اینکه یک سایت دوبار چک نشه هم بر یه اساسی مثلا حروف الفبا یا حوزه کاری یا اینکه وبلاگ هستن یا سایت اونهارو محدود کرد.

mhf693
سه شنبه 12 اسفند 1393, 08:17 صبح
با درود و احترام فراوان
دوستان عزیز و گرامی بنده قصد دارم برنامه نویسی یک موتور جستجوی کاملا اختصاصی رو شروع کنم
ممکنه در اوایل خیلی پیشرفته نباشه و ... اما مطمئننا در ادامه مطمئناحرفی برای گفتن خواهیم داشت
از اونجایی که موتور جستجو نیازمند تفکرات دست جمعی و برنامه نویسی چند گانه هست بنده از دوستانی که واقعا تحت وب مسلط هستن به برنامه نویسی و دوست دارن در این ضمینه به بنده کمک کنن و درنهایت در لیست سازندگان این موتورجستجو قرار بگیرن میتونن از طریق خصوصی با من در ارتباط باشن تا راه های ارتباطی رو شرح بدم براشون
دوستان اینو هم بگم که هرکس میخواد کمک کنه باید بدون هیچ چشم داشتی بیاد جلو چون بنده بودجه ای ندارم و یک کار دولتی هم نیست که بخوام حقوق بدم یا بدن
بهرحال مطمئنا در آینده خیلی خوب میشه برای ما(سازندگانش)

منتظرم دوستان نظراتشونو بگن و از طریق خصوصی درارتباط باشن
درضمن اینو هم بگم که تاحالا تمام موتور های جستجوی ایرانی که فقط اسمشون ایرانیه نتایجشونو از یاهو بینگ و گوگل دریافت میکنن و به هیچ عنوان اختصاصی نیستن
پس بیاید یه موتورجستجوگر قدرتمند ایرانی اختصاصی بنویسیم
به امید دیدار
یا حق
.سلام
یه زمانی من هم یه همچین کاری می خواستم بکنم حتی پروژه پایانی دانشگاهم همین موتورهای جستجو بود. حیف که وقت ندارم وگر نه کمکت می کردم. مشکل اینه که تو کشور ما به این جور کارها بها داده نمی شه و کسی حاضر نیست از این جور طرح ها حمایت مالی کنه !

n0o0b_sina
سه شنبه 12 اسفند 1393, 12:07 عصر
نمیشه که همه سایت ها با یک بار بازدید همه سایت هارو آپدیت کنه !
باید قطعه قطعه بشه سایت ها
مثلا دفعه ای 100 تا سایت در حالی که هر سایت رو آپدیت میکنه باز اگر لینک جدیدی داشت اضاف کنه به دیتابیس !
چرا نمیشه؟ شما امتحان کن میشه! شما هر روز ساعته 3 شب cron job رو فعال کنید تا صبح همرو تموم میکنه مطمئن باشید!!! توی اول کار که تعداد سایت ها زیاد نیست هم که خیلی زودتر تموم میشه!
به نظرم از زبانی مثله c++ استفاده کنید سیستم خیلی سریعتر میشه ولی خب سخت ترم میشه، به نظرم میاد اگه به سطح وبسایت های جهانی هم وارد بشید php یکم کند تر عمل کنه (دوستان تجربه نداشتم فقط احتمال میدم چون c++ بیش از 10 برابر سریعتر از php هست)
متاسفانه سرم فعلا خیلی شلوغه واگرنه به خاطر تجربش هم شده بهتون ملحق میشدم

sourceweb
سه شنبه 12 اسفند 1393, 12:40 عصر
چرا نمیشه؟ شما امتحان کن میشه! شما هر روز ساعته 3 شب cron job رو فعال کنید تا صبح همرو تموم میکنه مطمئن باشید!!! توی اول کار که تعداد سایت ها زیاد نیست هم که خیلی زودتر تموم میشه!
به نظرم از زبانی مثله C++‎ استفاده کنید سیستم خیلی سریعتر میشه ولی خب سخت ترم میشه، به نظرم میاد اگه به سطح وبسایت های جهانی هم وارد بشید php یکم کند تر عمل کنه (دوستان تجربه نداشتم فقط احتمال میدم چون C++‎ بیش از 10 برابر سریعتر از php هست)
متاسفانه سرم فعلا خیلی شلوغه واگرنه به خاطر تجربش هم شده بهتون ملحق میشدم
البته از یک نظر حرف شما صحیحه چون از سمت سرور اجرا میشه و سرعت سرور خیلی بالاست و ممکنه تمام سایت هارو آپدیت کنه
پس تنها باید کوئری نوشته بشه که تمام سایت هارو سلکت کنه از دیتابیس و یک حلقه ایجاد کنه داخلشون و یکی یکی بره داخل سایت تایتل و غیره رو آپدیت کنه و بره سایت بعدی


خب بعد چجوری متوقت بشه؟

n0o0b_sina
سه شنبه 12 اسفند 1393, 14:20 عصر
البته از یک نظر حرف شما صحیحه چون از سمت سرور اجرا میشه و سرعت سرور خیلی بالاست و ممکنه تمام سایت هارو آپدیت کنه
پس تنها باید کوئری نوشته بشه که تمام سایت هارو سلکت کنه از دیتابیس و یک حلقه ایجاد کنه داخلشون و یکی یکی بره داخل سایت تایتل و غیره رو آپدیت کنه و بره سایت بعدی


خب بعد چجوری متوقت بشه؟
php خودش معمولا بعد از 30 ثانیه متوقف میکنه اسکریپت رو، چون ما نیازی به توقف نداریم و سرورمون هم حتما یه سرور اختصاصی قدرتمنده که کم نمیاره، پس میزاریم همینجوری به کارش ادامه بده :)

sourceweb
سه شنبه 12 اسفند 1393, 14:40 عصر
من همین خزنده ای که دیدین رو به انتهاش یک کد اضاف کردم که همین چیزایی ک اکو میکنه رو سیو کنه تو یه فایل متنی
بعد بهش ادرس آپارات رو دادم و گزاشتمش تو کرون جاب
اما عمل نکرد حتی 30 دقیقه بعدشم نگاه کردم فایل وجود نداشت
احتمالا کرون جاب فقط چند ثانیه در اون صفحه میمونه و بعدش به عبارتی اون کرون جاب بسته میشه

n0o0b_sina
سه شنبه 12 اسفند 1393, 15:27 عصر
من همین خزنده ای که دیدین رو به انتهاش یک کد اضاف کردم که همین چیزایی ک اکو میکنه رو سیو کنه تو یه فایل متنی
بعد بهش ادرس آپارات رو دادم و گزاشتمش تو کرون جاب
اما عمل نکرد حتی 30 دقیقه بعدشم نگاه کردم فایل وجود نداشت
احتمالا کرون جاب فقط چند ثانیه در اون صفحه میمونه و بعدش به عبارتی اون کرون جاب بسته میشه
فکر نمیکنم اینجوری باشه من چند تا سایت خبر خوان که نوشتم توی هیچ کدوم همچین مشکلی نداشتم و به خوبی کار میکرد!

sourceweb
سه شنبه 12 اسفند 1393, 15:32 عصر
خب شما اینو هم د ر نظر بگیر که در این فایل اگر 1000 تا لینک وجود داشته باشه که اپارات سایت بزرگیه و همچین چیزی غیر ممکن نیست اگر حساب کنیم 1000 تا لینک داشته باشه و این بخواد 1000 صفحه رو باز کنه و تایتل و توضیحاتو .... رو برداره امکانش هست که نتونه انجام بده

MMSHFE
سه شنبه 12 اسفند 1393, 16:17 عصر
https://support.google.com/webmasters/answer/70897?hl=en#1

n0o0b_sina
سه شنبه 12 اسفند 1393, 16:25 عصر
خب شما اینو هم د ر نظر بگیر که در این فایل اگر 1000 تا لینک وجود داشته باشه که اپارات سایت بزرگیه و همچین چیزی غیر ممکن نیست اگر حساب کنیم 1000 تا لینک داشته باشه و این بخواد 1000 صفحه رو باز کنه و تایتل و توضیحاتو .... رو برداره امکانش هست که نتونه انجام بده
چرا نتونه؟

sourceweb
سه شنبه 12 اسفند 1393, 16:37 عصر
چرا نتونه؟
اگر صفحه 10 دیقه طول بکشه تا کامل لینک ها و صفحات ایندکس بشه
بازم کرون جاب میتونه اینکارو کنه؟

n0o0b_sina
سه شنبه 12 اسفند 1393, 19:03 عصر
اگر صفحه 10 دیقه طول بکشه تا کامل لینک ها و صفحات ایندکس بشه
بازم کرون جاب میتونه اینکارو کنه؟
هر صفحه 10 دقیقه؟ :دی چه خبره برادر؟ ولی اگه 10 دقیقه هم باشه بله میتونه. سرعته سرور خیلی بیشتر از سرعته ماست ها

sourceweb
سه شنبه 12 اسفند 1393, 19:04 عصر
تست کردم نمیتونه انجام بده
به این نتیجه رسیدم با این خزنده همه لینکای یک سایت توی همه صفحاتش (فقط لینک هاش) رو ثبت کنم تو دیتابیس و با یک خزنده دیگه سایت هایی ک ثبت شده رو هر دقیقه 10 تا سایت رو آپدیت کنم
اینطوری احتمالا عملی بشه

mhf693
سه شنبه 12 اسفند 1393, 19:28 عصر
.چون حجم دیتاها زیاده باید کار به صورت موازی توسط چند سرور انجام بشه . می تونی از فناوری نگاشت کاهش یا همون map - reduce استفاده کنی ابزارهای خوبی مثل hadoop هم تو این زمینه هستن.
http://hadoop.apache.org/

mhf693
سه شنبه 12 اسفند 1393, 19:34 عصر
.به نظرم تو شروع کار رو مسائل فنی وقت نذار چون اگه از نظر سخت افزار مورد نیاز مشکل نداشته باشی این مسائل قابل حل شدن هستن! بهتره رو الگوریتم های مورد نیاز و شیوه پیاده سازی وقت بذاری مثلا هوش مصنوعی سیستم ، شیوه رتبه بندی ، زبان شناسی ، شیوه ذخیره سازی تا هم حجم دیتابیس زیاد نشه هم سرعت استخراج از دیتابیس بالا بره و ...

mhf693
سه شنبه 12 اسفند 1393, 19:45 عصر
اینکه سایت هایی که وارد دیتابیس شده چطور دوباره محتویاتش آپدیت بشه

.لازم نیست با هر تغییری که در یک صفحه از سایت رخ داد موتور جستجوی شما بلافاصله متوجه بشه و اون رو دوباره ذخیره کنه.شما باید سه پارامتر برای ذخیره سازی مجدد یک صفحه در نظر بگیری 1.تاریخ مراجعه بعدی 2.میزان کاهش فاصله بازدید بعدی در صورت تغییر صفحه 3.میزان افزایش فاصله بازدید بعدی اگر صفحه تغییر نکرده باشه
مثلا شما در تنظیمات خزنده ات مشخص می کنی که صفحه ای که امروز ذخیره شده سی روز دیگه باید دوباره ذخیره بشه بعد سی روز می بینی صفحه نسبت به قبل تغییر کرده در نتیجه مثلا 30 رو در هشت دهم ضرب می کنی می شه 24 تاریخ بازدید بعدی می شه 24 روز بعد. بعد 24 روز می بینی دوباره محتویات تغییر کرده دوباره در هشت دهم ضرب می کنی می شه حدود 19 روز بعد. پس مراجعه بعدی 19 روز بعده به عبارتی اگه خزنده تشخیص بده صفحه داره مرتب بروز می شه تاریخ مراجعه بعدی رو به مرور کم می کنه(البته باید یه حداقلی داشته باشه مثلا یک روز که از اون کمتر نشه) اما اگر در یک بازدید دید صفحه تغییر نکرده بر عکس تاریخ بازدید بعدی رو افزایش می ده مثلا اگر بعد 19 روز مراجعه دید صفحه تغییر نکرده به جای این که در هشت دهم ضرب کنه در 12 دهم ضرب می کنه می شه حدود 23 روز دیگه و الی اخر...!

sourceweb
سه شنبه 12 اسفند 1393, 20:31 عصر
.به نظرم تو شروع کار رو مسائل فنی وقت نذار چون اگه از نظر سخت افزار مورد نیاز مشکل نداشته باشی این مسائل قابل حل شدن هستن! بهتره رو الگوریتم های مورد نیاز و شیوه پیاده سازی وقت بذاری مثلا هوش مصنوعی سیستم ، شیوه رتبه بندی ، زبان شناسی ، شیوه ذخیره سازی تا هم حجم دیتابیس زیاد نشه هم سرعت استخراج از دیتابیس بالا بره و ...
خب اول از همه باید ببینم میتونم خزنده ش رو بنویسم یا نه
و یا اینکه آپدیت کردن سایت ها طبق گفته های شما
البته اگر سرور ابری با سخت افزاری قدرتمند باشه ممکنه حتی تا 1000 تا سایت همزمان بتونه دیتا بگیره و ذخیره کنه

sourceweb
چهارشنبه 13 اسفند 1393, 20:05 عصر
دوستان گفتم اطلاع رسانی کنم
به این نتیجه رسیدم که سعی کنم یه لیست کامل و جامع از سایت های ایرانی(فعلا ایرانی) تهیه کنم
و یه خزنده بنویسم که بیاد از این لیست یکی یکی به ترتیب بره داخل لینک ها توضیحات و متن های صفحه رو برداره و در دیتابیس ذخیره کنه اما در سرچ این سایت هارو لود نکنه یعنی توی کوئری بنویسم where title !="" بعد یه ربات دیگه بنویسم که بیاد سایت هایی که تایتل و اینا ندارن رو هر یک دقیقه یک بار هر بار 10 تا سایت رو تایتل و ایناشو توی دیتابیس آپدیت کنه و ردیفی به نام update رو برابر 1 کنه
و یه ربات هم باشه که هر 24 ساعت چک کنه اگر تمام سایت ها 1 بودن آپدیت هاش یعنی همه آپدیت بودن همرو 0 کنه و ربات آپدیت دوباره سایت هارو آپدیت کنه
یعنی هر 24 ساعت سایت ها آپدیت میشه البته ممکنه آپدیت سایت ها به 3 4 روز هم برسه زمانی که سایت ها زیاد بشه
فعلا همین هارو میخوام پیاده سازی کنم
اگر کسی نظری داره خوشحال میشم بشنوم

<?php?>
چهارشنبه 13 اسفند 1393, 22:15 عصر
با سلام به دوست عزیز

فرض قضیه : شما یک موتور جرفه ای ساختید ( حتی قوی تر از موتور کنونی گوگل ) .

- آیا می توانید این موتور رو به افراد جوامع محتلف معرفی کنید ؟ پیش نیاز برند شدن جهانی ایده + سرمایه هستش , ایا شما این دو رو دارید ؟ آیا فکر میکنید کشوری مثل عربستان از موتور ایرانی استفاده می کند ؟ ( و یا سریع فیلترش می کند ) چین چه طور ؟
- چند کشور هم اکنون با ایران دشمن هستند ؟ کشور های زیادی هستند که نمیخواهند ما ایرانی ها وجود داشته باشیم . حالا به نظرتون اجازه بزرگ شدن یک موتور جستجو گر رو به ما در سطح جهان می دهند ؟ خب مشخص است به راحتی هرچه تمام تر شما رو منهدم می کنند . چه از نظر برندینگ و چه از نظر فیلترینک در کشور های دیگه .
-----------
حدود یک سالی میشه که شرکت بیان اومده و این کارو داره انجام میده . موتور جستجوگر ایرانی *** سلام salam.ir *** که بعد از مدتی احتمالا موتور تمام ایرانی زال رو پیاده سازی می کنند که موتور زال webmaster هم داره و تمام ایرانی و بومی هستش .
----------
گوگل سرمایه گزاری عظیمی برای پایداری نسل خود کرده . بی شک دیدیم که جتی موتور bing هم نتوانست با ان همه پشتیوانه مالی و برنامه نویسی در برابر گوگل قد علم کند . گوگل یک برند ابدی هستش . و خواهد بود .
گوگل رازی پنهان داره تو خودش . راز اون فقط موتورش نیست . رازش هم بستگی چند سایت بزرگ دنیا هستش ( محصولات خودش نظیر youtube.com / gmail.com/blogger va ...... که لازمه فعالیت در انها داشتن یک حساب gmail خواهد بود .
از همه مهم تر . انسجام اون با سیستم عامل دوم دنیا یعنی اندروید
وجو بهترین نقشه دنیا که حتی اپل در برابر استفاده نکردن از ان تسلیم شده بود .
تسلیم کردن شرکت های بزرگ دنیای دیجیتال htc-samsung-sony-lg-glx va .........
همانظور که گفته شده گوگل اومده که بمونه . و با کارش داره بهت ثابت می کنه که چقدر تسط بر دنیای اینترنت داره .

-----------

پس قبلش رزومه گوگل رو بخونیم و بفهمیم رقیبمون چه کسیه

بیتا حکمت
چهارشنبه 13 اسفند 1393, 22:42 عصر
پروژه موتورهای جست و جوی میلی که با اعتبار بیش از 170 میلیارد( پولی که می تونست صرف اشتغالزایی و هزاران مورد مفید دیگر بشه ) تومن و حمایت های دولتی به جایی نرسید . و مقالاتی که مردم رو تشویق می کنه از این موتورهای جست و جو استفاده کنن منو یاد رانندگانی می اندازه که تو ترمینال به رهگذران گیر می دن . کدوم شهری ؟!
اون وقت شما میخواین موتور جست و جو طراحی کنین که چی بشه ؟

mhf693
پنج شنبه 14 اسفند 1393, 08:26 صبح
. سخن رهبر انقلاب در جمع دانشگاهیان همدان در سال 83 به نقل از سایت راسخون :


غربی ها علم را از ما یاد گرفتند. شما به کتاب پیروسو - «تاریخ علوم» - نگاه کنید؛ آن جا می گوید: چهار پنج قرن قبل تاجری در یکی از کشورهای اروپایی به استادی مراجعه می کند و می گوید می خواهم فرزندم درس بخواند؛ او را به کدام مدرسه بفرستم؟ استاد در جواب می گوید اگر به همین چهار اصل عمل اصلی – جمع و ضرب و تفریق و تقسیم- قانع هستی، می توانی او را به هر کدام از مدارس کشور ما یا دیگر کشورهای اروپایی بفرستی؛ اما اگر بالاتر از آن را لازم داری، باید او را به کشور اندلس یا به مناطق مسلمان نشین بفرستی. این را پیرروسو می نویسد؛ این حرف من نیست. چنگ های صلیبی به آن ها کمک کرد تا از ما بیاموزند. هجرت دانشمندان ما به این مناطق، کمک کرد تا از ما بیاموزند. هجرت دانشمندان ما به مناطق آن ها و منتقل شدن کتاب های ما به آن ها، کمک کرد تا از ما بیاموزند. یک روز آن ها از ما یادگرفتند و شاگرد ما بودند، بعد شدند استاد ما؛ الان هم ما از آن ها یاد می گیریم و شاگرد آن ها می شویم و بعد می شویم استاد آن ها. پس نسل دانش پژوه و محقق و پژوهنده ی کشور ما بداند؛ امروز اگر برتری علمی با غربی ها است، در آینده ی نه چندان دوری با همت و اراده ی شما می توان کاری کرد که فردا آن ها از شما یاد بگیرند.

این که این دوستمون با چه هدفی می خواد یه موتور جستجو بنویسه خودش می دونه ولی مشکل ما سر اینه که تو کشور ما یه وحدت رویه نیست و هر کسی ساز خودش رو می زنه! مثلا در مورد همین موتور جستجو موازی کاری زیاد می شه : موتور جستجوی یوز - گرگر - زال - ... اگه به جای این همه موازی کاری همه متخصصین تو این حوزه با هم کار می کردند چرا نمی تونستند به جایی برسند! این که دوستان می گن نمی تونیم در برابر گوگل رقابت کنیم اولا به نظرم چرا می تونیم ، من خودم دو سه سال پیش که فیلم توهین آمیز به پیامبر(ص) روی یوتیوب منتشر شد و حاضر نشدن برش دارن با خودم گفتم چرا ما باید به قول یکی از معلمانم سیب زمینی بی رگ باشیم که اونا به عزیزترین کسان ما توهین می کنن و اون وقت گذشته از این که ما از محصولات اونا استفاده می کنیم تعریف و تمجید محصولات اونا رو هم می کنیم! همون موقع یادمه چند روزی بعضی کشورها گوگل رو تحریم کردن حتی تو کشور خودمون حدود یه هفته ای سایت گوگل باز نمی شد و همین عدم استفاده ما باعث شد سایت گوگل بعد از چند سال از رتبه یک بین سایت های اینترنتی به رتبه دوم تنزل کنه! پس اگه گوگل و امثال اون به جایی رسیدن ما هم مقصریم!!! دوما به نظر من قرار به رقابت با موتور جستجویی مثل گوگل نیست چون موتور جستجوی ایرانی هدفش برظرف کردن نیاز عامه مردم هست که اکثرا از سایت های فارسی استفاده می کنن و با تمرکز روی سایت های فارسی می شه به جاهای خوبی هم رسید. در هر صورت من به شخصه کار دوستمون رو تحسین می کنم حتی اگه به هیچ جا نرسه!!!

sourceweb
پنج شنبه 14 اسفند 1393, 08:47 صبح
با سلام به دوست عزیز

فرض قضیه : شما یک موتور جرفه ای ساختید ( حتی قوی تر از موتور کنونی گوگل ) .

- آیا می توانید این موتور رو به افراد جوامع محتلف معرفی کنید ؟ پیش نیاز برند شدن جهانی ایده + سرمایه هستش , ایا شما این دو رو دارید ؟ آیا فکر میکنید کشوری مثل عربستان از موتور ایرانی استفاده می کند ؟ ( و یا سریع فیلترش می کند ) چین چه طور ؟
- چند کشور هم اکنون با ایران دشمن هستند ؟ کشور های زیادی هستند که نمیخواهند ما ایرانی ها وجود داشته باشیم . حالا به نظرتون اجازه بزرگ شدن یک موتور جستجو گر رو به ما در سطح جهان می دهند ؟ خب مشخص است به راحتی هرچه تمام تر شما رو منهدم می کنند . چه از نظر برندینگ و چه از نظر فیلترینک در کشور های دیگه .
-----------
حدود یک سالی میشه که شرکت بیان اومده و این کارو داره انجام میده . موتور جستجوگر ایرانی *** سلام salam.ir *** که بعد از مدتی احتمالا موتور تمام ایرانی زال رو پیاده سازی می کنند که موتور زال webmaster هم داره و تمام ایرانی و بومی هستش .
----------
گوگل سرمایه گزاری عظیمی برای پایداری نسل خود کرده . بی شک دیدیم که جتی موتور bing هم نتوانست با ان همه پشتیوانه مالی و برنامه نویسی در برابر گوگل قد علم کند . گوگل یک برند ابدی هستش . و خواهد بود .
گوگل رازی پنهان داره تو خودش . راز اون فقط موتورش نیست . رازش هم بستگی چند سایت بزرگ دنیا هستش ( محصولات خودش نظیر youtube.com / gmail.com/blogger va ...... که لازمه فعالیت در انها داشتن یک حساب gmail خواهد بود .
از همه مهم تر . انسجام اون با سیستم عامل دوم دنیا یعنی اندروید
وجو بهترین نقشه دنیا که حتی اپل در برابر استفاده نکردن از ان تسلیم شده بود .
تسلیم کردن شرکت های بزرگ دنیای دیجیتال htc-samsung-sony-lg-glx va .........
همانظور که گفته شده گوگل اومده که بمونه . و با کارش داره بهت ثابت می کنه که چقدر تسط بر دنیای اینترنت داره .

-----------

پس قبلش رزومه گوگل رو بخونیم و بفهمیم رقیبمون چه کسیه


4کتاب درمورد سرگذشت گوگل خوندم :) سلام هم نتایجشو از گوگل و یاهو و سایر موتور ها میگیره میتونید تو توضیحاتش بخونید
گوگل 17 سال پیش در حد یک ایده بود
الان با 2500 تا کارمند شده این
موفق باشید

پروژه موتورهای جست و جوی میلی که با اعتبار بیش از 170 میلیارد( پولی که می تونست صرف اشتغالزایی و هزاران مورد مفید دیگر بشه ) تومن و حمایت های دولتی به جایی نرسید . و مقالاتی که مردم رو تشویق می کنه از این موتورهای جست و جو استفاده کنن منو یاد رانندگانی می اندازه که تو ترمینال به رهگذران گیر می دن . کدوم شهری ؟!
اون وقت شما میخواین موتور جست و جو طراحی کنین که چی بشه ؟
مگه من میخوام با این کار به جایی برسم؟همین که بدونم یه کاری کردم برای ایران هرچند کوچک و کوچک و کوچک و ضعیف اما خوشحالم
حتی اگر در اینده پیشرفت کنه این جستجوگر باز هم هیچ توقعی از هیچ ارگانی ندارم
موفق باشید

. سخن رهبر انقلاب در جمع دانشگاهیان همدان در سال 83 به نقل از سایت راسخون :

این که این دوستمون با چه هدفی می خواد یه موتور جستجو بنویسه خودش می دونه ولی مشکل ما سر اینه که تو کشور ما یه وحدت رویه نیست و هر کسی ساز خودش رو می زنه! مثلا در مورد همین موتور جستجو موازی کاری زیاد می شه : موتور جستجوی یوز - گرگر - زال - ... اگه به جای این همه موازی کاری همه متخصصین تو این حوزه با هم کار می کردند چرا نمی تونستند به جایی برسند! این که دوستان می گن نمی تونیم در برابر گوگل رقابت کنیم اولا به نظرم چرا می تونیم ، من خودم دو سه سال پیش که فیلم توهین آمیز به پیامبر(ص) روی یوتیوب منتشر شد و حاضر نشدن برش دارن با خودم گفتم چرا ما باید به قول یکی از معلمانم سیب زمینی بی رگ باشیم که اونا به عزیزترین کسان ما توهین می کنن و اون وقت گذشته از این که ما از محصولات اونا استفاده می کنیم تعریف و تمجید محصولات اونا رو هم می کنیم! همون موقع یادمه چند روزی بعضی کشورها گوگل رو تحریم کردن حتی تو کشور خودمون حدود یه هفته ای سایت گوگل باز نمی شد و همین عدم استفاده ما باعث شد سایت گوگل بعد از چند سال از رتبه یک بین سایت های اینترنتی به رتبه دوم تنزل کنه! پس اگه گوگل و امثال اون به جایی رسیدن ما هم مقصریم!!! دوما به نظر من قرار به رقابت با موتور جستجویی مثل گوگل نیست چون موتور جستجوی ایرانی هدفش برظرف کردن نیاز عامه مردم هست که اکثرا از سایت های فارسی استفاده می کنن و با تمرکز روی سایت های فارسی می شه به جاهای خوبی هم رسید. در هر صورت من به شخصه کار دوستمون رو تحسین می کنم حتی اگه به هیچ جا نرسه!!!

بسیاربسیار ممونم از شما
درمورد یوز باید بگم شک دارم نتایجش اختصاصی باشه ! نتایجش بسیار شبیه گوگل هست حتی در کلماتی مثل( بوق :D )




و در نهایت : اینو بخونید همه : http://searchengineland.com/google-bing-is-cheating-copying-our-search-results-62914
دیگه مایکرو سافت با اون قدرتش از گوگل نتایج میگیره بقیه موتورها بماند
من میخوام یه موتورجستجو هرچند کوچیک اما اختصاصی بنویسم

MMSHFE
پنج شنبه 14 اسفند 1393, 09:47 صبح
بنظر من روی امکاناتی کار کنید که توی گوگل نیست. برای مثال گوگل ایندکس خوبی از مطالب فارسی نداره. منظورم دسته بندیه. برای مثال وبلاگها رو جدا کنید و به کاربران اجازه بدین دسته بندی درست رو پینشهاد بدن (اگه اشتباه بود). اینطوری میتونید برای مثال بگین فلان مطلب رو توی وبلاگها بگرد. فلان موضوع رو توی تالارهای گفتگو (انجمنهای فارسی) بررسی کن. نیاز امروز فارسی زبانها اینه. برای مثال من دوست ندارم وقتی دنبال یه مطلب علمی میگردم، وبلاگهای شخصی بیان (همونطور که دوست ندارم ولی دنبال یه شعر قشنگ میگردم، سایت برنامه نویس توی نتایج جستجو بیاد - حتی اگه یکی اون شعر رو توی امضاش نوشته باشه).

sourceweb
پنج شنبه 14 اسفند 1393, 10:06 صبح
کسی هست که بتونه طراحی صفحات موتورجستجوگر رو به عهده بگیره؟

MMSHFE
پنج شنبه 14 اسفند 1393, 10:18 صبح
در تکمیل پست قبلیم اضافه میکنم که منظورم اینه که قابلیت یک Directory و Search Engine رو با هم ترکیب کنید. اینطوری کاری انجام میشه که شاید بعداً در مقیاس جهانی هم بدرد بخوره و تقریباً میشه گفت تا حالا بطور جدی توی دنیا هم اجرا نشده (یاهو عملاً فقط از دایرکتوری خودش میخونه و گوگل هم در عمل دسته بندی برای سایتها نداره).

leaping
پنج شنبه 14 اسفند 1393, 11:02 صبح
در تکمیل پست قبلیم اضافه میکنم که منظورم اینه که قابلیت یک Directory و Search Engine رو با هم ترکیب کنید. اینطوری کاری انجام میشه که شاید بعداً در مقیاس جهانی هم بدرد بخوره و تقریباً میشه گفت تا حالا بطور جدی توی دنیا هم اجرا نشده (یاهو عملاً فقط از دایرکتوری خودش میخونه و گوگل هم در عمل دسته بندی برای سایتها نداره).
خب این دسته بندی رو چطوری مخواید پیدا کنید؟
یعنی اصلا چطوری میتونید تشخیص بدید که کدوم وب سایت شامل کدوم دسته بندی هست؟

MMSHFE
پنج شنبه 14 اسفند 1393, 11:32 صبح
گفتم که در مرحله اول میتونه سلیقه شخصی باشه (هرچند یکسری چیزها مثل وبلاگ یا انجمن و... کاملاً مشخصه) ولی کاربران هم میتونن گزارش کنن و درخواست تغییر بدن. حتی میشه بجای دسته بندی (یا در کنارش) از برچسب گذاری استفاده کرد. مثلاً برای یک وبلاگ، برچسبهای وبلاگ، عکس، موزیک، عاشقانه و... رو اختصاص داد. البته شخصاً برچسب رو فاقد کارآیی دسته بندی میدونم.

leaping
پنج شنبه 14 اسفند 1393, 12:15 عصر
گفتم که در مرحله اول میتونه سلیقه شخصی باشه (هرچند یکسری چیزها مثل وبلاگ یا انجمن و... کاملاً مشخصه) ولی کاربران هم میتونن گزارش کنن و درخواست تغییر بدن. حتی میشه بجای دسته بندی (یا در کنارش) از برچسب گذاری استفاده کرد. مثلاً برای یک وبلاگ، برچسبهای وبلاگ، عکس، موزیک، عاشقانه و... رو اختصاص داد. البته شخصاً برچسب رو فاقد کارآیی دسته بندی میدونم.
خب چندتا مشکل هست
اول اینکه خیلی از وب سایتها قابل تشخیص نیستند.(خیلی خیلی خیلی از وب سایتها)
دوم اینکه اگه خود صاحب وب سایت بیاد برچسپ بزنه به سایتش که کاملا قابل دور زدن هست و میتونه خیلی ساده خودش رو در همه دسته بندی ها قرار بدهو این یک باگ مسحوب میشه
سوم اینکه اگه استفاده کننده خودش بیاد تعیین کنه بازهم قابل دور زدن هست چون یک کاربر که خودشم میتونه صاحب وب سایت باشه میاد و وب سایتش رو همه جا برچسپ میزنه
چهارم اگه کاربر خودش بیاد فقط برای خودش دسته بندی کنه که بعدا ازش استفاده کنه که همین الانم هم گوگل و هم بینگ این امکان رو دارن
پنجم اگه خود صاحب موتور بخواد همچین کاریو بکنه فک کنم در سطح وسیع تقریبا غیر ممکن باشه

MMSHFE
پنج شنبه 14 اسفند 1393, 12:20 عصر
گفتم که من هم با برچسب زیاد موافق نیستم ولی دسته بندی میتونه مفید باشه. موقع معرفی سایت به دایرکتوری میشه دسته بندی رو انتخاب کرد و بعد تأیید بشه. بهرحال قابلیتی هست که اگه باشه مفیده ولی قطعاً زحمت مدیریت هم داره چون فرایند خودکاری نیست.

MH.S.dev
پنج شنبه 14 اسفند 1393, 13:21 عصر
با درود و احترام فراوان
دوستان عزیز و گرامی بنده قصد دارم برنامه نویسی یک موتور جستجوی کاملا اختصاصی رو شروع کنم
ممکنه در اوایل خیلی پیشرفته نباشه و ... اما مطمئننا در ادامه مطمئناحرفی برای گفتن خواهیم داشت
از اونجایی که موتور جستجو نیازمند تفکرات دست جمعی و برنامه نویسی چند گانه هست بنده از دوستانی که واقعا تحت وب مسلط هستن به برنامه نویسی و دوست دارن در این ضمینه به بنده کمک کنن و درنهایت در لیست سازندگان این موتورجستجو قرار بگیرن میتونن از طریق خصوصی با من در ارتباط باشن تا راه های ارتباطی رو شرح بدم براشون
دوستان اینو هم بگم که هرکس میخواد کمک کنه باید بدون هیچ چشم داشتی بیاد جلو چون بنده بودجه ای ندارم و یک کار دولتی هم نیست که بخوام حقوق بدم یا بدن
بهرحال مطمئنا در آینده خیلی خوب میشه برای ما(سازندگانش)

منتظرم دوستان نظراتشونو بگن و از طریق خصوصی درارتباط باشن
درضمن اینو هم بگم که تاحالا تمام موتور های جستجوی ایرانی که فقط اسمشون ایرانیه نتایجشونو از یاهو بینگ و گوگل دریافت میکنن و به هیچ عنوان اختصاصی نیستن
پس بیاید یه موتورجستجوگر قدرتمند ایرانی اختصاصی بنویسیم
به امید دیدار
یا حق
سلام دوست عزیز، کار خوبی هست امیدوارم که موفق باشید. به نظر من با توجه به شرایطی کشور ما دارد هر کسی که بخواد کاری در ابعاد بزرگ انجام بده حتما باید سیستم خودش در داخل کشور به اثبات برسونه بعد در سطح بین الملل مطرح بشه! البته میشه گفت اکثر کارهای بزرگی که انجام شده(google,facebook,alibaba,....) به همین منوال بوده، به همین خاطر پیشنهاد من به شما اینه که ببیند در داخل به چه چیزی نیاز داریم بر روی اون تمرکز کنید، بعد میتونید سیستمتون رو گسترش بدید امکانات بیشتری قرار بدید. ایده های بسیار زیاد و بکری وجود داره که تا حالا هیچ کدوم از شرکتهایی که دوستان مثال زدند انجام ندادند! اینترنت، وب فقط گوگل و یاهو و شرکتهای اینچنینی نیست! کارهای زیادی میشه انجام داد که به درد همه مردم چه داخل و چه خارج بخوره، برای شروع کار هم سرمایه ی آنچنانی نیاز نیست ولی حتما یک پشتوانه مالی کوچیک میخواد! یک توصیه هم بهتون میکنم اگه میخواهید در کارتون موفق بشید و همه هر جا که هستن از سیستم شما استفاده کنن کارتون رو فارغ از مسائل ایرانی، غیر ایرانی، خارجی، بیگانه و از اینجور بحثها انجام بدید.
موفق باشید.

freeman99
پنج شنبه 14 اسفند 1393, 21:18 عصر
.لازم نیست با هر تغییری که در یک صفحه از سایت رخ داد موتور جستجوی شما بلافاصله متوجه بشه و اون رو دوباره ذخیره کنه.شما باید سه پارامتر برای ذخیره سازی مجدد یک صفحه در نظر بگیری 1.تاریخ مراجعه بعدی 2.میزان کاهش فاصله بازدید بعدی در صورت تغییر صفحه 3.میزان افزایش فاصله بازدید بعدی اگر صفحه تغییر نکرده باشه
مثلا شما در تنظیمات خزنده ات مشخص می کنی که صفحه ای که امروز ذخیره شده سی روز دیگه باید دوباره ذخیره بشه بعد سی روز می بینی صفحه نسبت به قبل تغییر کرده در نتیجه مثلا 30 رو در هشت دهم ضرب می کنی می شه 24 تاریخ بازدید بعدی می شه 24 روز بعد. بعد 24 روز می بینی دوباره محتویات تغییر کرده دوباره در هشت دهم ضرب می کنی می شه حدود 19 روز بعد. پس مراجعه بعدی 19 روز بعده به عبارتی اگه خزنده تشخیص بده صفحه داره مرتب بروز می شه تاریخ مراجعه بعدی رو به مرور کم می کنه(البته باید یه حداقلی داشته باشه مثلا یک روز که از اون کمتر نشه) اما اگر در یک بازدید دید صفحه تغییر نکرده بر عکس تاریخ بازدید بعدی رو افزایش می ده مثلا اگر بعد 19 روز مراجعه دید صفحه تغییر نکرده به جای این که در هشت دهم ضرب کنه در 12 دهم ضرب می کنه می شه حدود 23 روز دیگه و الی اخر...!
آفرین این تازه یک نمونه از منطق و هوشمندی مورد نیاز موتورهای جستجوی حرفه ای بود که گفتی. از همین الان میبینید که پیچیدگی ها دارن خودشون رو نشون میدن. حجم کد زیاد میشه، الگوریتم های پیچیده و طریف و محاسبات ریاضی و فرض ها و تحلیل های منطقی میان وسط. و این تمام ماجرا و پارامترهای بحساب آمدنی نیست، بلکه احتمالا تنها بخش کوچکی از اوناست.
مثلا الان نقش هدرهای کش که خود سرورها میفرستن این وسط چیه؟ وقتی سرور یک هدر کش میفرسته، که البته این هدرها خودشون انواع و داستان دارن و باید پروتکل HTTP رو کامل و دقیق بخونید و همهء مسائل درگیر رو درک کنید، و این وسط یه باگها و ابهامات و حتی نقص و ابهام در خود RFC ها هم هست که باید تحقیق و تحلیل و تمهید و هندل کنید، بعد این هدر کش داره چی میگه؟ واسه عمش میگه؟ نه داره میگه مثلا شما میتونی این صفحه رو واسه یک هفته کش کنی! و این مسلما میتونه به تغییر محتوای صفحه ربط داشته باشه. یعنی عملا به شما داره میگه قرار نیست این صفحه تا یک هفتهء دیگه تغییری بکنه یا تغییر مهمی بکنه. حالا باز این مسئله خودش جای تحلیل داره که تا چه حد و چطور این هدرها رو درنظر بگیریم یا نگیریم. تازه این هدرها چیزهایی که میگن و ترکیب و رفتارشون از چیزی که گفتم بیشتره.
بعدم شما لزوما نمیای هر بار درخواست یکسانی بدی و تمام محتوی صفحه رو مجددا بگیری. بازهم این مطلب رو اگر با پروتکل HTTP آشنا باشید و روشهای استفاده از مکانیزم کش اون رو بدونید، میفهمید. درخواستهای شرطی داریم که ارسال میکنی مثلا به سرور میگی اگر محتوای این صفحه از فلان تاریخ تاحالا تغییر کرده برام ارسالش کن، وگرنه براتون هدر و کد خاص دیگری رو میفرسته. این هدرها هم چند نوع و مدل دارن و بسته به نوع پاسخی که قبلا سرور بهتون ارسال کرده بوده و کش کردید هم داره که درخواست شما باید چطور فرمت بشه و از چه هدرها و روشی استفاده کنه.

freeman99
پنج شنبه 14 اسفند 1393, 21:34 عصر
دوستان گفتم اطلاع رسانی کنم
به این نتیجه رسیدم که سعی کنم یه لیست کامل و جامع از سایت های ایرانی(فعلا ایرانی) تهیه کنم
و یه خزنده بنویسم که بیاد از این لیست یکی یکی به ترتیب بره داخل لینک ها توضیحات و متن های صفحه رو برداره و در دیتابیس ذخیره کنه اما در سرچ این سایت هارو لود نکنه یعنی توی کوئری بنویسم where title !="" بعد یه ربات دیگه بنویسم که بیاد سایت هایی که تایتل و اینا ندارن رو هر یک دقیقه یک بار هر بار 10 تا سایت رو تایتل و ایناشو توی دیتابیس آپدیت کنه و ردیفی به نام update رو برابر 1 کنه
و یه ربات هم باشه که هر 24 ساعت چک کنه اگر تمام سایت ها 1 بودن آپدیت هاش یعنی همه آپدیت بودن همرو 0 کنه و ربات آپدیت دوباره سایت هارو آپدیت کنه
یعنی هر 24 ساعت سایت ها آپدیت میشه البته ممکنه آپدیت سایت ها به 3 4 روز هم برسه زمانی که سایت ها زیاد بشه
فعلا همین هارو میخوام پیاده سازی کنم
اگر کسی نظری داره خوشحال میشم بشنوم
مبهم گفتی کامل متوجه نشدم!
بحث تایتل و اینا چی بود دقیقا منظورت چیه؟
بعد اینکه موتور جستجو لزوما نمیاد کل محتوای همهء سایتها و صفحات رو توی دیتابیس خودش ذخیره کنه. اینطور حجمش و سرعت سرچ کردن هم مشکل بزرگی میشه. موتور جستجو میتونه بیاد و کلمات کلیدی و چیزهایی که برای طبقه بندی و امتیاز دهی لازم هستن رو جدا و محاسبه و ذخیره کنه. البته بحث full text search و سرچ های دقیق هم هست. بهرحال مثلا میشه سرچ های کلمات کلیدی و نادقیق رو جداگانه تلقی کرد و حالا بحث بهینه سازی که آیا مثلا چطور حتی کوئری های دیتابیس اینا رو از هم جدا کنیم چه الگوریتم هایی برای بهینه سازی داشته باشیم و غیره. منظورم اینه مثلا یک نفر با چند کلمهء کلیدی ساده و متداول سرچ میکنه، آیا باید از همون دیتابیس و روشی استفاده بشه که سرچهای خاص و دقیق و full text دارن؟ اینطوری در یک دیتابیس عظیم یک کوئری سنگین داریم و فکر میکنم منابع سخت افزاری مورد نیاز چند برابر میشه. ولی میشه برای انواع سرچهای ساده و پیچیده و سبک و سنگین طبقه بندی و روشهای متفاوتی داشت و سلسله مراتب و حتی دیتابیس و جدولهای جداگانه و غیره.
حتی میشه مثلا سرچ های full text و دقیق و پیچیده رو در چند مرحله اجرا کرد و تقسیم کرد بخاطر بهینه سازی و افزایش سرعت و کاهش فشار بر سرورها. مثلا بیاید از توی یک جمله کلمات کلیدی خاصی رو پیدا کنید و اول با روش و جدول های مخصوص سرچ های سبک و کلمات کلیدی موارد محتمل و کاندیدهای احتمالی رو پیدا کنید، بعد بین اونا سرچ کاملتر و دقیق تر نهایی رو اجرا کنید.
اوه خیلی بحثه خیلی ایده ها و جزییات مطرحه. یه دریاست!
البته شاید موتورهای جستجوی حرفه ای بخاطر کاهش این پیچیدگی ها از روشهای دیگری استفاده کرده باشن و بجاش منابع سخت افزار رو بیشتر کردن یا از روشهایی در سطوح دیگر برای بهینه سازی دیتابیس ها و بالا بردن سرعت کوئری های سنگین استفاده کردن.

freeman99
پنج شنبه 14 اسفند 1393, 22:08 عصر
دیدم گفته بودن چرا کسی از موتورهای جستجوی ما استفاده نمیکنه!
باید بگم موتور جستجو از دید کاربری یک چیز ساده ای هست (و اینترفیس ساده ای هم داره) و یک کار ظاهرا ساده (اما پشت پرده پیچیده) ای رو انجام میده و انتظار کاربر ازش بیشتر فقط همینه که نتایج مرتبط خوبی ارائه کنه، که گوگل داره این کار رو بخوبی انجام میده و یک سرویس جهانی و رایگان هم هست، پس کاربران دلیلی ندارن که موتور جستجوی دیگری رو حتی تست کنن، چه برسه به سویچ کردن.
البته گوگل در زمینهء سایتهای انگلیسی حرف نداره، ولی در زمینهء زبانهای دیگر، حداقل فارسی که من تاحالا دیدم، مشکلاتی داره بنظرم! اونم بنظر من بخاطر این نیست که گوگل نمیتونه، بلکه بخاطر کمتر بودن اولویت و مشکل و محدود بودن نظارت انسانی بر سایتهای غیرانگلیسی زبان برای اوناست بنظر من (حداقل بخشی از اون). مثلا اگر براحتی میفهمیدن فلان سایت فارسی داره صرفا تقلب میکنه و اسپمه و اینها، و براشون اولویت بالایی داشت، خب دنبال میکردن و مشکل کار رو متوجه میشدن و اصلاح میکردن یا تنظیمات مربوطه رو انجام میدادن که اون مشکل برطرف بشه یا به حداقل برسه. از اون طرف حساب کنی خب انگلیسی زبانها بیشتر هم هستن و کار کردن با این ابزارها براشون راحتتره و مثلا در ریپورت کردن سایتهای مشکل دار طبیعتا آمار و کیفیت بالاتری هم دارن.

یک جنبهء مسائل هم بعد سیاسی و جو و کنترل حاکم بر اون کشور و موتور جستجو است. مثلا ایران که وضع اینترنت و فیلترینگ و سانسور درش اینقدر دچار مشکل و ابهامه و عملا کلی از اینترنت فیلتر و چپرچلاق شده و کسی هم پاسخگو نیست اونقدر شفافیت و پاسخگویی و مسئولیت و فیدبک و اصلاح وجود نداره هنوز، هنوز که هنوزه ساختار و طرز کار و نحوهء کنترل و نظارت سیستم فیلترینگ برای عموم روشن نیست، اونوقت چطور میشه به موتور جستجوش اعتماد و تکیه کرد؟ از کجا معلوم در نتایج با معیارهای سرخود و سیاسی و به نفع خودشون دست نبرن؟ ممکنه الان این کار رو نکنن، ولی بعدا چی؟ چقدر تضمین براش هست؟ موقعی که کاربر زیادی پیدا کرد، موقعی که در کشور بحرانی رخ داد، موقعی که آلترناتیو دیگری نبود، ... اصلا آدم یه وقتا میترسه از اینکه سرچ هاش رو هم کنترل بکنن و بر علیه خودش استفاده کنن و براش مشکل ساز بشه بعدا!

اگر گوگل رو فیلتر کنن احتمالا موتورهای جستجوی داخلی هم با اقبال بیشتری مواجه میشن!
مثل همین سایت آپارت که اگر یوتیوب فیلتر نمیشد من فکر نمیکنم اینقدر کاربر پیدا میکرد!
ولی این کار بنظرم تشویق سانسور و مجبور کردن مردم و از بین بردن بی طرفی اینترنت و آلترناتیوها و محیط رقابتی باز و خیلی مسائل دیگر است که شاید برای خیلی ها در کشور ما اصولا این مفاهیم و اهمیت اونا ناشناخته و غیرقابل درک است و جزیی از ایسم های غربی و فرهنگ و ساختار اجتماعی اونا محسوب میشه، ولی طبعات اونا در طولانی مدت احتمالا دیده و لمس خواهد شد و فراموش نکنیم که بهرحال این پدیده های مثل رایانه و اینترنت و غیره از همین کشورهای غربی تحت همین شرایط و تفکرات بوجود آمدن و بعید میدونم زمینهء وجود اونا حتی تا صد سال دیگر هم در کشورهایی مثل ما بوجود میامد! هرچند من با کنترل و مصلحت اندیشی و بومی سازی این پدیده ها از نظر فرهنگی و امنیتی بطور کامل مخالف نیستم، ولی قضاوت درمورد معیار و حدود و شکل این کارها و دادن این قدرت و کنترل تا چه حد و چطور به دست چه کسانی و چطور با چه تضمین ها و نظارت و کنترلی از جانب دیگران، مسئلهء پیچیده و چالش برانگیز و نگران کننده ای است.

sourceweb
پنج شنبه 14 اسفند 1393, 22:47 عصر
بالاخره کوئری سلکت رو نوشتم هوف خیلی مشکل بود
الگوریتمش به این شکل هست که مثلا شما سرچ میکنید : طراحی قالب اختصاصی میاد ابتدا همین کلمه رو سرچ میکنه داخل دیتابیس یعنی کلمه "طراحی قالب اختصاصی" بعد میاد کلمات "طراحی" و "قالب" و "اختصاصی" رو جدا جدا سرچ میکنه بعد هر سایتی این کلمات رو به صورت جدا جدا هم داخلش داشت لیست میکنه
یعنی اگر در یک قالب کلمه "طراحی قالب اختصاصی" به صورت "طراحی ارزان قالب زیبا و سبک اختصاصی" هم بیاد اون سایت رو پیدا میکنه
فکر میکنم برای شروع بد نشد سلکتش حالا باید روی رتبه بندی سایت هاش کار کنم ( البته بگم که همزمان دارم روی خزنده هم کار میکنم )

این هم عکس واسه اینکه متوجه حرفم بشید
:
http://8pic.ir/images/e2horyjx7fnzpbkgbzrv.png

sourceweb
پنج شنبه 14 اسفند 1393, 22:53 عصر
چیزی که در نظر دارم اینه که حالا در اینده جدا از جستجودر وب و تصاویر و ویدئو ها و اخبار یک بخش جستجو در موزیک ها هم اضاف کنم

desatir7316
پنج شنبه 14 اسفند 1393, 23:07 عصر
http://forum.ubuntu.ir/index.php/topic,112232.0/topicseen.html

MMSHFE
جمعه 15 اسفند 1393, 08:49 صبح
بالاخره کوئری سلکت رو نوشتم هوف خیلی مشکل بود

درمورد Sphinx و جستجوی Fulltext تحقیق کنید.

mhf693
جمعه 15 اسفند 1393, 09:28 صبح
بالاخره کوئری سلکت رو نوشتم هوف خیلی مشکل بود
.لازم نیست کل متن یک صفحه رو تو دیتابیس ذخیره کنی این جوری هم حجم بالا می ره هم سرعت جستجو میاد پایین(فرض کن 100 میلیون صفحه داری تو هر جستجو که کاربر می کنه که نمی تونی کل صفحات رو جستجو کنی سرعت به شدت میاد پایین) بهتره از روشی مثل ایندکس معکوس(inverted index) برای ذخیره استفاده کنی و کلماتی که ارزش ندارند (مثلا «و» «از» «برای» ...) رو هم به کمک الگوریتم هایی مثل tf-idf شناسایی کنی و اصلا ذخیره نکنی.

sourceweb
جمعه 15 اسفند 1393, 10:11 صبح
کوئری سلکت رو با استفاده از full text search انجام دادم و حروف اضافه ای مثل "و" - "یا" - "از" - "به" و این چنینی رو از جستجو جدا کردم

MMSHFE
جمعه 15 اسفند 1393, 11:48 صبح
Fulltext search خود MySQL امکانات و سرعت و دقتش مثل Sphinx نیست.

i-php-i
شنبه 16 اسفند 1393, 02:23 صبح
اول باید به این دوستمون بخاطر شجاعتش تبریک بگیم

آقای/خانم sourceweb براووو

اما کمکی که می تونم بکنم:
یکی دو سال قبل یه ربات نوشتم که اتوماتیک وارد وب سایتها می شد و صفحات اونها رو ذخیره می کرد و هر روز لینکهاشون رو چک می کرد که وجود دارن یا نه

یه مشکلی که داشتم این بود که بعضی از سایتها منقضی می شدن یا گاهی بعضی از سرورها زمان زیادی طول می کشید تا لود بشن

راه حلش این بود که برای CURL زمانی در حدود 25 ثانیه تعریف کنم تا اگر لود یه سایت بیشتر طول می کشید اسکریپت متوقف نشه و در عوض توی دیتابیس ذخیره کنه که فلان وب سایت مشکل لود سرور داره یا از دسترس خارج شده و...

اما دنیای واقعی!
یه اسکریپتی دارم که چند ماه روش کار کردم و قالب خیلی جذابی داره و امکاناتش هم خیلی زیاده. به هرکی نشون می دادم دهنش وا می موند و شروع به تعریف از ظاهر و امکانات و کاربردی بودن اسکریپت می کرد. تقریبا همه برنامه نویسهایی که دمو رو دیده بودن می گفتن اسکریپت رو به ما بده که به مشتریهامون بفروشیم.

اما الان بعد از حدود یک ماه و کلی تبلیغات فقط یه نفر یه نسخه از این اسکریپت رو خریده! یعنی چند ماهی که وقت صرف کردم هیچ فایده ای نداشته

قیمتش هم 400 تومن بود و رقم نجومی نداده بودم

امیدوارم این مشکل برای شما پیش نیاد...

sourceweb
شنبه 16 اسفند 1393, 06:48 صبح
تصویر خزنده ( در حال تکمیل شدن...هنوز تکمیل نشده)
http://8pic.ir/images/n9qbitlhmhs29521dgla.png

------------------------------------
اقا یا خانم i-php-i میشه سورس خزنده تونو ببینم؟ اگر میتونید خصوصی درارتباط باشید متشکرم

sourceweb
شنبه 16 اسفند 1393, 06:58 صبح
دوستان همین الان یه چیزی رو دیدم خواستم شما هم بینید
لینک اول :http://rabbit.yooz.ir/prabbit/prabbit.php
همچنین این :http://rabbit.gorgor.ir/prabbit/prabbit.php

چه جالب؟

در لینکای زیر یه Ctr+F بزنید چقد توش گوگل هست :D
ولینک دوم :http://rabbit.yooz.ir/prabbit/prabbit.js
همچنین :http://rabbit.gorgor.ir/prabbit/prabbit.js
اینم از جستجوگر اختصاصی ایران :| یوز :|

MH.S.dev
شنبه 16 اسفند 1393, 10:50 صبح
دوستان همین الان یه چیزی رو دیدم خواستم شما هم بینید
لینک اول :http://rabbit.yooz.ir/prabbit/prabbit.php
همچنین این :http://rabbit.gorgor.ir/prabbit/prabbit.php

چه جالب؟

در لینکای زیر یه Ctr+F بزنید چقد توش گوگل هست :D
ولینک دوم :http://rabbit.yooz.ir/prabbit/prabbit.js
همچنین :http://rabbit.gorgor.ir/prabbit/prabbit.js
اینم از جستجوگر اختصاصی ایران :| یوز :|

بله متاسفانه همینطوره!

n0o0b_sina
شنبه 16 اسفند 1393, 14:10 عصر
دوستان همین الان یه چیزی رو دیدم خواستم شما هم بینید
لینک اول :http://rabbit.yooz.ir/prabbit/prabbit.php
همچنین این :http://rabbit.gorgor.ir/prabbit/prabbit.php

چه جالب؟

در لینکای زیر یه Ctr+F بزنید چقد توش گوگل هست :D
ولینک دوم :http://rabbit.yooz.ir/prabbit/prabbit.js
همچنین :http://rabbit.gorgor.ir/prabbit/prabbit.js
اینم از جستجوگر اختصاصی ایران :| یوز :|
عجب!!! با اینا ثابت کردید که یوز ایرانی نیست؟ :|
البته من نمیدونم ایرانیه یا نه، ولی حداقل از شما انتظاره بیشتری میرفت که دلیل بهتری بیارید!!!
بهتره سورس رو نگاه کنید و ببینید چرا از کلمه گوگل استفاده شده! یا حتی از کلمه silverlight
و درضمن لینکه صفحات php هم ماله یه اسکریپته متن بازه که برای دریافت اطلاعات کاربران استفاده میشه!!!

ravand
شنبه 16 اسفند 1393, 15:05 عصر
من یوز رو امتحان کردم و دیدم درست و حسابی جستجو نمیکنه. مثلا این متن رو "مخفی و ظاهر شدن متن در jquery" در گوگل جستجو کنید و بعد در yooz.ir جستجو کنید. توی گوگل مطالب بهتری میاره. توی یوز یه سری چیزا میاره که اصلا به jquery ربطی هم نداره!

sourceweb
شنبه 16 اسفند 1393, 15:40 عصر
عجب!!! با اینا ثابت کردید که یوز ایرانی نیست؟ :|
البته من نمیدونم ایرانیه یا نه، ولی حداقل از شما انتظاره بیشتری میرفت که دلیل بهتری بیارید!!!
بهتره سورس رو نگاه کنید و ببینید چرا از کلمه گوگل استفاده شده! یا حتی از کلمه silverlight
و درضمن لینکه صفحات php هم ماله یه اسکریپته متن بازه که برای دریافت اطلاعات کاربران استفاده میشه!!!
خیلی جالبه
2تا موتور جستجوگر با یک اسکریپت؟ نه واقعا جالبه دو تاشو هم یه نفر نساخته جالبه نه؟
درضمن
ربیت یک اسکریپت نال شده ی جستجو هست که دانلود رایگان داره
از گوگل و بینگ نتایجشو میگیره با هم قاطی میکنه و میده به خورد کاربران
من تا تحقیق نکنم حرفی نمیزنم

MH.S.dev
شنبه 16 اسفند 1393, 16:21 عصر
از طرفی هم داره از Pure یاهو استفاده میکنه! حالا اینها به کنار امیدوارم برای ویندوز سرورشون حداقل لایسنسش خریداری شده باشه، نه کرک!!

m.esmaeilzadeh
شنبه 16 اسفند 1393, 16:45 عصر
موتور جستجو داخلی ؟!
شما هوش مصنوعی و الگوریتم های پردازش داده رو بلد هستی ؟
یا میتونی چند میلیارد برای تجهیزات سخت افزاری هزینه کنی ؟
:متفکر:

sourceweb
شنبه 16 اسفند 1393, 17:53 عصر
موتور جستجو داخلی ؟!
شما هوش مصنوعی و الگوریتم های پردازش داده رو بلد هستی ؟
یا میتونی چند میلیارد برای تجهیزات سخت افزاری هزینه کنی ؟
:متفکر:
به وقتش چرا که نه؟
اول یک نمونه ی کوچک و سطحی به مرحله آزمایش میرسونم اگر مشکلی نداشت و کار میکرد بله که هزینه میکنم !

n0o0b_sina
شنبه 16 اسفند 1393, 21:16 عصر
خیلی جالبه
2تا موتور جستجوگر با یک اسکریپت؟ نه واقعا جالبه دو تاشو هم یه نفر نساخته جالبه نه؟
درضمن
ربیت یک اسکریپت نال شده ی جستجو هست که دانلود رایگان داره
از گوگل و بینگ نتایجشو میگیره با هم قاطی میکنه و میده به خورد کاربران
من تا تحقیق نکنم حرفی نمیزنم
عزیز شما کلمه ی "دختر ایرانی" توی جستجو گر های گوگل، بینگ و یاهو سرچ کن همه چی میاد دستت!!! :| توی انجمن ubuntu هم مطرح شده این کلمه! واسه همون اینو گفتم واگرنه مثالهای زیادی هست!
---
عزیزم چه ایرادی داره سازندگان یه موتور جستجوی دیگ تو این یکیم همکاری کنن و از سورسه قبلیه استفاده بشه؟!
---
جسارت نشه ولی وقتی شما به تنهایی میتونی یه موتور جستجو بنویسی چرا یه گروه برنامه نویس نتونه؟!
---
باز هم میگم دلیل قانع کننده تری لطفا :|

sourceweb
شنبه 16 اسفند 1393, 21:44 عصر
عزیز شما کلمه ی "دختر ایرانی" توی جستجو گر های گوگل، بینگ و یاهو سرچ کن همه چی میاد دستت!!! :| توی انجمن ubuntu هم مطرح شده این کلمه! واسه همون اینو گفتم واگرنه مثالهای زیادی هست!
---
عزیزم چه ایرادی داره سازندگان یه موتور جستجوی دیگ تو این یکیم همکاری کنن و از سورسه قبلیه استفاده بشه؟!
---
جسارت نشه ولی وقتی شما به تنهایی میتونی یه موتور جستجو بنویسی چرا یه گروه برنامه نویس نتونه؟!
---
باز هم میگم دلیل قانع کننده تری لطفا :|

دوست عزیز شما فکر کن اختصاصیه
مگه من چی گفتم؟
کاملا مشخصه نتایجشو از گوگل میگیره
موفق بباشید

m.esmaeilzadeh
یک شنبه 17 اسفند 1393, 12:50 عصر
به وقتش چرا که نه؟
اول یک نمونه ی کوچک و سطحی به مرحله آزمایش میرسونم اگر مشکلی نداشت و کار میکرد بله که هزینه میکنم !

البته خوبه آدم پشتکار داشته باشه , ولی اینکه شما مد نظر داری شاید یک رویاء باشه ....
به هر حال موفق باشی
:چشمک:

mhf693
یک شنبه 17 اسفند 1393, 12:51 عصر
ربیت یک اسکریپت نال شده ی جستجو هست که دانلود رایگان داره
از گوگل و بینگ نتایجشو میگیره با هم قاطی میکنه و میده به خورد کاربران
من تا تحقیق نکنم حرفی نمیزنم
. این ربیت سایتی نداره؟ هر چی گشتم پیدا نکردم؟

mhf693
یک شنبه 17 اسفند 1393, 18:58 عصر
عزیزم چه ایرادی داره سازندگان یه موتور جستجوی دیگ تو این یکیم همکاری کنن و از سورسه قبلیه استفاده بشه؟!|
ایرادش خرج میلیاردی که براش شده! اگه از سورس یکی دیگه استفاده کردن چند میلیارد پول بی زبون مملکت رو کجا خرج کردن؟

prans.info
یک شنبه 17 اسفند 1393, 19:03 عصر
ایرادش خرج میلیاردی که براش شده! اگه از سورس یکی دیگه استفاده کردن چند میلیارد پول بی زبون مملکت رو کجا خرج کردن؟
این میلیارد و بوجه و اینا همش کشکه
دولت از این پولا نداره بده و داشته باشه هم نمیده اونم کجا تویه وب :متعجب:
اینا فقط خواستند گندش کنند .
اگر هم میگه بوجه دادیم به احتمال زیاد اومده هزینه تحصیل اون افرادی که ساختند و هزینه چند سال دیگه رو جمع کرده گفته اینقدر ...

mhf693
یک شنبه 17 اسفند 1393, 19:16 عصر
باگ xss در گرگر :
http://gorgor.ir/?q=%3Cscript%3Ealert%28%22hacked%22%29%3C/script%3E
که البته قبلش تو یوز هم بوده!

nsco_nsco
یک شنبه 17 اسفند 1393, 22:52 عصر
سلام کل مطالب را خوندم و گفتم این رو بنویسم خوبه اولا خیلی خوب میشه با پشتکار و یاری جستن از ائمه و خدا ب هرجا بخواین برسین مگه این سایت ها چی هستن که این طور ترس ب خود راه باید بدید اینا ایا برای خدا کاری داره؟ زمانی که از اون بخواید بهتون میده البته اگر واقعا از اون بخواین و بیشتر از اینکه فکر پول دراوردن ازش باشین بخواید که برای مردم کاری کرده باشین و این رو می دونم هر کسی بخواد می تونه به اون چیزی که میخ واد برسه و البته نباید ترس داشته باشه بابت الگوریتم ها هم هرچی بشینید می بینید ایده جدیدی به ذهنتون میرسه پس عجله نکنید الان هم متاسفانه در کشور ما همه کاری که می کنن الکی خرج تراشی هست مثلا می بینید تو چند ارگان که همه دولتی هستند داره به صورت موازی روی یک مسئله کار میشه و مهمتر از این که همکاری وجود نداره بینشون از اون طرف هم یاد گرفتیم ما ایرانی ها همش کپی زدن بکنیم الان خداییش این رباتیک ایران را ببینید یا همین سایت ها همش کپی برداری از خارجی ها هست وقتی هم یکی میاد با هزار زحمت و اون هم با بودجه خودش کاری می کنه هزارتا سنگ که می ندازن هیچی از اون طرف هم دل یارو را می شکنند طرف میگه برای چی بکنم وقتی این همه کپی بردار هست و پارتی برای چی خودم را این طوری بکنم در اصل نابود کنم از اون طرف هم که دیدید همین اخرین موتور جستجوگر معرفی شده ی و ز که ماشالله بدون هیچ تحقیقی اومده اسمی گذاشته که مال یک شرکت دیگه هست و سال هاست داره فعالیت می کنه اگر این دزدی نیست پس چی میشه اسمش را گذاشت از اون طرف میان یک جوری تعریف می کنن که واقعا خنده داره میگن این قابلینت و این قابلیت رو داره مثلا اسکرین شو داره میگن گوگل تازه ب این رسیده ما همین اول روی سیستم خودمون گذاشتیم این شاید برای یکی ادم معمولی که متوجش نیست یک چیز پیچیده هست اما برای خیلی از دوستان خنده داره از اون طرف ب قول خودشون اختصاصی همشون کار می کنن شاید اختصاصی دوستان معنی دارد که ما هنوز نفهمیدیم باز هم می گم دوست من بشین و روش کار کن فکر هیچی هم نکن اگر پول نداری خدات که هست اون میرسونه و از خودشون و ائمه بخواه ببین چطوری میزنی جلو و یک جمله دیگر از من بشنو هیچ وقت هیچ وقت برای پیشرفتت به چیزهای که الان داری قانع نشو چون قانع شدی دیگه تمومه پیشرفتی وجود نداره یک چیز دیگه هم برای گوگل بگم گوگل الان داره فقط شرکت می خره و ب اسم خودش می کنه یعنی میاد میبینه فلانی خوبه می خردش که این طوری بازار رو بگیره اما یک چیز رو بدونید صداقت و رو راستی با کاربر و همچنین کیفیت براشون از همه چیز مهمه من از همین جا از ته دل از خدا و اقا امام زمان می خوام کمکت کنه این هم بگم دوست نداشتم بگم اما خودم هم الان چندین ساله دارم روی همین سیستم جستجوگر کار می کنم یک نکته هم بدونید که برای الگ.ریتم نمی خواد زیاد فکر یک سری فرمول عجیب بکنید این شعار منه دوست من -- به مثاعل ساده نگاه کن تا ساده حل شود اگر از نظر فکری کمکی خواستید خبرم بدید من در خدمتتون هستم این رو هم بگم چون دیدم شما برای کشورت می خوای کار کنی و چشم داشتی نداری این ها را گفتم ، امیدوارم همیشه و همه جا موفق باشید . علی یارت

Jarvis
دوشنبه 18 اسفند 1393, 00:15 صبح
سلام
بگذارید حالا که همه توی این بحث شرکت کردن من هم نظر خودم رو عرض کنم و البته بگذارید یکم رک باشم!

از دولت شروع میکنم ، که طی این چند ساله با رفتارش نشون داده اگه میخواسته از کاری حمایت کنه ، 98 درصد موارد از علومی حمایت! کرده که قابلیت درک و لمس داشته اند ، یعنی فیزیکی بوده اند به عنوان مثال وقتی شما روبات بسازی ببری پیش مسئولین بهتر درک میکنن تا یه فلش که توش سورس حتی گوگل باشه مثلا! چون اون روبات رو بهتر میتونه لمس کنه و اجزاش رو تشخیص بده!

به همین خاطره که برنامه نویسا و کسایی که کارای نرم افزاری میکنن از دید بقیه در حد یه تعمیرکار کامپیوتر هستن!

حالا این ربطش چیه ؟ اینه که شما در صورتی که حتی یک موتور جستجوی بهتر از گوگل هم بنویسید ، از دولت نباید توقعی داشته باشید که طبق گفته ی خودتون متوجه شدم اینطور هستید.
-----
بحث بعدی که مد نظر من هست اینه که اینجور کارها بدلیل عدم وجود پشتوانه ی مالی خوب ، ابتدای کار صرفا باید ماهیت علمی تحقیقاتی داشته باشه و نه یک پروژه ی تجاری !

شما برای این کار باید الگوریتم های مختلفی رو بررسی کنید ، کل موتور رو به اجزای کوچکتری تقسیم کنید و به اصطلاح یک Structure ـه قوی براش در نظر بگیرید !

مثلا برای تفکیک وبلاگ ها از بقیه ی وبسایت ها ، یک الگوریتمی که به نظر من رسید اینه که وبلاگ ها اکثرا تحت یک ساب دامین هستند که کلمه ی blog توی اونها هست ، شما میتونید الگوریتمی طراحی کنید که تمامی آدرس هایی که از توی ساب دامین اون ها کلمه blog به کار رفته رو جدا کنید...
----
بحث دیگه ای که میخوام خدمتتون عرض کنم ، اینه که الان در حال حاضر با روند پیشرفت تکنولوژی و سرعت سرسام آور اون در حالتی هم که بشه یک موتور جستجوی قوی مثل گوگل هم طراحی کرد واقعا هنر نکردیم! فقط چرخ رو دوباره اختراع کردیم ، چه بسا تا اون موقع گوگل هم پیشرفت های بیشتری داشته باشه !
پس باید چند تا ایده به این موتور اضافه کنیم که باعث بشه کاربر موتور ما رو به گوگل ترجیح بده ..
شاید این چیزی که الان در موردش میگم یکم احمقانه به نظر برسه .. ولی از دیدگاه من تا چند سال آینده شدنیه ...
حالتی رو فرض کنید که توی خونه در حال تماشای تلویزیون هستید و تلویزیون اسم یک گیاه دارویی رو نام می بره و میگه خواص درمانی داره ، اما خواص درمانی اون رو توضیح نمیده
شما خیلی ساده اسم موتور جستجو رو صدا میزنید و میگید خواص درمانی فلان گیاه رو برام پیدا کن! نتایج ویکی پدیا رو حذف کن!
و اون بره خیلی هوشمندانه نتایج رو براتون در بیاره و شروع کنه خوندن!
حالا اینجا ما باید الگوریتمی طراحی کنیم که کاربران وقتی دنبال اطلاعات دارویی میگردند موتور ما به ترتیب اولویت از چه سایت هایی بهره ببره
حتی بتونیم نوع اطلاعات رو هم طبقه بندی کنیم ، مثلا اطلاعات پایه برای عموم مردم ، یا اطلاعات تخصصی برای گیاه شناسان و...
حتی الان با وجود اینترنت اشیا ، موتور بتونه به گجت هامون هم سرویس بده...
به طور کلی نسل جدیدی از موتور جستجو رو معرفی کنیم ، روش های سنتی و قدیمی تر رو حذف کنیم و روش های جدید و جالب تری رو اضافه کنیم.

سعی کنید براش ایده پردازی کنید ، هر چند ایده های کم ارزش و احمقانه ... توئیتر به اون بزرگی یه روزی یه ایده ی احمقانه بود!
من خودم این ایده رو اینجا مطرح کردم .. شاید احمقانه باشه ... ولی رؤیایی و تخیلی نیست...

و در نهایت اون چیزی که مهم تر از هر چیزی هست پیاده سازی ایده هاست که ایده ها به تنهایی هیچ ارزشی ندارند...
و این که : هیچ چیزی اونقدر هوشمند و به تمام عیار نیست که نشه هوشمندترش کرد!
بخاری هنوزم داره هوشمند تر میشه :دی

به عنوان کسی که تجربیات و دانش کمی داشتم سعی کردم نظر خودم رو عرض کنم تا بدونید اگه میخواید پا توی چنین مسیری بگذارید پارامترهایی رو هم باید مد نظر قرار بدید
و اگه کمکی از دستم بر بیاد کوتاهی نمیکنم...

از این که طولانی شد عذرخواهی میکنم.

موفق و سربلند باشید.

freeman99
دوشنبه 18 اسفند 1393, 00:43 صبح
باگ xss در گرگر :
http://gorgor.ir/?q=%3Cscript%3Ealert%28%22hacked%22%29%3C/script%3E
که البته قبلش تو یوز هم بوده!
:متعجب:
این باگ فوق العاده ناشیانه و پیش پا افتاده است.
یعنی سطح تخصص و پیاده سازی امنیت در برنامه نویسی بسیار پایین!
برای یک چنین پروژه هایی که میگن (:متفکر:) بزرگ و مهمه، چنین چیزی اصلا جور در نمیاد!! یعنی من موندم اینجور باگها رو فقط برای برنامه ها و سایتهای خیلی معمولی و پیش پا افتاده و برنامه نویسان مبتدی میشه قابل قبول دونست.
یعنی توی صفحهء اصلیش توی پارامتر اصلی ... یک چنین باگی که در مباحث امنیتی مقدماتی هم به کرات مطرح شده و چیز ساده و روشنیه و روش جلوگیریش هم ساده است، ... برای یک به اصطلاح موتور جستجو با اون سر و صدا و هزینه ها...
بقول یارو، من دیگه حرفی ندارم :لبخندساده:
اینجاست که متوجه میشیم گوگل شدن و فیسبوک شدن چقدر با تصوری که بعضی دارن تفاوت میکنه! یه ظاهر میبینن فقط. در باطن تفاوت خیلی زیاده و به چیزهای خیلی بیشتری نیازه تا بشه واقعا مشابه امثال گوگل بود!

prans.info
دوشنبه 18 اسفند 1393, 00:59 صبح
به نظر من بحث رو از این گرگر و یوز و پارسی جو خارج کنیم بهتره چون اینا در کل در حد اون چیزی هم نیستند که شاید قراره استارتر بسازه و ما داریم در موردش بحث می کنیم (البته نظر شخصیم اینه که پارسی جو از اون دوتا بهتره) .
اینکه دولت چی گفته و چی تبلیغ کرده یا در واقع این سایت ها دقیقا چی هستند و کی ساخته و چطوری ساخته مهم نیست و جای این بحث ها حداقل تویه این تاپیک نیست و بحث اصلی ما ساخت موتور جستجوی داخلی هست ...
در تایید صحبت های جناب jarvis باید عرض کنم که ایده خیلی مهمه و شما سعی نکنید یک موتور جستجو مثل یاهو یا گوگل یا بینگ بسازید که موتور های جستجوی عمومی هستند .
موتور های جستجوی اختصاصی (مختص به جستجوی یک چیز خاص) بسازید که بهتر جواب میدند .
شما اول موتور جستجوی اختصاصی رو بسازید بعد اگه جواب داد کم کم گستره موتور رو بیشتر بکنید ...
ایده خود من هم مربوط به یک جستجوی موارد خاصی هست (متاسفانه نمیتونم ایدم رو بگم :لبخند:) و مطمعن هستم که جواب میده و مورد استقبال مردم قرار میگیره ، حالا اگه موتور رو با زبان انگلیسی هم هناهنگ کنم که جهانی میشه :قهقهه:.

freeman99
دوشنبه 18 اسفند 1393, 01:03 صبح
توئیتر به اون بزرگی یه روزی یه ایده ی احمقانه بود!

هنوزم احمقانس :لبخند:

کلا در دنیا آدم احمق و نادان و علاف زیاده، بخاطر همین اینطور چیزها اینقدر کاربر پیدا میکنن و اینقدر نفر ساعت که پای اینا میره بازدهی خیلی کمی داره بیشترش وقت تلف کردنه. یعنی فکر کن مثلا بجای این چرندیات شبکه اجتماعی و فیسبوک که شده جای وقت گذرانی و دختر پسر بازی و چیزهای مبتذل تر و فساد که همه میدونید چقدر این استفاده ها توشون زیاده، مردم اهل کتاب خوندن و بحث علمی و اصولی (که جاش هم توی سایت و فرومه و نه شبکهء اجتماعی و چت) بودن و کارهای مفید دیگه، اونوقت اون دنیا خب یه دنیای دیگه بود دنیای واقعی ما نبود :لبخند:

من خودم مثلا وایبر دارم، واتس اپ دارم :لبخند: نمیگم استفاده مفید ندارن، نمیگم لزوما جمعشون کنن جلوشون رو بگیرن، ولی شخصا خیلی کم استفاده میکنم چون آدم علافی نیستم. یه وقتا واسه کارهای واقعی و مفیده.

طرف نمیدونم نهار میخوره میره توی توییتر مینویسه داره چه شاهکاری میکنه مثلا سگش هم کنارشه :قهقهه:
این شد کار و بار ملت علاف.
یه چیزهایی مثل توییتر بنظر من اوج حماقت و نادانی عدهء زیادی از انسانها رو نشون میدن و کسانی هم که این سرویسها رو درست کردن پشت پرده خودشون خیلی وقتا اهداف دیگه ممکنه داشته باشن یا به ریش این نادانها میخندن! خودشون برنامه نویس قدر شدن اینقدر علاف نبودن که! تازه کلی پول هم درمیارن!

nsco_nsco
دوشنبه 18 اسفند 1393, 01:11 صبح
:متعجب:
این باگ فوق العاده ناشیانه و پیش پا افتاده است.
یعنی سطح تخصص و پیاده سازی امنیت در برنامه نویسی بسیار پایین!
برای یک چنین پروژه هایی که میگن (:متفکر:) بزرگ و مهمه، چنین چیزی اصلا جور در نمیاد!! یعنی من موندم اینجور باگها رو فقط برای برنامه ها و سایتهای خیلی معمولی و پیش پا افتاده و برنامه نویسان مبتدی میشه قابل قبول دونست.
یعنی توی صفحهء اصلیش توی پارامتر اصلی ... یک چنین باگی که در مباحث امنیتی مقدماتی هم به کرات مطرح شده و چیز ساده و روشنیه و روش جلوگیریش هم ساده است، ... برای یک به اصطلاح موتور جستجو با اون سر و صدا و هزینه ها...
بقول یارو، من دیگه حرفی ندارم :لبخندساده:
اینجاست که متوجه میشیم گوگل شدن و فیسبوک شدن چقدر با تصوری که بعضی دارن تفاوت میکنه! یه ظاهر میبینن فقط. در باطن تفاوت خیلی زیاده و به چیزهای خیلی بیشتری نیازه تا بشه واقعا مشابه امثال گوگل بود!

مشکل طراحیشون اینه که اول جستجوگر را ساختند فکرش نکردند یک سری پیش زمینه ها می خواد که ستون های جستجوگر هست و باید اول اینها برنامه ریزی بشود .

sourceweb
دوشنبه 18 اسفند 1393, 06:48 صبح
دوستان عزیز خزنده ی خبر و خزنده ی ویدئو به اتمام رسید از 2 روز پیش تا حالا تعداد ویدئو های جمع شده : 4591 عدد تعداد خبرها :11992 عدد
خزنده ی وب از همه مشکل تره :(
تصاویر هم به زودی نوشته میشه خزنده ش (همراه با خزنده ی وب)
جز این 4مورد سه مورد دیگه هم قراره به مرور زمان اضاف بشه که حدودا میشه اسم جستجوگر رو گزاشت(موتور جستجوگر چند رسانه ای)
خب یه برتری هایی نسبت به گوگل داره این موضوع...

دوستان ممنونم که نظرات ارزشمندتون رو اینجا مطرح میکنین و وقت میزارین

دوستانی که میگن نمیشه و نمیتونی و هزینه داره و این چیزا... اگه برای ساخت هرچیز گفت نمیشه که الان دنیایی وجود نداشت همه داشتیم توی خاموشی مطلق علم دست و پا میزدیم

سرگئی برین و لاری پیج موسسان گوگل موقع ساخت گوگل مگه گفتن نمیشه؟ شروع کردن...بالاخره شد
شما برین سایت archive.org ببینین نسخه ابتدایی گوگل چی بود حالا چی شده بعد بگین نمیشه...

زیاد حرف زدم:D باز هم نظرات خودتونو بگید دوستان
یا حق

Jarvis
دوشنبه 18 اسفند 1393, 13:12 عصر
به همه توصیه میکنم این لینک رو مطالعه کنند :
http://infolab.stanford.edu/~backrub/google.html

bagherok
دوشنبه 18 اسفند 1393, 21:09 عصر
دوستان عزیز خزنده ی خبر و خزنده ی ویدئو به اتمام رسید از 2 روز پیش تا حالا تعداد ویدئو های جمع شده : 4591 عدد تعداد خبرها :11992 عدد

چطوریه
یعنی الان دارید تنهایی رو پروژه کار میکنید.
یه مخزن تو گیت هاب یا Bitbucket نمیسازید تا اگه کسی خواست مشارکت کنه.

sourceweb
دوشنبه 18 اسفند 1393, 21:57 عصر
چطوریه
یعنی الان دارید تنهایی رو پروژه کار میکنید.
یه مخزن تو گیت هاب یا Bitbucket نمیسازید تا اگه کسی خواست مشارکت کنه.
والا من منتظربودم از کاربرای این سایت کسی اعلام آمادگی کنه که کسی حاظر نشد با بنده ی حقیر همکاری کنه
شاید بخاطر این بود که ذکر کردم هیچ بودجه ای موجود نیست !

Jarvis
دوشنبه 18 اسفند 1393, 22:01 عصر
من هم تا حد توان بصورت Part-Time به عنوان یک کار علمی - تحقیقاتی کمک میکنم ...

H:Shojaei
دوشنبه 18 اسفند 1393, 22:40 عصر
بنده هم دوست دارم تو همچین کاری مشارکت کنم (البته زیاد روم حساب نکنیدا در حد یه for و دوتا if :لبخند:) و با هم این کار رو محکوم به پیشرفت خواهیم کرد...
به نظرم اساتیدی که تو این فرم هستند بهترینها تقریبا تو ایران اند بیاید دست به دست هم دهیم و این پروژه رو کستردش کنیم و به این دولت بفهمونیم که همه چیز پول بیت المال خرج کردن واسه یه پروژه نیست که هرچی پول بیشتر کار بزرگتر!!!

bagherok
دوشنبه 18 اسفند 1393, 22:45 عصر
گیت هاب امکان خصوصی کردن پروژه نمیده مگه با پرداخت هزینه
اما تو
Bitbucket تا 5 نفر رایگانه.

نظرم رو گیت هاب وبصورت یه پروژه عمومی هست.
اینجوری هرکی که بخواد میتونه پروژه رو فورک کنه.

درحدتوان خوشحال میشم که بتونم کمک کنم.

freeman99
دوشنبه 18 اسفند 1393, 23:23 عصر
سرگئی برین و لاری پیج موسسان گوگل موقع ساخت گوگل مگه گفتن نمیشه؟ شروع کردن...بالاخره شد
شما خودتو با اونا مقایسه میکنی؟ جدا مطمئنی در حد شما بودن؟

اگر واقعا میخوای یه کار بزرگ بتونی بکنی و جدیت این کار رو داری اول باید بری ببینی چه سوادی میخواد چه چیزهایی باید یاد بگیری، بعد احتمالا حداقل چند سال فقط طول میکشه که بتونی به اون حد برسی.
مشکل اینه همه میخوان همه چیز رو صرفا بصورت عملی و تجربی و پروژه محور شروع کنن، ولی درمورد خیلی چیزا هم نمیشه اینطور عمل کرد یا حداقل نمیشه یا بهینه نیست با هر سطحی که داریم به این شکل کار کنیم. نباید فکر کنید همه چیز در یک سطحه و یک روش درموردش جواب میده.
شما ببین همون سرگئی برین و لاری پیج همون موقعش چقدر تحصیلات و چه سوابقی و سطحی داشتن. آیا درحد پروژه یه فرد عادی شروع کردن؟ همینطور با یک سواد معمولی؟ من بعید میدونم اونا از آدمای معمولی بوده باشن. معمولا این افراد زمینه قوی ای دارن و آدمهای باهوش و باسوادی هستن که قبلا هم برجستگی ها و درخشندگی خودشون رو بصورت عملی و/یا تئوریک نشون دادن. کسانی که طرف این ایده ها رفتن از بروبچ باهوش و باسواد دوران خودشون بودن. شکی در این نیست. مثلا بیل گیتس همون داس رو که تازه کپی دستکاری شده سیستم عامل یکی دیگه بود شروع کرد، فکر میکنی همین کار و همون داس درپیت چقدر سواد میخواد همین الانش هم هرکسی نمیتونه این چیزا رو دست بگیره و به جایی برسونه.


شما برین سایت archive.org ببینین نسخه ابتدایی گوگل چی بود حالا چی شده بعد بگین نمیشه...
خسته نباشید! اونکه یک ظاهر و اینترفیس مختصر بیشتر نیست. اینترفیس موتور جستجو که چیز زیادی نداره. پشت پرده که اصل کاره مهمه!
البته در اینکه ساختار و کدهای گوگل هم یه زمانی خیلی ساده تر و ضعیف تر از الان بوده شکی نیست، ولی بعید میدونم همونش هم چیز کم و ساده ای بوده باشه.


زیاد حرف زدم:D باز هم نظرات خودتونو بگید دوستان
چون خودت گفتی نظرم رو گفتم، امیدوارم بدت نیامده باشه و باز مهندس شهرکی ایراد نگیره!
(البته دروغ نگم قبل از اینکه این جمله هات رو ببینم داشتم این پست رو میزدم :لبخند:)

freeman99
دوشنبه 18 اسفند 1393, 23:35 عصر
موضوع اینه مثلا الان که این آقا اینطور میگه (که نمیدونم دقیقا واسه کی داره میگه):

به همه توصیه میکنم این لینک رو مطالعه کنند :
http://infolab.stanford.edu/~backrub/google.html
شما نباید مشکلی داشته باشی با اینطور منابع باید راحت و روان خودت بتونی بخونی و بفهمی. در درجهء اول باید سوادش رو داشته باشه، در درجهء بعدی جدیت و همتش رو که همینطور پشت گوش نندازی یا سطحی و سریع و ناقص نخونی. باید اهل مطالعه مطالب طولانی و خشک باشی. کار بزرگ و جدی بدون این توانایی ها نمیشه!
حالا خداییش بگو سواد زبان انگلیسی و توانایی خوندن و درک مطلبت در چه سطحیه؟
ضمنا ترجمه های چپرچلاق گوگل موگل هم چندان به درد این کارها نمیخوره! (و همچنین به درد خیلی کارهای دیگه)

bagherok
دوشنبه 18 اسفند 1393, 23:35 عصر
اگر واقعا میخوای یه کار بزرگ بتونی بکنی و جدیت این کار رو داری اول باید بری ببینی چه سوادی میخواد چه چیزهایی باید یاد بگیری، بعد احتمالا حداقل چند سال فقط طول میکشه که بتونی به اون حد برسی.

حالا کی گفته بزرگ!
مهم اینه که یه هدف داشته باشی و برای رسیدن بهش تلاش کنی
تو همین منوال هم به هدفت میرسی وهم به اون سطح عملی که شما میگید
اما این چیزی که شما میگید اول به اون سطح برسی بعد تازه شروع کنی شدنی نیست
لااقل برای من اینجوری بوده وخیلی های دیگه

bagherok
دوشنبه 18 اسفند 1393, 23:39 عصر
حالا
فرض کن شما تو 10 دقیقه یکی دیگه تو یه ساعت
مهم اینه که بدونی واسه چی داری میخونی.

خواهشا زیاد وارد حاشیه نشو
بذار کارشونو بکنن

freeman99
دوشنبه 18 اسفند 1393, 23:57 عصر
مهم اینه که یه هدف داشته باشی و برای رسیدن بهش تلاش کنی
رسیدن به هر هدفی یک یا چند روش شدنی/عاقلانه/بهینه داره. همینطوری نیست که هردمبیل از هر راهی که راحتی یا بدون اطلاعات و بینش و سند و دلیل فکر میکنی شدنیه بری دنبال هرچیزی. من واسه خودت میگم، کلی وقت و انرژی صرف میکنی ولی آخرش میخوری به بن بست و تازه میفهمی که اشتباه کردی.


تو همین منوال هم به هدفت میرسی وهم به اون سطح عملی که شما میگید
توی کدوم منوال؟ بعنوان مثال یکی که هنوز رگولار اکسپرشن رو خوب بلد نیست بره سراغ طراحی موتور جستجو و در همین جریان هرچی لازمه منجمله رگولار اکسپرشن رو هم قشنگ یاد میگیره و استفاده میکنه؟ بنظر من این زیاد واقعگرایانه نمیاد! معمولا کسی که نخواسته یا نتونسته به اون پایه و سطح حداقلی برسه، یه دلایل و مشکلات جدی در جایی وجود داره و بعدا هم درموردش معجزه ای صورت نمیگیره، چون کارهای کوچکتر و ساده تری رو که باید به موقع خودش میکرده نکرده که بعدا تازه میتونه سخت تر هم بشه به دلایلی منجمله محدودیت وقت. کار بزرگ رو بخوای بدون آمادگی شروع کنی طبیعتا سخت تره و زمان بیشتری میبره، و آدمهایی که اراده و جدیت نداشتن به موقع کارها و وظایف قبلی و ساده تر خودشون رو انجام بدن، نمیشه روشون حساب کرد و جدی گرفتشون. هرچند گاهی شاید استثنا هم باشه به دلایلی ولی استثناها طبیعتا کم هستن از نظر آماری و احتمال خیلی پایین تری دارن!


اما این چیزی که شما میگید اول به اون سطح برسی بعد تازه شروع کنی شدنی نیست
کدوم سطح؟ من نمیگم سطح خیلی بالا که همه چیز رو در سطح بزرگان اونم با اون همه تجربه از قبل یاد بگیری، ولی یک حداقل معقولی یک پیشنیازها و آمادگی و پایه بالاخره میخواد یا نه؟ شما ریاضی بری فیزیک بری هر رشتهء علمی و پیشرفته و پیچیده ای بری طبیعتا یک سلسله مراتبی رو باید طی کنی باید برای ورود به یک کاری و یک مرحله ای اول مراحل قبلی و آموزش تئوریک رو پشت سر گذاشته باشی. هنوز ریاضیات پایه رو درست بلد نیستی میتونی ریاضیات دانشگاهی رو شروع کنی میتونی از ریاضیات نظریه ها و کاربردهای عملی که بزرگان ارائه میدن بکشی بیرون؟

Jarvis
سه شنبه 19 اسفند 1393, 00:09 صبح
موضوع اینه مثلا الان که این آقا اینطور میگه (که نمیدونم دقیقا واسه کی داره میگه):

شما نباید مشکلی داشته باشی با اینطور منابع باید راحت و روان خودت بتونی بخونی و بفهمی. در درجهء اول باید سوادش رو داشته باشه، در درجهء بعدی جدیت و همتش رو که همینطور پشت گوش نندازی یا سطحی و سریع و ناقص نخونی. باید اهل مطالعه مطالب طولانی و خشک باشی. کار بزرگ و جدی بدون این توانایی ها نمیشه!

برای هر کسی که دوست داره گذاشتم!


حالا خداییش بگو سواد زبان انگلیسی و توانایی خوندن و درک مطلبت در چه سطحیه؟
شما فرض کن من اصن انگلیسی بلد نیستم و به پای شما نمیرسم! خوبه؟!


ضمنا ترجمه های چپرچلاق گوگل موگل هم چندان به درد این کارها نمیخوره! (و همچنین به درد خیلی کارهای دیگه)
اگه Google Translate رو میگی ، به عنوان دیکشنری کلمه قبولش دارم... ولی جمله رو نه...

sourceweb
سه شنبه 19 اسفند 1393, 07:37 صبح
درکل من هدفتو نمیفهمم از این حرفات اقای (freeman99) مثلا میخوای بگی سواد انجام اینکار رو ندارم؟اگه داشتم چرا این تاپیک رو میزدم؟خودم تو خاموشی اینکارو انجام میدادم و یکهو رونمایی میشد
درضمن شما که میگی خودتو با لاری پیج مقایسه میکنی...بله مقایسه میکنم مگه مقایسه عیبه؟یه مزیت هایی ایشون داشتن نسبت به من یه مزیت هایی من دارم نسبت به ایشون یکی اینکه اون زمان چنین امکاناتی نبود اما الان هست و کار خیلی راحت تره پس خواهشا این حرفای بچه گانهتونو نزنین :)

درکل بازم درک نمیکنم چرا مثلا این حرفاتو میزنی
مثلا واسه اینکه انصراف بدم از ساختش یا کلا بیخیالش بشم؟ نه برادر من بیخیالش نمیشم حداقل حداقل یه نسخه آزمایشی ساده میسازم ببینم اگر اوکی بود
قدم به قدم میرم جلو و پیشرفتش میکنم
درضمن دوست خوبم اقای Jarvis هم قرار شد کمک کنه و در نهایت هر قسمتشو که ساختیم کد های اوپن سورسش رو اینجا بزاریم تا بقیه دوستان استفاده کنند
درحال حاظر جناب Jarvis برروی کلس تبدیل فینگلیش به فارسی کار میکنند و من هم طبق روز های گذشته روی خزنده البته باید بگم خزنده رو از نو نوشتم و دارم
طبق قوانین خزنده ها پیش میرم (http://en.wikipedia.org/wiki/Web_crawler#Crawling_policy)

بهرحال جناب freeman99 حاشیه سازی نکن دمت گرم

یا حق

MMSHFE
سه شنبه 19 اسفند 1393, 07:48 صبح
این حرفهای حاشیه ای freeman99 رو زیاد جدی نگیرین. کلاً از اون دسته آدمهاست که باید همه شرایط اولیه رو مهیا کنه و بعد شروع کنه و برای همین هم یک عمره که توی فاز آماده سازی گیر کرده و هیچ کار درست و حسابی رو به مرحله اجرا و استفاده و کاربرد عملی نرسونده. شما با جدیت کارتون رو ادامه بدین. از اینکه مشکل پیش بیاد هم نترسین. دیگه از یوز و... که بدتر نمیشه. یه زمانی ادیسون واسه اختراع یه وسیله ای (یادم نیست چی بوده) 1039 راه رو رفت و شکست خورد. یکی بهش گفت نا امید نشدی؟ احساس نمیکنی عمرت رو تلف کردی؟ گفت نه ابداً. حداقل امتیازی که بدست آوردم اینه که به آیندگان میتونم بگم اگه دنبال اختراع این وسیله هستین، این 1039 راه رو طی نکنین چون من تست کردم نتیجه نداد.

پروژه رو روی گیت هاب بگذارین و از عمومی شدنش نترسین. درسته خیلیها ممکنه کپی کنن ولی خیلیها هم هستن که میان توی بهبودش کمک میکنن. درهرحال اینکه چه تغییرات فرعی توی سیستم اصلی بیاد هم دست خودتونه. گوگل هم روزهای اول که چه عرض کنم، تا همین چند سال قبل هم باگها و اشتباهات ریز و درشت زیادی توی نتایج جستجو و الگوریتمهای رتبه بندیش داشت. همین الان هم بی عیب نیست و مدام دارن روی بهبودش کار میکنن.

لری پیج و سرگئی برین هم از فضا نیومدن. نصف بیشتر اختراعات مهم امروز در حوزه IT و موبایل توسط انصرافیهای دانشگاه رخ داده و خیلیهاشون تحصیلات آکادمیک خاصی ندارن (یا حداقل موقع استارت کار نداشتن) ولی با جدیت شروع کردن و اشکالات کار رو هم در حین اجرا و توسعه برطرف کردن. مهم اینه که از الان پروژه رو جوری بسازین که توی ایجاد تغییرات اذیت نشین. منظورم شئ گرا نویسی و ماژولار کار کردن و... است. مستندات و کامنتهای مناسب توی کد بگذارین که بقیه که میخوان کمک کنن، راحتتر سر از کدها در بیارن. یک ساختار مناسب و استاندارد و یکپارچه برای نامگذاری متغیرها و سایر موضوعات انتخاب کنید و توی مستندات هم بنویسید. روی Test Driven Development هم تحقیق کنید.

freeman99
سه شنبه 19 اسفند 1393, 08:29 صبح
برای هر کسی که دوست داره گذاشتم!
دوست داشتن به تنهایی کافی نیست، باید بتونه بخونه و بفهمه که زبان انگلیسی سواد میخواد.
فکر میکنی اینجا چند نفر در این حد هستن که یک چنین متن انگلیسی طولانی ای رو بتونن و بشینن بخونن؟
افراد الان اکثریت طوری هستن که به خودشون زحمت مطالعه های طولانی رو نمیدن، و این فقط حرف من نیست (جای دیگه هم دیدم دیگران گفتن). مثلا بیشتر از نیم صفحه باشه یه متنی به ندرت میخونن. و این نشون میده شرایط آدمهای این دور و زمونه چطوره. مسلما برای پیدا کردن دانش و توان کافی در خیلی موضوعات، باید آدم مطالعه گر حرفه ای باشه. و چنین افرادی کم هستن. یکیش بنده :لبخند: من اغلب روزی اندازه یک کتاب کوچک مطلب میخونم! (اکثریتش هم منابع به زبان انگلیسی، نه منابع محدود و چپرچلاق فارسی)


شما فرض کن من اصن انگلیسی بلد نیستم و به پای شما نمیرسم! خوبه؟!
منظورم شما نبودی!!


اگه Google Translate رو میگی ، به عنوان دیکشنری کلمه قبولش دارم... ولی جمله رو نه...
دیکشنری که آفلاینش هم هست. مثلا بابیلون.
خیلی ها روی زبان خودشون کار نمیکنن از Google Translate یا ابزارهای مشابه استفاده میکنن. خواستم بگم که اینا به پای اینکه خودت وارد باشی و ترجمه کنی نمیرسن و برای کارهای تخصصی و دقیق کارایی ندارن.

freeman99
سه شنبه 19 اسفند 1393, 08:41 صبح
درکل من هدفتو نمیفهمم از این حرفات اقای (freeman99) مثلا میخوای بگی سواد انجام اینکار رو ندارم؟
نمیدونم شاید داشته باشی، ولی تا حالا چیز خاصی بروز ندادی که نشون بده سوادت در سطح خوبیه نسبت به بقیهء افراد عادی که اینجا هستن. منم دارم بهت میگم که برای این کار یک سطح سواد خوبی میخواد و ازت سوال میکنم و محک میزنم، نمیگم حتما سوادش رو نداری.


درضمن شما که میگی خودتو با لاری پیج مقایسه میکنی...بله مقایسه میکنم مگه مقایسه عیبه؟یه مزیت هایی ایشون داشتن نسبت به من یه مزیت هایی من دارم
من دیشب به نگاه سطحی به ویکیپدیا انداختم. لری که دکترا داشته، اون یکی هم باباش استاد ریاضی دانشگاه و مادرش محقق ناسا است.
ضمنا باید بگم بنظر من در موتور جستجو ریاضی هم اهمیت داره (نسبت به انواع برنامه های عادی دیگه بیشتر) و اگر ریاضیت خوب باشه میتونه کمک خوبی باشه.


نسبت به ایشون یکی اینکه اون زمان چنین امکاناتی نبود اما الان هست و کار خیلی راحت تره پس خواهشا این حرفای بچه گانهتونو نزنین :)
توی همون مقاله که دوستتون ارائه داد اگر نگاه سطحی هم میکردید، که من همینطور یه نگاه انداختم چند خط پراکنده ازش خوندم، ظاهرا نوشته بود که به دلایل متعددی نوشتن موتور جستجو در حال حاضر دشوارتر شده نسبت به گذشته. بهرحال وب و فناوریهای و انتظاراتی که از موتور جستجو میره گسترش پیدا کردن. البته یک دلیلش بخاطر مقیاس بزرگ کار هم هست، که اگر مقیاس مورد نظر شما کوچک یا درحد آزمایش و تحقیق و تمرین باشه شاید این مسئله دیگه اهمیت زیادی نداشته باشه.


درکل بازم درک نمیکنم چرا مثلا این حرفاتو میزنی
مثلا واسه اینکه انصراف بدم از ساختش یا کلا بیخیالش بشم؟ نه برادر من بیخیالش نمیشم حداقل حداقل یه نسخه آزمایشی ساده میسازم ببینم اگر اوکی بود
هیچی من صرفا واقعیت رو از دید خودم بیان میکنم.
اینکه آدم واقعیت های خودش و دنیای اطرافش رو همونطور که واقعا هست ببینه چیز بدی نیست که خوب هم هست و حتی ضروری برای کارهای بزرگ و موفقیت.
اگر میخوای آزمایشی و اینا درست کنی که مشکلی نیست منم قبلا گفته بودم که مشکلی نداره واسه آزمایش و تمرین و تحقیق و در مقیاس کوچکتر و ساده تر. ولی یکی که واقعیات رو نمیدونه میره بر اساس یکسری تصورات و حدسهای بی پایه یک هدفی رو میگیره که از درجهء بزرگی و دشواری اون و پیش نیازهای گسترده شخصی و برونی که داره درست مطلع نیست و دست کم گرفته، خب اون شخص احتمال زیاد نهایتا به بن بست میخوره و پشیمون میشه و اگر از اول میدونست اونقدر وقت و انرژی خودش رو تلف نمیکرد شاید میرفت دنبال چیز دیگه یا اول میرفت سراغ تحقیق دربارهء چگونگی و بدست آوردن پیشنیازها.

واقعیت گرایی چیز بدی نیست. و اکثرا آدمهای واقعیت گرا و رک و صریح با آدمهای منفی نگر و بدبین و اینها اشتباه گرفته میشن!
کمتر کسانی در تمام جنبه های زندگی جرات رویارویی با واقعیت و پذیرفتن و بیان کردن واقعیت ها رو دارن. واقعیت ها اکثرا به مذاق اکثریت مردم که بنوعی در تصورات بی پایه و توهمات خودشون زندگی میکنن خوش نمیاد.

freeman99
سه شنبه 19 اسفند 1393, 09:02 صبح
این حرفهای حاشیه ای freeman99 رو زیاد جدی نگیرین. کلاً از اون دسته آدمهاست که باید همه شرایط اولیه رو مهیا کنه و بعد شروع کنه
اینو خوب اومدی!
بقول خودت میگی شرایط اولیه.
یعنی بنظر شما شرایط اولیه نیازی نیست از اول فراهم باشن؟
بعدم من زیاد شکست و ماست مالی و گند کاری کسانی که این کار رو نمیکنن دیدم!


و برای همین هم یک عمره که توی فاز آماده سازی گیر کرده و هیچ کار درست و حسابی رو به مرحله اجرا و استفاده و کاربرد عملی نرسونده.

بقول معروف میگن جوجه رو آخر پاییز میشمارن! هنوز از عمرم کلی مونده :لبخند:
من مثل درختی هستم که کند رشد میکنه اما عمر طولانی داره و در نهایت بسیار تنومند میشه (در زیر خودش ریشه های گسترده و قوی داره و بدنهء ضخیم و تنومندش هم طبیعتا کندتر از سایر درختها رشد میکنه چون نیاز به مواد و انرژی بیشتری داره و محکم و با دوام هم داره ساخته میشه). دیگران سریع رشد میکنن اما اونقدر تنومند نمیشن و عمرشون هم کوتاهتره. بنابراین الان که شما میبینی در این سن و با این همه سال فعالیت هنوزم از دید شما کار درست و حسابی نکردم زیاد عجله نکن!
ضمنا من همینطوریش هم تاحالا کارهای برجسته ای کردم، حالا طبق نظر و طبقه بندی و مشابه فعالیت های شما نبوده اما از انواع دیگه بوده. مطالبی که دادم چیزهایی که درش حتی بنوعی بنیانگذار بودم و ملت رو از ناآگاهی درآوردم خودشون نشانهء توان هستن. علم و فن هم ابعاد مختلفی داره هرکس یک نقشی داره یکی مثلا دانشمند علوم رایانه میشه و تئوریهای بنیادین و مهم رو گسترش میده که بعدا کسانی که به کارهای عملی تر علاقه دارن و تخصص پیاده سازی دارن میان اونا رو پیاده سازی میکنن، و نهایتا در سطح بعدی برنامه نویسهایی مثل شما (و شاید من در آیندهء نزدیک :چشمک:) از این امکانات استفاده میکنن برای کارها و کاربر نهایی.
ضمنا من یجورایی چند زمینه ای هستم و از طیف نزدیک تئوری محض تا کارهای عملی واقعی رو دنبال میکنم. افرادی که هم گسترده و هم عمیق کار کنن طبیعتا کم هستن چون کار واقعا سخت و طولانی و هزینه بری است و هرکسی با هر خصوصیاتی برای این ساخته نشده.
من فعلا شغلم و هدفم دقیقا اونی نیست که برای شما هست. فکر نکن که همه چیز فقط همونه که خودت بلدی و انجام میدی و فقط اون هدف و فعالیت عاقلانه و مفید برای هر فرد و کل بشریت محسوب میشه.
در زمینهء برنامه نویسی هم تاحالا هرچی خواستم نوشتم و توی چیزی نموندم. حداقل نیازهای خودم رو تا اینجا براحتی برآورده کردم.


یه زمانی ادیسون واسه اختراع یه وسیله ای (یادم نیست چی بوده) 1039 راه رو رفت و شکست خورد. یکی بهش گفت نا امید نشدی؟ احساس نمیکنی عمرت رو تلف کردی؟ گفت نه ابداً. حداقل امتیازی که بدست آوردم اینه که به آیندگان میتونم بگم اگه دنبال اختراع این وسیله هستین، این 1039 راه رو طی نکنین چون من تست کردم نتیجه نداد.
بله آدمی که ویژگیهای روانی لازم رو داره و انگیزه و جدیت و اراده و همت واقعی داره مثل ادیسون میشه، نه اینکه تا یکی اومد چندتا حرف منفی زد دلسرد بشه بگه چرا منو ناامید میکنی.
این ویژگیها چیزی نیست که با تلقین و تشویق کردن بشه به دیگران داد. کسی که این ویژگیها رو نداره شاید ابتدا کمی دلگرم بشه و تاحدی پیش بره، ولی بالاخره با سختی ها و فرسودگی ها روبرو میشه، با واقعیت ها، با اینکه یکسری تصورات و پیشفرضها و انتظارات اساسی ای که داشته چقدر با واقعیت فاصله داشتن، سوختش تموم میشه، و کم میاره. ولی اونی که خودش در درون خودش این خصوصیات رو داره و هدف و دلیل درست تعریف شده و محکم و جدیت و ارادش رو داره، از نوع واقعگرایانه (نه بر مبنای تصورات و توهمات و حدسهای بی پایه و خوش خیالی صرف)، بهرحال تا آخرش رو میتونه بره و نیازی به تایید و تشویق دیگران نداره یا حداقل اینا براش مسائل خیلی جدی و سرنوشت سازی نیستن.
ضمنا آدم با آدم فرق میکنه. بهینگی روش با روش فرق میکنه. لزوما ادیسون هم بهترین و روش اون درمورد همه چیز مناسب نیست. اصلا اگر در منابع مفصل خونده باشید ادیسون رو دانشمند بزرگی نمیدونن چون ویژگیهای تعریف یک دانشمند رو نداشته ، اما آدم خلاق و پر پشتکاری بوده و یک مخترع خوب. یک فردی مثل ادیسون بطور معمول هیچوقت چیزهایی مثل نظریه های فیزیک مدرن و تئوری ساخت بمب هسته ای یا انرژی هسته ای رو کشف نمیکنه و بگم شاید حتی با وجود در دست داشتن تئوریشون و حتی با این فرض که بتونه درکشون کنه نمیتونه در ساخت اینها آدم مناسبی باشه (بخاطر اینکه برای ساخت اینا نیاز به تحلیل و محاسبات تئوریک پیشرفته و دقیق زیادی هست و مثلا به دلیل ماهیت، شرایط خاص، و اهمیت و هزینه و خطرات زیادی که دارن در خیلی موارد نمیشه از روش آزمون و خطا استفاده چندانی کرد). اینا کار تجربی و پشتکار و آزمون و خطای صرف نیست، بلکه تئوری و تحلیل ذهنی و روشهای پیشرفته و دقیق علمی میخواد. پس تئوری و عمل و تجربه مکمل هم هستن، اما درصد اهمیت و نقش تئوری و روش عملی و تجربی در زمینه های مختلف تفاوت زیادی دارن (حتی در زمینه های مختلف برنامه نویسی هم این واقعیت وجود داره). نباید همه چیز رو با هم یکی کرد. یکی از دانشمندان برجسته زمان ادیسون، تسلا بود که شاید بدونید این دو نفر زیاد هم با هم سرشاخ بودن و شاید بنوعی رقیب هم بحساب میامدن و مثلا تسلا گاهی نسبت به ادیسون کنایه میزد میگفت این بشر اگر از تئوری و فرمول و محاسبات علمی استفاده میکرد مجبور نبود یه چیزی رو چند هزار بار تست کنه و با آزمون و خطا شکل و پارامترهای درستش رو بدست بیاره اینقدر خودش رو شکنجه کنه! تسلا هم دانشمند بزرگی بود و دستاوردهای برجسته ای داشت که بخشی از علم و فناوری و امکانات امروز ما مدیون ایشان و امثال ایشان است (هرچند هیچوقت مثل ادیسون از نظر بیزینس موفق نبود و آدم ثروتمندی نشد). البته کارهای عملی متعدد و ایده های تجاری شده هم داشت که یکیش نحوهء انتقال برق بود که ماجرا و جنجال های رقابتش بر سر این با ادیسون رو میتونید توی منابع بخونید که جالب و آموزنده است و دست آخر سیستم برق متناوب تسلا بود که در این رقابت برنده شده و حتی ادیسون بعدها به اشتباه خودش در این زمینه اعتراف کرد.

MMSHFE
سه شنبه 19 اسفند 1393, 09:33 صبح
صحبت حاشیه ای نکنید. اگه میتونید به استارتر کمک کنید بفرمایید وگرنه صحبتهای شخصی و من فلانم و دیگران چطوری هستن و به من نمیرسن و اینطور چیزها، جاش توی این تالار نیست.

freeman99
سه شنبه 19 اسفند 1393, 10:10 صبح
خب منم کمک از نوع بینش و تخصص و اطلاعات خودم رو میکنم!
اینکه میگم این کار چه سوادی میخواد چه پیشنیازهایی داره، ریاضی میخواد، زبان میخواد، سطح سختی اون چقدره، با کارهای عادی مقایسه نکنید، اینا بینش و اطلاعات و تخصص منه. من از نظر بیان واقعیت ها و پیشفرض های صحیح میخوام روشن کنم. البته نه فقط بخاطر استارتر، بلکه کلا بخاطر رفع ابهام و روشن کردن حقیقت. اینم که روش اینکه صرفا شروع کنی و یادگیری در حین انجام و با تجربه و آزمون و خطا، باید بگم طبق عقل و اطلاعات بنده همه چیز رو بهینه نیست و در مورادی هم تقریبا غیرممکنه که به این شکل انجام داد. نمیدونم شاید شما میگی درموردش همه چیز میشه! ولی من میتونم در مواردی با دلیل و شواهد و اطمینان 99.99% بهت بگم که نمیشه و بعضی چیزها هست بخش اعظمش فقط از راه تئوری قابل دسترسیه و به هیچ وجه کار تجربی و آزمون و خطای صرف نیست.

البته من فقط درمورد موتور جستجو صحبت نمیکنم. موتور جستجو در این حدی که ایشون میگه و دیگه حرف از گوگل و مقیاس بزرگ و یه چیزی کامل و حرفه ای و برای استفادهء واقعی نمیزنه، هیچ اشکالی نداره و میتونه تجربهء خوب و مفیدی هم باشه. گرچه من به شخصه ترجیح میدم تا مجبور نشدم همینطور بدون زمینه و پایه های تئوریک توی کاری نپرم (حداقل کارهایی که میدونم چقدر علمی و تخصصی و سنگین هستن). البته در اون حد که ایشون کار میکنه و میگه هدف داره، درواقع منم مشکلی نمیبینم خودم هم شروع به کار عملی کنم و چیز خیلی پیچیده و گسترده ای نیست که سواد و توانش رو نداشته باشم (ولی من دیگه زبانم مشکل نداره، رگولار اکسپرشن بلدم، پروتکل HTTP بلدم، و تمام پیش نیازهای پایه دیگه رو)، ولی انگیزه و دلیلی برای چنین کاری ندارم و ترجیح میدم دنبال موارد کاربردی تری مثل همون پروژهء سیستم رجیستر و لاگین خودم برم. نمیدونم واسه چی باید به چیزی درست کنم که چندتا لینک رو دنبال کنه و Parse و ایندکس کنه اطلاعات رو. کاربرد عملی توش نمیبینم و وقت و انرژی زیادی هم میطلبه در مقابل. البته من یه ایده ای داشتم و دارم که با موتور جستجو شباهت ها و مشترکاتی داره و شخصا بهش بیشتر علاقه دارم و اون اینکه یک روبات بنویسم که بره همینطور مثل روبات موتورهای جستجو توی وب بگرده و بجای اینکه بخواد اطلاعات عادی سایتها رو بگیره و ذخیره کنه، آسیب پذیری های امنیتی متداول اونا رو شناسایی و لیست و ذخیره کنه!! هرچند حتی برای اینم چون کاربرد عملی مفید و مشروعی برای خودم و دیگران به ذهنم نمیرسه و کار سالم و بی خطری بنظر نمیاد، انگیزه و دلیل ندارم. البته باید بگم هکرهای پیشرفته ظاهرا از این روبات ها درست کردن!

freeman99
سه شنبه 19 اسفند 1393, 10:19 صبح
بنظر من آدم باید دنبال یه چیزی بره که حداقل بعدا خودش بتونه ازش استفاده کنه و بازدهی اون وقت و انرژی رو که روش صرف میکنی داشته باشه. اینکه همینطوری غیراصولی یه چیزی سرهم کنیم که به احتمال زیاد هیچوقت نوع اصولی و حرفه ای و کاربردی و سودمند اونو نمیتونیم/نمیخوایم درست کنیم، بنظر کار چندان عاقلانه ای نمیاد.
مگر اینکه ایشون فقط مقیاس رو کوچک کنه و بقیهء امکاناتی که توی موتور جستجوی خودش میذاره با تحقیق و دانش و بصیرت کافی باشه و اصول تخصصی و علمی داشته باشه. نمیگم تمام امکانات موتورهای جستجوی حرفه ای رو بذاره، نه اصلا میتونه فقط یک صدم اون امکانات رو بذاره، اما چیزی رو که میذاره باید اصولی و دقیق و طبق قواعد علمی واقعی باشه تاحدی که میتونه، نه اینکه یه چیزی همینطور صرفا از روی ذهن خودش سر هم کنه، چون این فقط میشه کد بازی و اتلاف وقت و انرژی!
اگر هم که هنوز پیشنیازهای سوادی/تئوریک این طور کار کردن رو نداریم، ولی همچنان به یه موضوع اینقدر علاقه و جدیت و انگیزه داریم، پس طبیعتا باید اول بریم اون پیشنیازها رو کامل کنیم، یا حداقل واقعا مرد باشیم که در همون جریان کار هر چیزی لازم میشه بریم دنبالش و اصولی یاد بگیریم، نه اینکه بازم بیشتر درحد سرهم کردن و کپی و پیست باشه. چون فقط سرهم کردن و کپی پیست، در یک کاری که هدفش تمرین و تحقیق و آزمایش و یادگیریه، برای کسی که اینقدر علاقه داره و میخواد آینده احتمالا کارهای بزرگتر و جدی تر واقعی بکنه، کار معناداری بنظر نمیاد. مثلا ور نداری یک رگولار اکسپرشن رو که برای استخراج یه اطلاعاتی از توی صفحات HTML یا لینک ها نیاز داری بدون اینکه واقعا خودت کامل و دقیق طرز کارش رو بفهمی استفاده کنی! من همین دیروز و اینا داشتم مقالهء رگولار اکسپرشن ویکیپدیا رو میخوندم، یه رگولار اکسپرشن مثال زده بود که جالب بود و به ظاهر شاید ساده بود اما بررسی میکردی میدیدی که پیچیدس و من همونجا خوندن بقیهء مقاله رو متوقف کردم گفتم باید حتما از طرز کار و منطق این رگولار اکسپرشن سر دربیارم تا زمینه طراحی رگولار اکسپرشن قوی بشم و نقصی نداشته باشم. خلاصه کلی باهاش کلنجار رفتم روی کاغذ هم تئوری و نمونه دیتا تست کردم، آخرش فهمیدم که احتمال زیاد دیگه اساسش با ریاضی هم شدیدا درگیره (رگولار اکسپرشن خودش دربارهء یک کاربرد ریاضی وار بود) و کار زیاد میبره، دیگه اونجا ادامه بیشتر ندادم چون دیگه خیلی پرت میرفت و کار یادگیری و حل مسائل ریاضی هم که شوخی نیست وقت و انرژی و پایه خاص خودش رو میخواد؛ ولی حداقل تاجاییکه میتونستم و به تخصص و اهداف من بیشتر مربوط میشد پیش رفتم و خب این وسط آدم اغلب پیشرفت میکنه و چیزهای جدیدی یاد میگیره ایده های جدیدی بدست میاره قوی تر میشه بینش و مهارت بیشتری پیدا میکنه. اینطور نبود که مثلا از همون اول بگم بابا این از نوع ریاضی هست یا حالا چه اهمیتی داره به من چه کاربرد نداره. اینا اغلب بهانه هستن برای کم کاری و فرار از واقعیت ها، یا اینکه طرف واقعا اونقدر دانش و بینش پایینی داره که درک نمیکنه ربط و اهمیت این موارد چیه و چطوره، فکر میکنه فقط هرچی به دید خودش که واضح و مستقیم بود کاربردیه و اهمیت داره و در حال و آینده به درد میخوره.

Jarvis
سه شنبه 19 اسفند 1393, 11:19 صبح
چیزی که فعلا مشخصه اینه که این کار داره به عنوان یک کار تحقیقاتی و نه به هدف پول و تجارت انجام میشه ... پس دلیلی بر عدم اون با وجود شرایط کنونی وجود نداره!
حداقلش اینه که با ساختار کلی و نحوه کار موتور جستجو آشنایی پیدا می کنیم و شاید بتونیم یک روبات خوب هم بنویسیم که یه کارایی بکنه! :دی
فعلا هدف ساخت موتور جستجو نیست ، هدف اینه که یه کرالر اصولی نوشته بشه .. اگه کرالر نوشته شد مراحل و قطعات بعدی مثل ایندکسر و...

sourceweb
سه شنبه 19 اسفند 1393, 14:44 عصر
دوستان کسی میتونه در مورد سرچش کمکم کنه؟یعنی مثلا اگه سرچ کردن "برنامه نویس" دقیقا همین کلمه رو داخل متنا سرچ کنه یا مثلا "برنامه" و "نویس" رو جدا سرچ کن هر سایتی که دو تا کلمه رو داشت لیست کنه یا چطوری... چون اول "برنامه" "نویس" یا مثلا "اس" "ام" "اس" اینطوری سرچ میکرد نتایج مزخرفی میداد مثلا یه جا که متن "امسال هوا سرد است" میبود اونو جز اس ام اس میاورد چون ( "ام"سال هوا سرد "اس"ت) در نظر میگرفت
حالا تغییرش دادم و میاد همه کلمه ی "اس ام اس" رو سرچ میکنه اینطوری باز یه مشکی که داره مثلا ممکنه اسم یه سایت "سایت برنامه نویسی" باشه اما سرچ بکنن "سایت برای برنامه نویسی" خب باز اینطوری نتیجه ای نداره

اگر کسی پیشنهادی داره بگه ممنونتون میشم

H:Shojaei
سه شنبه 19 اسفند 1393, 16:22 عصر
دوستان کسی میتونه در مورد سرچش کمکم کنه؟یعنی مثلا اگه سرچ کردن "برنامه نویس" دقیقا همین کلمه رو داخل متنا سرچ کنه یا مثلا "برنامه" و "نویس" رو جدا سرچ کن هر سایتی که دو تا کلمه رو داشت لیست کنه یا چطوری... چون اول "برنامه" "نویس" یا مثلا "اس" "ام" "اس" اینطوری سرچ میکرد نتایج مزخرفی میداد مثلا یه جا که متن "امسال هوا سرد است" میبود اونو جز اس ام اس میاورد چون ( "ام"سال هوا سرد "اس"ت) در نظر میگرفت
حالا تغییرش دادم و میاد همه کلمه ی "اس ام اس" رو سرچ میکنه اینطوری باز یه مشکی که داره مثلا ممکنه اسم یه سایت "سایت برنامه نویسی" باشه اما سرچ بکنن "سایت برای برنامه نویسی" خب باز اینطوری نتیجه ای نداره

اگر کسی پیشنهادی داره بگه ممنونتون میشم
چقدر حاشیه!!
به نظر من اول یه فیلتر واسه سرچ بذارید...
مثلا امسال هوا سرد است این جمله یه کلمه اضافه داره [است] یا جمله دیگه که گفتید سایت برای برنامه نویسی این هم برای توش کلمه اضافست باید حذف بشه بعد که اینا فیلتر شدن و کلمات اصلی مثل سایت برنامه و نویسی موندن بیاد و هرکدوم از این کلمات رو یک بار سرچ کنه یا تو همون کوئری منظورمه این کار بشه و باز تلفیقشون رو یک بار مثلا اول سایت بعد برنامه بعد نویسی بعد باز سایت برنامه بعد برنامه نویسی. اینجا سایت نویسی دیگه بهتره سرچ نشه چون معمولا کلمات پشت سر هم با هم معنی دارن کلماتی که بینشون کلمات دیگن معنی ندارن مگر این که مثال نقضی در این باره باشه که باز اونم باید یه کاریش بکنیم...
الآن فیلتر سرچ ندارید؟؟ این چیزهایی که باید فیلتر کنید یک سری حروف اضافه ربط و... هستن یکم باید ادبیات هم بدونید...

sourceweb
سه شنبه 19 اسفند 1393, 17:00 عصر
چقدر حاشیه!!
به نظر من اول یه فیلتر واسه سرچ بذارید...
مثلا امسال هوا سرد است این جمله یه کلمه اضافه داره [است] یا جمله دیگه که گفتید سایت برای برنامه نویسی این هم برای توش کلمه اضافست باید حذف بشه بعد که اینا فیلتر شدن و کلمات اصلی مثل سایت برنامه و نویسی موندن بیاد و هرکدوم از این کلمات رو یک بار سرچ کنه یا تو همون کوئری منظورمه این کار بشه و باز تلفیقشون رو یک بار مثلا اول سایت بعد برنامه بعد نویسی بعد باز سایت برنامه بعد برنامه نویسی. اینجا سایت نویسی دیگه بهتره سرچ نشه چون معمولا کلمات پشت سر هم با هم معنی دارن کلماتی که بینشون کلمات دیگن معنی ندارن مگر این که مثال نقضی در این باره باشه که باز اونم باید یه کاریش بکنیم...
الآن فیلتر سرچ ندارید؟؟ این چیزهایی که باید فیلتر کنید یک سری حروف اضافه ربط و... هستن یکم باید ادبیات هم بدونید...

منظور شما اینه که اگر کلمه جستجو شده 2 حرف بود که دقیقا همون کلمه کامل سرچ بشه اگر بیشتر از 2 حرف بود مثلا "سایت برای طراحی قالب" بیاد کلمات اضافه شو پاک کنه این طوری : "سایت طراحی قالب" بعد بیاد یک بار خود همین کلمه رو سرچکنه و یک بار هم "سایت طراحی" و "طراحی قالب" و "سایت قالب" این هارو سرچ کنه درسته؟

H:Shojaei
سه شنبه 19 اسفند 1393, 17:24 عصر
آره ولی اون سایت قالب معمولا دیگه بی معنی میشه کلمات پشت سر هم رو به هم بچسبونه و اونها رو سرچ کنه مثلا اینجا اون "سایت قالب" دیگه نیاز نیست و معنی هم داشته باشه کسی استفاده نمیکنه زیاد کاربرد نداره! هرچند این فقط یه نظریس ممکنه تشخیص داده بشه که اون سایت قالب هم نیازه که جستجو بشه.

sourceweb
سه شنبه 19 اسفند 1393, 17:45 عصر
آره ولی اون سایت قالب معمولا دیگه بی معنی میشه کلمات پشت سر هم رو به هم بچسبونه و اونها رو سرچ کنه مثلا اینجا اون "سایت قالب" دیگه نیاز نیست و معنی هم داشته باشه کسی استفاده نمیکنه زیاد کاربرد نداره! هرچند این فقط یه نظریس ممکنه تشخیص داده بشه که اون سایت قالب هم نیازه که جستجو بشه.
خب برای شروع الگوریتم خوبی به نظر میرسه تشکر فراوان :D

leaping
سه شنبه 19 اسفند 1393, 17:47 عصر
با اینکه با ایده ت در مورد موتور جست و جو کاملا مخالفم اما حرکتت رو حال کردم که اومدی از اول کار داری اینجا همه رو پرس و جو میکنی و جوابهاتو پیدا میکنی
به نظرم این تاپیک اگه اختصاصی بشه تو تالار هم خوبه هم دیگران هم بهره میبرن

sourceweb
سه شنبه 19 اسفند 1393, 17:48 عصر
یه سوال دیگه اگر ممکنه تمام کلماتی که باید از جستجو حذف بشن مثل همین "برای" و "است" و "که" و "ولی" و این کلمات رو هرچی باید حذف بشه قرار بدید

mhf693
سه شنبه 19 اسفند 1393, 18:33 عصر
یه سوال دیگه اگر ممکنه تمام کلماتی که باید از جستجو حذف بشن مثل همین "برای" و "است" و "که" و "ولی" و این کلمات رو هرچی باید حذف بشه قرار بدید
.اول سلام
دوم خسته نباشی:چشمک:
سوم : این کلمات می تونن به صورت هوشمند توسط خود سیستم تشخیص داده بشن ولی بهتره بعد از این که توسط سیستم به صورت هوشمند به عنوان stop words مشخص شدند یک بار هم به صورت دستی چک بشن. روش تشخیص این کلمات هم راحته چون معمولا در تمام متن ها و به صورت زیاد به کار برده می شن. پس کافیه کلماتی که زیاد به کار می رن رو بررسی کنی. الگوریتم tf-idf که به لغات وزن می ده می تونه بهت کمک کنه.البته بعضی کلمه ها هستن که ممکنه چند معنی بدن مثل «بی» که شاید ظاهرا جزو کلمات زاید باشه ولی اگه مثل به عنوان بخشی از کلمه «بی بی سی» باشه نباید حذف بشه. به همین دلیل یه تایید دستی هم لازمه. یا همون کلمه «ولی» که خودت گفتی همیشه به معنی «اما» نیست و معنی «مولا» و ... هم می ده.

H:Shojaei
سه شنبه 19 اسفند 1393, 19:20 عصر
حرفهای اضافه تا جایی که یادمه: از در به با برای را آن.
به نظرم واسه قسمت سرچش ادبیات فارسیتون باید خیلی قوی باشه چون خیلی خیلی کمک میکنه...
مثلا میفهمید تو یه جمله فعل بعد چه کلماتی قرار میگیره اصلا جمله ای سوالیه تعجبیه یا هر چیزی در چه شرایطی یک جمله فاعل داره؟ فاعل کجای جمله هست مفعول جمله رو در بیارید و خیلی از چیزای دیگه که خیلی کمک میکنه...

bagherok
سه شنبه 19 اسفند 1393, 19:38 عصر
http://aftab.cc/article/1232

http://aftab.cc/article/1235

http://aftab.cc/article/1236

aliphp1
سه شنبه 19 اسفند 1393, 22:21 عصر
من به این کار علاقه دارم و دوست دارم کمکی بکنم (اگر دانشش رو داشته باشم )
و در کنارش یک چیزهایی هم به دانشم اضافه بشه
اما متاسفانه توی این تاپیک فقط حرفهای حاشیه ای هست مخصوصا یکی از دوستان که واقعا خسته شدم از بس پست های اشون رو دیدم و دیگه بعد از خودندن چند تایی بقیه رو نادیده گرفتم چون دیدم خوندن اینا فقط وقت تلف کردن هست
نمی دونم چرا اینقدر ساز مخالف میزنه و اعتراض داره ! خوب برادر شما کمک نکن بزار مردم کارشون رو بکنن حداقلش اینه که یه کاری شده و کسانی که این کار رو اصلا بگیم نیمه کاره ولش کردن و به جایی هم نرسیده باشن ولی باز هم یه چیزی به دانش شون در این پروژ اضافه شده
اتفاقا آدم در حال انجام پروژه بسیار بهتر می تونه مطالب جدید یاد بگیره
من خودم اصلا حوصله خوندن مطالب آموزشی رو ندارم و همیشه توی پروژه هایی که انجام دادم چیزهایی که نیاز داشتم رو یاد گرفتم

sourceweb
چهارشنبه 20 اسفند 1393, 08:18 صبح
دوستان روش دو کلمه ای جواب نداد مثلا : "اس ام اس روز تولد" تبدیل میشه به "اس ام اس روز تولد" و "اس ام " و "ام اس" و "اس روز" و " روز تولد" که زیاد نمیشه رو این روش حساب کرد کسی پیشنهاد دیگه ای داره برای جستجو؟

H:Shojaei
چهارشنبه 20 اسفند 1393, 10:24 صبح
خوب ادامش هم میدادید دیگه!
من گفتم همه کلماتی که پشت سر هم میشه ساخت رو بسازید جستجو کنید...
مثلا واسه این متن:
اس ام
ام اس
اس روز
روز تولد
اس ام اس
ام اس روز
اس روز تولد
اس ام اس روز
ام اس روز تولد
اس ام اس روز تولد
اینا رو میشه با کلماتش ساخت و باز همینا رو هم فیلتر باید گذاشت که مثلا ام اس یا اس ام یا ام اس روز برداشته بشن اینا رو تو سرچ ها فکر میکنم میشه فهمید مثلا ام اس نتیجه زیادی نداره از جستجو بنابر این باید نتایجش شاید حذف بشه...

sourceweb
چهارشنبه 20 اسفند 1393, 21:27 عصر
خزنده ی ویدیو چه میکنه :D
http://8pic.ir/images/yafyeq7b8gpofjqd1wfj.png

prans.info
چهارشنبه 20 اسفند 1393, 21:38 عصر
خزنده ی ویدیو چه میکنه :D
http://8pic.ir/images/yafyeq7b8gpofjqd1wfj.png
خود ویدئو ها رو هم لینکش رو سیو کنید به درد میخوره .
خزنده ویدئو باید کار اصلیش جمع کردن ویدئو ها باشه نه صفحاتی که توش ویدئو هست.

sourceweb
چهارشنبه 20 اسفند 1393, 21:59 عصر
خود ویدئو ها رو هم لینکش رو سیو کنید به درد میخوره .
خزنده ویدئو باید کار اصلیش جمع کردن ویدئو ها باشه نه صفحاتی که توش ویدئو هست.

خب البته اینم حرفیه اما (فعلا) همین کفایت میکنه

H:Shojaei
چهارشنبه 20 اسفند 1393, 22:46 عصر
کراولر رو میشه بذارید ببینیم کدهاش رو؟!
شخصا میخوام چیزی یاد بگیرم ازش... ممنون

sourceweb
پنج شنبه 21 اسفند 1393, 05:49 صبح
بله چشم از سرکار اومدم میزارم کد هاش رو

sourceweb
پنج شنبه 21 اسفند 1393, 11:10 صبح
سورس خزنده ی ویدئو :





<meta charset="utf-8">
<?php


include("class/config.php");
$num = 0;
function get($url){
global $num;
global $pdo;
if($num > 60){
exit;
}

$opts = array('http'=>array('header' => "User-Agent:MyAgent/1.0\r\n"));
$context = stream_context_create($opts);
$html = file_get_contents($url,false,$context);


$res = json_decode($html,true);



for($i=0;$i<count($res['lastvideos']);$i++){

$url = "http://aparat.com/v/" . $res['lastvideos'][$i]['uid'];

$num = $num + 1;
$select = $pdo->prepare("select * from video where url = :curl");
$select->bindParam(':curl',$url);
$select->execute();
$count = $select->rowCount();
if($count < 1){

$insert = $pdo->prepare("INSERT INTO `video` (`id`, `url`, `title`, `pic`, `send`) VALUES (NULL, :url,:title, :pic, :send)");
$insert->bindParam(':url',$url);
$insert->bindParam(':title',$res['lastvideos'][$i]['title']);
$insert->bindParam(':pic',$res['lastvideos'][$i]['small_poster']);
$insert->bindParam(':send',$res['lastvideos'][$i]['sdate']);
$insert->execute();
}

}

if(isset($res['ui'])){

get($res['ui']['pagingForward']);

}



}

get("http://www.aparat.com/etc/api/lastvideos");

?>

sourceweb
جمعه 22 اسفند 1393, 07:39 صبح
کسی طراحی و دیزاینشو به عهده نمیگیره؟

--------------------------------------------
اگر کسی اسمی مدنظرش هست بگه

H:Shojaei
جمعه 22 اسفند 1393, 10:56 صبح
کسی طراحی و دیزاینشو به عهده نمیگیره؟

--------------------------------------------
اگر کسی اسمی مدنظرش هست بگه
فکر کنم یه تاپیک هم قسمت طراحی وب همین تلار ایجاد کنید قطعا پیدا میشن دوستانی در این رابطه...
من که واقعا صلیغه طراحی و دیزاین ندارم اگه نه مشتاق بودم انجام بدم...
نام هم من چند تایی مد نظرم هست واسه کار دیگه در آورده بودم شاید ارتباطی هم نداشته باشه ولی میگم:

آریا
بهتا=یار و همراه خوب
پرک=تاج- ستاره سهیل
مها=ابر

sourceweb
جمعه 22 اسفند 1393, 11:07 صبح
فکر کنم یه تاپیک هم قسمت طراحی وب همین تلار ایجاد کنید قطعا پیدا میشن دوستانی در این رابطه...
من که واقعا صلیغه طراحی و دیزاین ندارم اگه نه مشتاق بودم انجام بدم...
نام هم من چند تایی مد نظرم هست واسه کار دیگه در آورده بودم شاید ارتباطی هم نداشته باشه ولی میگم:

آریا
بهتا=یار و همراه خوب
پرک=تاج- ستاره سهیل
مها=ابر



با تشکر
اگر ممکنه تاپیکشو شما ایجاد کنید و لینکشو خصوصی واسم بفرستید
---------------------
اسم هارو به لاتین هم بنویسید

H:Shojaei
جمعه 22 اسفند 1393, 11:43 صبح
اسامی لاتین:

آریا: Aria
بهتا: Behta- یار و همراه خوب
پرک: Parak- تاج، ستاره سهیل
مها: Maha- ابر

اگه اشتباه ننوشته باشم البته...

sourceweb
جمعه 22 اسفند 1393, 12:36 عصر
اینا تمامش ثبت شده هستن :(

MMSHFE
جمعه 22 اسفند 1393, 13:02 عصر
لطفاً بجز مسائل فنی در زمینه PHP موضوع دیگری مطرح نکنید.

ABZiko
جمعه 22 اسفند 1393, 13:22 عصر
کسی طراحی و دیزاینشو به عهده نمیگیره؟

--------------------------------------------
اگر کسی اسمی مدنظرش هست بگه

از استاد شهرکی عذر می خوام ولی گفتم حیفه، در مورد گرافیک ، یک بنده خدایی هستن اسمشون فکر کنم <?php?> هست، گرافیکشون بسیار زیبا هست، به صورت فلت هم ایشون طراحی می کنن.

bagherok
جمعه 22 اسفند 1393, 15:41 عصر
سورس خزنده ی ویدئو :




for($i=0;$i<count($res['lastvideos']);$i++){



اول اینکه count رو از داخل حلقه بکشید بیرون
و مقدارشو برزید داخل یه متغییر و اون متغییر رو جاگزینش کنید.

درضمن یه توضیحی بدید از کلیت کار
واینکه تالان چیکار کردید
و از چه ابزاری استفاده کردید و خواهید کرد
===============================
قرار بود روگیت هاب هم یه مخزن بسازید...
================================
به نظرم به جای اینکه دست به کد شید بهتره اول ساختاراولیه پروژه و هرچیزی که برای شروع یه کارگروهی لازمه مشخص بشه
و ....

bagherok
جمعه 22 اسفند 1393, 23:17 عصر
گوگل امکان جستجو پیشرفته همزمان درون چند سایت رو میده یا نه
مثلا با
:site
میتونیم درون یه سایت خاص جستجوکنیم

حالا امکان داره درون سایت stackoverflow.com هم جستجو کنه

یعنی نتیجه جستجو تلفیقی از این 2 باشه

bagherok
شنبه 23 اسفند 1393, 01:25 صبح
یه نظر کوچلو هم داشتم

واون اینکه که بیام نظریه 80 به 20 رو پیاده سازی کنیم
یعنی با 20 درصد از اطلاعات طبقه بندی شده میشه به 80 درصد از کارایی لازم رسید.
یه موتور جستجوی کاملا اختصاصی
که بیشتر مخاطبین خاص رو مورد هدف قرار میده
ازجمله برنامه نویسان
وب مستر ها
و.....

یه مثال ساده میزنم
فقط میخوام بدونم امروز چه گوشی هایی جدیدی به بازار ارزه شده و یا اینکه قیمتش بروز شده.
یا مثلا یه نمودار آماری قیمت هم میخوام.
یا محبویت اون بین کاربران یک سایت یا چند سایت

این چیزهایی رو که گفتم سایت مشابه ای از جمله گوگل ارائه میده یا نه؟
البته خیلی از این ها رو میشه از دل خود گوگل بیرون کشید.

H:Shojaei
شنبه 23 اسفند 1393, 15:00 عصر
منم یه پیشنهاد دارم بابت بهتر شدن نتایج جستجو...
الآن اینطوریه که مثلا ما یه جمله رو باید سرچ کنیم:
مثلا: اعلام نتایج کنکور سراسری 93
حالا اول این که همونطور که گفتم جملاتی که سرچ میشن:
1-
اعلام نتایج کنکور سراسری 93

2-
اعلام نتایج کنکور
نتایج کنکور سراسری
کنکور سراسری 93

3-
اعلام نتایج
نتایج کنکور
کنکور سراسری
سراسری 93

4-
اعلام و نتایج و کنکور و سراسری و 93

تو حالت عادی میاد اول 1 بعد 2 بعد 3 و 4 رو به ترتیب هرکدوم جستجو میکنه میاره حالا اگر اولویت متن "سراسری 93" از همه بیشتر باشه و جرء آخرین نتایج هم میشه جستجویی کاملا ناقص به دست میاد بهترین نتایج میاد ولی مطمئنا اولویتی ندارن و به ترتیبی که جستجو میشن آورده میشن و امکان داره بهترین نتایج آخرین نتایج باشن!...
حالا یه روش واسه این و کلا بهینه سازی سرچ به ذهنم رسیده میگم ببینید چطوره:
تو سرچ اول (1) که بهترین نتایج معمولا باید بیاد میایم خود مطلب از 5 اولین سایتی که آورده رو میگیریم هرکدوم یه متن 50 خطی مثلا هست بعد متن هایی که از این جستجو ساختیم مرحله 2 و 3 و 4 رو تک تک تو همه سایتا جستجو میکنیم و به هر کدوم بر حسب معیارهایی در رابطه این جملات مثلا این که سایزش چقدره واسه این که ببینیم تیتر هست یا نه یا این که چند بار تکرار شده یا اصلا تو تایتل صفحه هست یا نه یا تو چه تگی h1 h2 p قرار گرفته و... کلا صفحه رو واکاویش میکنیم چون بهترین نمونه ها هست و اولین سایتهای پیشنهاد شده که با متن اصلی جستجو شده و اومده رو داریم این کارها باید جواب بده.
بعد از این هر یک از متن های 2 و 3 و 4 رو بر حسب امتیازی که از واکاوی اون 5 سایت به دست آوردن رو دسته بندی میکنیم و از بیشترین امتیاز مرتبشون میکنیم و بر همون اساس هم جستجو رو با اونها ادامه میدیم نتایج رو که از جستجوی این کلمات به دست اومدن بر حسب امتیازی که متن جستجو شده داره رده بندی شون میکنیم و نشون میدیم...
مثلا عقلانی بخوایم نگاه کنیم اگر 5 مطلب اولی که گرفتیم درست باشه... میاد مثلا از 2 متن کنکور سراسری 92 رو که تو همه مثلا بیشتر تکرار شده و تیتر هم بوده بیشترین امتیاز رو بهش میده بعدش هم مثلا سراسری 93 از 3- رو میاره که این دومین بیشترین تکرار رو داره حالا باز جستجو های بعدی میاد بر اساس اول کنکور سراسری 93 که بشترین امتیاز رو داره رده بندی میشه بعد با سراسری 93 که بعد اون بیشترین امتیاز رو داره جستجو انجام میشه و باقیه هم به ترتیب امتیازی که گرفتن...
فکر کنم این کار کنه چون نتایج از روی متن اصلی و حول همون داره جستجو میشه...
تازه اینطوری میشه مثلا اگه یه نفر زده بود نتایج کنکور سراسری 93 دانش آموزان با این که کلمه دانش آموزان مرتبط با این موضوع هست چون دانشآموزان کنکور میدن ولی که مثلا کلمه دانش آموزان عملا توی سایتهایی که نتایج کنکور میزنن پیدا نمیشه یا خیلی خیلی کم شاید مثلا بزنن پس این کلمه با هر کلمه ای بیاد کمترین اولویت رو از 5 سایت اول دریافت میکنه و این باعث میشه خود به خود کلمه از نتایج کلی حذف بشه و فقط تو آخرین نتایج که احتمال داره اصلا مربوط هم نباشه بیاد همونطور که تو هر موتور جستجوی دیگه هست همه نتایج از هر نوع و هر کلمه ای میاد ولی شاید اصلا مرتبط به هیچ وجه نباشه ولی توی آخرین نتایج هست...
دوستان نظرتون چیه؟ لطفا منظور و روش رو که خوب متوجه شدید نظرتونو بگید...

sourceweb
شنبه 23 اسفند 1393, 15:31 عصر
درود
تشکر از نظرتون
درحال حاظر دقیقا این چنین الگوریتمی داره
به جز مورد 4

H:Shojaei
شنبه 23 اسفند 1393, 15:43 عصر
واقعا چه جالب یعنی اون چند سایت اول و اینا هم چک میشن؟! و متن های جستجو اولویت بندی میشه؟؟

<?php?>
شنبه 23 اسفند 1393, 15:59 عصر
سلام دوست من .
خبری از دوستمون رسیده که قابل ذکر هستش . چند شب پیش دوستمون میگفته از شبکه ماهواره ای صدای امریکا گزارشی پخش شد در خصوص موتور جستجوگر های ایرانی از جمله گورگور .
در این گزارش همه اون چیزایی که در صفحه اصلی گفتمو این نامرد ها اجراش کردن و این موتور رو تخریبش کردن . دوستمون میگفت فقط کم بود به صاحبانش فهش ندادن .
از بی امنی و نداشتن گواهینامه https گرفته و متهم کردنش به این که این موتور های ایرانی همشون دزد هستن و از این جور چیز ها, که این موتور رو از نظر برندیند و .... نابودش کردن .
واقعا خیلی نامر هستن و اینا جز منفعت چیزی حالیشون نیست .
اگر در پست اول اون چیزا رو گفتم صرفا جهت این بوده که شما از این مسائل آگاه بشی نه این که بخوایم جلوه پیشرفتتون بگیریم . کی خوشش میاد یک نوجوون عمرشو برای یک چیزای نامعلوم حروم کنه ؟


- ممنم به نوبه خودم اگر کاری در مورد طراحی رابط کاربری این پروژه شما بر میاد انجام میدم . میتونید user interface قالب موتورتونو به من بدید و اگرم تونستم کدش میکنم .( چون در کد نویسیش نه حرفه ای هستم و نه مبتدی )
کی بدش میاد کشورش پیشرفت نکنه ؟ خب منم ایرانی تو هم ایرانی < من راضی تو راضی .......... . در کل میتونید رویه منم حساب کنید .
- در ضمن در قبال این طراحی پولی دریافت نمیکنم . فقط یک فاتحه باید بفرستی برای یکی از عزیزانم . ( اجباریه :لبخند: ) .

اسم موتور رو انتخاب کنید و برام پ / خ کنید اطلاعاتو تا شروع کنم .
موفق باشید.
--------------------
دامنه هم یکی مد نظرم هست که بسیار شیک هست و بدرد این موضوع میخوره ( soosmar.com ) اما این دامنه گرفته شده ولی صاحبش میفروشتش . حدودا 1 تا 2 ملیون راضی میشه . ولی دامنه ( سوسمار) بسیار جذابه و ایفا کننده نقش خزش هم می باشد در ضمن این فروشنده تو خارج کشوره ولی ایرانیه . ( چون من قبلا تو کمین این دامنه بودم :شیطان: ) .

MMSHFE
شنبه 23 اسفند 1393, 17:48 عصر
بنظر من اگه میخواین روی زبان فارسی کار کنید، از سرورهای ایران و دامنه ir. استفاده کنید. اینطوری هم سرعت بیشتری دارین و هم به نوعی تحریم اونطرفیاست. اگه اونها دارن ایرانیها رو میکوبن، پس پول دامنه هم بهشون ندین.

sourceweb
شنبه 23 اسفند 1393, 17:53 عصر
واقعا چه جالب یعنی اون چند سایت اول و اینا هم چک میشن؟! و متن های جستجو اولویت بندی میشه؟؟

فعلا بله اما در ادامه ایندکس رو براساس بک لینک های سایت و سئو و ... در نظر خواهم گرفت

sourceweb
شنبه 23 اسفند 1393, 18:10 عصر
دوستان اسامی ک پیشنهاد میدین رو قبلش یه چک بکنید اگر آزاد بود (حد اقل .ir ) بفرستید

اسامی که تا حالا پیشنهاد شده :
1- جلبک
2- زی (zeey)
3-فارسی بین
4-فارسی یاب
5-جهان بین
6-جهان یاب


اگر اسمی مدنظرتون هست بگین خواهشا

Jarvis
یک شنبه 24 اسفند 1393, 00:00 صبح
جلبک رو من پیشنهاد دادم ...
رو این حساب که اولا یه جورایی درون مایه ی طنز داره و باعث میشه به نظر مخاطب جالب بیاد
دوما خاصه ... کسی چنین اسمی روی محصولش نگذاشته قبلا

کلا همیشه دنبال این نباشید که اسم معنای کاملا مرتبط داشته باشه ... مثلا شرکت اپل که معنی اسمش سیب هست ، خب سیب چه ربطی به موبایل و لپ تاپ و تبلت داره!

sourceweb
یک شنبه 24 اسفند 1393, 07:13 صبح
آپدیت اسامی :
1- جلبک
2- زی (zeey)
3-فارسی بین
4-فارسی یاب
5-جهان بین
6-جهان یاب
7-سوسمار
8-قیصر(خودم نمیدونستم معنیش یعنی پادشاه :| )
9-گوی (gooy)

MMSHFE
یک شنبه 24 اسفند 1393, 07:49 صبح
برای بار دوم تذکر میدم مواردی که به PHP مربوط نیست رو از تاپیک حذف کنید.

sourceweb
دوشنبه 25 اسفند 1393, 17:00 عصر
دوستان
بنظر شما از همین پایه پی اچ پی بنویسم یا پایتون؟

sourceweb
دوشنبه 25 اسفند 1393, 17:25 عصر
فکر کنم زبان پایتون بخواید بنویسید آقای شهرکی از اینجا این پست رو حذف کنه ;)
نگفتم مینویسم که
سوال این بود که در کل پایتون قوی تره یا پی اچ پی؟ (پایتون درحد خیلی کم بلدم ) اگر بخوام بنویسم حداقل باید چند ماه برم دنبالش
نظر خودم اینه که شروعشو با پی اچ پی کار کنم بعد یواش یواش خزنده هاشو به پایتون تبدیل کنم

<?php?>
سه شنبه 26 اسفند 1393, 06:06 صبح
با سلام طرح اولیه موتور جستجوگر zeey برای صفحه اول تمام شد .
- در این طراحی زبان فارسی حکم رانی میکنه تو سایت و همیشه بالاتر از زبان english هست .
- در این طراحی سعی شده بزرگی این موتور جستجو با رنگ ها نمایش داده بشه , که همانند بال های هواپیما می مونه اون خطوط رنگ ها . ( منظورم رنگ های زیر بخش جستجو هست )
- همچنین قسمت جستجو این موتور همانند یک موتور هواپیما میمونه که گرد هست و وقتی کاربر روش کلیک میکنه سرچ انجام میشه ( منظورم بخش گرد جستجو هست , رنگ نارنجی متمایل به قرمز )
- بخش اضافه کردن مرورگر هم داره که خوده موتور به صورت پیش فرض باید مروگر کاربر رو تشخیص بده و سپس بهش پیشنهاد کنه که اونو به مروگر خودش ادد کنه .

این با background خاکستری مایل به سفید : http://uploadkon.ir/fl/dd/67793
اینم با background سفید : http://uploadkon.ir/fl/dd/67794
اینم تصویر نوع هواپیمایی که ازش ایده گرفتم :: http://cdn-www.airliners.net/aviation-photos/middle/0/1/4/1282410.jpg
( نمایش عکس بستگی به نوع lcd نمایشگر داره - برای من 15.6 اینچیه و کاملا با مرورگر فیت هست - اگر نبود زوم کنید رو عکس ( با ctrl نه ))
در کل این طرح اولیه هست و باید سبک بودنش و خیلی چیز ها رعایت بشه تا موتور سبک ترین حالت ممکن رو داشته باشه . سعی کردم تنها از یک عکس ( عکس مرورگر برای ادد کردن ) در طراحی استفاده کنم . در ضمن لوگوی موتور ( زی ) رو به صورت فونت زرایش کردم .
نخواستم تو صفحه اصلیش اخبار و ..... رو بیارم که خیلی سنگین میکنه موتور رو . و امکان داره کاربر سریع صفحه رو ببنده .

به صورت کلی میخواستم طراحی این موتور همش با علت باشه . که یک موردش همون شباهت این موتور با هواپیما هست و باید دقت کنیم که این موتور تازه اولین طراحی رو داره به خودش تجربه میکنه و انتظاراتمون معقولانه باشه .( جمله سنگین بود :اشتباه: )

موفق باشید

sourceweb
سه شنبه 26 اسفند 1393, 08:31 صبح
با تشکر از طرح شما
خیلی هم عالی
---------------------------------------------
استاد شهرکی عزیز میدونم خلاف قوانین هست که درباره گرافیک هم اینجا بحث بشه اما خواهشا نبندین تاپیک رو

<?php?>
سه شنبه 26 اسفند 1393, 09:09 صبح
با تشکر از طرح شما
خیلی هم عالی
---------------------------------------------
استاد شهرکی عزیز میدونم خلاف قوانین هست که درباره گرافیک هم اینجا بحث بشه اما خواهشا نبندین تاپیک رو

بررسی شد و اجرا میشه

Mousavmousab
جمعه 29 اسفند 1393, 16:58 عصر
سلام
دوست عزیز Sourceweb من امروز از 4 ساعت پیش تا حالا دارم تمام این پست ها رو می خونم.
من هم حد اقل تو رویاهام بود که اگه بشه یه موتور جستجو ایرانی بسازیم.
من دات نت کار کردم و شما Open source !!! البته Java with InteliJ و Mysql و PHP هم کار کردم.
من فعلاٌ توی برنامه نویسی نمی تونم کمک کنم.
ترم آخر دانشگاه هستم . ( مطمئناٌ درکم می کنی)
کمک هایی که من می تونم بهت بکنم :

انتخاب نام دامنه و اگه بشه ایده جدید !!!

sourceweb
جمعه 29 اسفند 1393, 17:29 عصر
سلام
دوست عزیز Sourceweb من امروز از 4 ساعت پیش تا حالا دارم تمام این پست ها رو می خونم.
من هم حد اقل تو رویاهام بود که اگه بشه یه موتور جستجو ایرانی بسازیم.
من دات نت کار کردم و شما Open source !!! البته Java with InteliJ و Mysql و PHP هم کار کردم.
من فعلاٌ توی برنامه نویسی نمی تونم کمک کنم.
ترم آخر دانشگاه هستم . ( مطمئناٌ درکم می کنی)
کمک هایی که من می تونم بهت بکنم :

انتخاب نام دامنه و اگه بشه ایده جدید !!!
خوش حال میشم درضمینه هایی که گفتین کمک کنید و اگر ایده ی جدیدی هم دارید خوشحال میشم بشنوم

-سیّد-
پنج شنبه 13 فروردین 1394, 18:54 عصر
سلام
من علاقه‌ای نداشتم که اینجا به مباحث خارج از موضوع بپردازم، اما چون وسط بحثا یه سری مطلب نادرست درباره‌ی موتور جستجوی یوز مطرح شد، لازم دونستم که جوابش رو همینجا بدم.
اگه مدیر محترم بفرمایند دیگه اینجا ادامه نمی‌دم.
«قبلش بگم که من عضو تیم فنی موتور یوز هستم»


با درود و احترام فراوان
دوستان عزیز و گرامی بنده قصد دارم برنامه نویسی یک موتور جستجوی کاملا اختصاصی رو شروع کنم
ممکنه در اوایل خیلی پیشرفته نباشه و ... اما مطمئننا در ادامه مطمئناحرفی برای گفتن خواهیم داشت

امیدوارم موفق باشید. قطعاً تجربه‌ی خوبی خواهد بود و به شما دید نسبتاً خوبی درباره‌ی کلیات یک موتور جستجو خواهد داد.



درضمن اینو هم بگم که تاحالا تمام موتور های جستجوی ایرانی که فقط اسمشون ایرانیه نتایجشونو از یاهو بینگ و گوگل دریافت میکنن و به هیچ عنوان اختصاصی نیستن
پس بیاید یه موتورجستجوگر قدرتمند ایرانی اختصاصی بنویسیم
خوب این حرفتون کاملاً اشتباه هست. موتورهای یوز و پارسی‌جو خودشون index دارن و جواب جستجوها رو خودشون می‌دن، هیچ ارتباطی هم به گوگل و بینگ و یاهو و ... ندارن.


از لحاظ سرور مشکلی نیست خیالتون راحت
دوستان خوشحال میشم پیشنهاداتتونو میشنوم
اگه کار قراره در حد تحقیقاتی باشه و برای این که بیشتر با موتورهای جستجو آشنا بشید، نیازی به سرور آنچنانی نخواهید داشت.
ولی اگر بخواید یه مقدار جدی کار کنید، قطعاً به دهها یا صدها سرور نیاز خواهید داشت.
این رو من از روی تجربه‌ی ۵ ساله‌ی کارم توی موتور جستجوی یوز می‌گم. آخرین آماری که از تعداد سرورهای گوگل داریم، ۲ میلیون سرور هست. ۲ میلیون سرور! نه یکی دو تا ده تا!!
حالا شما بگو ما می‌خوایم در حد یک هزارم گوگل کار کنیم، بازم می‌شه ۲ هزار تا سرور!



حدود یک سالی میشه که شرکت بیان اومده و این کارو داره انجام میده . موتور جستجوگر ایرانی *** سلام salam.ir *** که بعد از مدتی احتمالا موتور تمام ایرانی زال رو پیاده سازی می کنند که موتور زال webmaster هم داره و تمام ایرانی و بومی هستش .

در مورد زال خیلی وقته که ما منتظریم ببینیم کی زال بالا میاد! هنوز که خبری نیست...


پروژه موتورهای جست و جوی میلی که با اعتبار بیش از 170 میلیارد( پولی که می تونست صرف اشتغالزایی و هزاران مورد مفید دیگر بشه ) تومن و حمایت های دولتی به جایی نرسید
اشتباه نفرمایید، هزینه‌ی موتور یوز ۱۷۰ میلیارد تومن نبوده، ۷ میلیارد تومن بوده:
http://www.khabaronline.ir/detail/400804

معاون برنامه‌ریزی وزارت ارتباطات در مراسم رونمایی از موتور «یوز»، اعلام کرد که ساخت این جست‌وجوگر ایرانی تاکنون هزینه‌ای 7 میلیارد تومانی را برای این وزارت‌خانه داشته است.
که اگه یه حساب سرانگشتی ساده بکنید، می‌بینید برای ۴-۵ سال کار یه تیم (که تا ۸۰ نفر رسیده) خیلی عدد زیادی نیست. نیومدن ۷ میلیارد تومن بذارن روی میز بگن بسم‌الله برو ببینم چی کار می‌کنی!!! این ۷ میلیارد کل پولی بوده که تا به حال دولت توی این ۴-۵ سال روی موتور یوز هزینه کرده (که شامل سرورها و دیتاسنتر و پهنای باند و ... هم می‌شه).
یه نکته‌ی دیگه: شما انتظار داشتی بعد از یکی دو ماه از رونمایی موتور، چه شق‌القمری بشه که الان می‌گی «به جایی نرسید»؟



گوگل 17 سال پیش در حد یک ایده بود
الان با 2500 تا کارمند شده این

یه اشتباه لپی: گوگل الان بیش از ۲۰ هزار نفر کارمند داره، نه ۲۵۰۰ نفر.



درمورد یوز باید بگم شک دارم نتایجش اختصاصی باشه ! نتایجش بسیار شبیه گوگل هست حتی در کلماتی مثل( بوق :D )

و در نهایت : اینو بخونید همه : http://searchengineland.com/google-bing-is-cheating-copying-our-search-results-62914
دیگه مایکرو سافت با اون قدرتش از گوگل نتایج میگیره بقیه موتورها بماند
خوب من شک ندارم که یوز نتایجش مال خودش هست! :)
فهمیدنش خیلی کار سختی نیست. به عنوان مثال، به تعداد نتایج جستجو در یوز و گوگل نگاه کنید. یا به نتایج جستجوها مختلف. اگه ۲ تا جستجو کردید نتایجشون شبیه به هم بود دلیل نمی‌شه که داره از گوگل می‌گیره!


.لازم نیست کل متن یک صفحه رو تو دیتابیس ذخیره کنی این جوری هم حجم بالا می ره هم سرعت جستجو میاد پایین(فرض کن 100 میلیون صفحه داری تو هر جستجو که کاربر می کنه که نمی تونی کل صفحات رو جستجو کنی سرعت به شدت میاد پایین) بهتره از روشی مثل ایندکس معکوس(inverted index) برای ذخیره استفاده کنی و کلماتی که ارزش ندارند (مثلا «و» «از» «برای» ...) رو هم به کمک الگوریتم هایی مثل tf-idf شناسایی کنی و اصلا ذخیره نکنی.
ببینید بستگی داره چی کار می‌خواین بکنید. اگه قراره توی نتایج جستجو snippet هم به کاربر نشون بدید، باید متن کامل صفحه رو هم داشته باشید تا بتونید کلمات جستجو شده رو توش بولد کنید و به کاربر نشون بدید. مگر این که نخواین این رو به کاربر نشون بدین.
نکته‌ی بعدی اینه که خود inverted index هم حجم بالایی خواهد داشت. درسته که نسبت به حجم صفحه‌ی اصلی خیلی کوچکتر هست، اما شما همین یک میلیارد صفحه‌ی یوز رو که در نظر بگیرید، می‌بینید حجم خیلی زیاد می‌شه. بنابراین اگه بخواین سرعت رو از دست ندید، و بخواین تعداد زیادی صفحه رو index کنین، مجبورین از روش‌های مخصوص index کردن استفاده کنید و در کنارش به تعداد کافی سرور داشته باشید (گوگل اون ۲ میلیون سرور رو برای گیم زدن استفاده نمی‌کنه! ).
برای نمونه، بگم که حجم index موتور یوز، نزدیک دو ساله (زمان دقیقش یادم نیست) که از یک ترابایت گذشته (فقط حجم inverted index، وگرنه حجم خود صفحات که دهها ترابایت هست).


دوستان همین الان یه چیزی رو دیدم خواستم شما هم بینید
لینک اول :http://rabbit.yooz.ir/prabbit/prabbit.php
همچنین این :http://rabbit.gorgor.ir/prabbit/prabbit.php

چه جالب؟



بله متاسفانه همینطوره!


خیلی جالبه
2تا موتور جستجوگر با یک اسکریپت؟ نه واقعا جالبه دو تاشو هم یه نفر نساخته جالبه نه؟
درضمن
ربیت یک اسکریپت نال شده ی جستجو هست که دانلود رایگان داره
از گوگل و بینگ نتایجشو میگیره با هم قاطی میکنه و میده به خورد کاربران
من تا تحقیق نکنم حرفی نمیزنم


از طرفی هم داره از Pure یاهو استفاده میکنه! حالا اینها به کنار امیدوارم برای ویندوز سرورشون حداقل لایسنسش خریداری شده باشه، نه کرک!!
:|
خوب من چی بگم!
برادر من! شما که «تا تحقیق نکنی حرفی نمی‌زنی»! می‌شه بگی این تحقیقت رو دقیقاً کجا کردی؟ تحقیقت همون حرفی بوده که یکی اومده توی انجمن اوبونتو گفته؟! این شد تحقیق؟
می‌شه لطفاً آدرس سایت این «ربیت» که «یک اسکریپت نال شده ی جستجو هست که دانلود رایگان داره. از گوگل و بینگ نتایجشو میگیره با هم قاطی میکنه و میده به خورد کاربران» رو برای ما اینجا بذاری ما هم باهاش آشنا بشیم؟ لطفاً آدرس صفحه‌ی دانلود رایگانش رو اینجا بذارید تا همه روشن بشن.
:|

. این ربیت سایتی نداره؟ هر چی گشتم پیدا نکردم؟
بنده هم همینو می‌گم! لطفاً دوستمون جواب بده.


دوست عزیز شما فکر کن اختصاصیه
مگه من چی گفتم؟
کاملا مشخصه نتایجشو از گوگل میگیره
موفق بباشید
می‌شه بگید از کجا انقدر مشخصه که نتایجشو از گوگل می‌گیره؟ لطفاً یک دونه، فقط یک دونه مدرک قانع کننده بیارید که یوز نتایجش رو از گوگل می‌گیره. :|


ایرادش خرج میلیاردی که براش شده! اگه از سورس یکی دیگه استفاده کردن چند میلیارد پول بی زبون مملکت رو کجا خرج کردن؟
در مورد موتور گرگر و یوز، این خبر رو بخونید:
http://itiran.com/d/68499

محمد نقوی، مدیر موتور جست‌و‌جوی بومی "یوز" در پاسخ به این سوال ایران که آیا یوز و گرگر به یکدیگر شبیه‌ هستند می گوید:« یوز موتورجستجوی جدا با سازوکار جداست اما از تجربیات افرادی که در گرگر مشغول به فعالیت‌ می‌کنند استفاده کرده است و تیم یوز از تیم گرگر کمک گرفته است.»
در واقع UI یوز از گرگر گرفته شده. اما مثلاً الگوریتم رتبه‌بندیشون (که یکی از اصلی ترین بخش‌های موتور جستجو هست) کاملاً با هم متفاوته.
بنابراین اون پول بی‌زبون ۲ بار خرج نشده! در واقع درست‌ترش این بود که معاون وزیر می‌گفت کل هزینه‌ای که موتور یوز (با توجه به امکاناتی که از گرگر گرفته) برای ما داشته، ۷ میلیارد تومن بوده.


این میلیارد و بوجه و اینا همش کشکه
دولت از این پولا نداره بده و داشته باشه هم نمیده اونم کجا تویه وب :متعجب:
اینا فقط خواستند گندش کنند .
اگر هم میگه بوجه دادیم به احتمال زیاد اومده هزینه تحصیل اون افرادی که ساختند و هزینه چند سال دیگه رو جمع کرده گفته اینقدر ...
دوست من اینطوری نیست. قبلاً هم گفتم. شما فقط حقوق یه شرکت رو برای ۴-۵ سال حساب کن، دستت میاد که عددش خیلی پرت نیست.


از اون طرف هم که دیدید همین اخرین موتور جستجوگر معرفی شده ی و ز که ماشالله بدون هیچ تحقیقی اومده اسمی گذاشته که مال یک شرکت دیگه هست و سال هاست داره فعالیت می کنه اگر این دزدی نیست پس چی میشه اسمش را گذاشت

می‌شه اسم این شرکت رو بفرمایید؟ آدرس سایتشون رو هم لطفاً بفرمایید.


:متعجب:
این باگ فوق العاده ناشیانه و پیش پا افتاده است.
یعنی سطح تخصص و پیاده سازی امنیت در برنامه نویسی بسیار پایین!
برای یک چنین پروژه هایی که میگن (:متفکر:) بزرگ و مهمه، چنین چیزی اصلا جور در نمیاد!! یعنی من موندم اینجور باگها رو فقط برای برنامه ها و سایتهای خیلی معمولی و پیش پا افتاده و برنامه نویسان مبتدی میشه قابل قبول دونست.
یعنی توی صفحهء اصلیش توی پارامتر اصلی ... یک چنین باگی که در مباحث امنیتی مقدماتی هم به کرات مطرح شده و چیز ساده و روشنیه و روش جلوگیریش هم ساده است، ... برای یک به اصطلاح موتور جستجو با اون سر و صدا و هزینه ها...
بقول یارو، من دیگه حرفی ندارم :لبخندساده:

اولاً که «یارو» نه و فامیل دور! :)
ثانیاً در مورد XSS ای که توی یوز و گرگر بود:
اول بگم که نمی‌خوام ماستمالی کنم، به نظر خود من هم خیلی زشت بود که موتور xss داشته باشه.
اما دلیلش چی بوده؟ دلیلش این بوده که به علت کمبود نیرو، اولویت برطرف کردن xss پایینتر از کارهای دیگه بوده. وگرنه ما قبل از رونمایی از موتور اطلاع داشتیم که موتور xss داره (توجه دارید که xss برای سایتی که هنوز مباحث authentication و session و اینها توش مطرح نیست، از نظر امنیتی مسئله‌ی خیلی مهمی نیست، فقط کلاس کار رو به شدت پایین میاره).
در هر صورت خود من چند بار این رو توی شرکت مطرح کرده بودم که xss خیلی ضایع هست! ولی دوستان توجه نکردند...


به نظر من بحث رو از این گرگر و یوز و پارسی جو خارج کنیم بهتره چون اینا در کل در حد اون چیزی هم نیستند که شاید قراره استارتر بسازه و ما داریم در موردش بحث می کنیم (البته نظر شخصیم اینه که پارسی جو از اون دوتا بهتره) .
اینکه دولت چی گفته و چی تبلیغ کرده یا در واقع این سایت ها دقیقا چی هستند و کی ساخته و چطوری ساخته مهم نیست و جای این بحث ها حداقل تویه این تاپیک نیست و بحث اصلی ما ساخت موتور جستجوی داخلی هست ...
ببخشید بحث شما درباره‌ی ساخت موتور جستجوی داخلی هست، اون وقت مثلاً یوز و پارسی جو هویج فرنگی هستند؟! خوب برادر من! اینا هم موتور جستجوی داخلی هستن دیگه.
بعد هم خیلی جالبه! می‌فرمایید که اینا در حد این چیزی نیستن که اینجا قراره ساخته بشه! دوستان کم و بیش اشاره کردن که اگه این کار قراره تحقیقاتی باشه مشکلی نیست، ولی اگه قرار باشه بیاد بالا و سرویس‌دهی جدی بخواد بکنه، کلی سرمایه می‌خواد! اون وقت شما می‌گی یوز و پارسی‌جو در حد این کار نیستن؟! فکر کنم برعکس گرفتی قضیه رو!


دوستان کسی میتونه در مورد سرچش کمکم کنه؟یعنی مثلا اگه سرچ کردن "برنامه نویس" دقیقا همین کلمه رو داخل متنا سرچ کنه یا مثلا "برنامه" و "نویس" رو جدا سرچ کن هر سایتی که دو تا کلمه رو داشت لیست کنه یا چطوری...
این قضیه و بحث‌های بعدیش که شده، من رو یاد اون اوایل موتور یوز می‌ندازه.
برادر من! مباحث IR کشکی نیستن که دور هم بشینین و چهار تا ایده بزنین و بترکونین قضیه رو! کلی بحث علمی پشتش هست. کلی paper روی این مباحث هست. تازه جالب اینه که بسیاری از این paper ها توی موتور جستجو به کار نمیان! چون سرعتشون در حدی نیست که بشه ازشون توی موتور جستجو استفاده کرد. من مخالف ایده زدن نیستم ها، اشتباه نشه. صحبتم سر اینه که شما اول ایده‌های بقیه رو مطالعه کن، بعد شروع کن خودت ایده بزن.

برای این که یه مقدار ذهنتون به سرعت مورد نظر نزدیک بشه، یه مثال می‌زنم. مثلاً توی یوز جستجو کنید:
برنامه‌نویس (http://www.yooz.ir/?q=%D8%A8%D8%B1%D9%86%D8%A7%D9%85%D9%87%E2%80%8C%D 9%86%D9%88%DB%8C%D8%B3&st=0&s=0&i=&v=2)
البته اگه الان شما بزنید، از توی cache جواب می‌گیرید. اما من که دفعه‌ی اول زدم، توی ۶۴۲ میلی‌ثانیه، ۱۱ میلیون نتیجه رو برام اورد. یعنی توی نزدیک یک میلیارد صفحه، ۱۱ میلیون نتیجه با جستجوی من match شدن که توی ۶۴۲ میلی‌ثانیه رتبه‌بندی شدن و ده تای اول نمایش داده شدن.

129969

یا مثلاً:
فیلم جدید (http://www.yooz.ir/?q=%D9%81%DB%8C%D9%84%D9%85%E2%80%8C%D8%AC%D8%AF%D B%8C%D8%AF+&st=0&s=0&i=&v=2)
نتیجه:

129970

یعنی ۸۰ میلیون نتیجه توی ۸۴۹ میلی‌ثانیه رتبه‌بندی شدند! این اصلاً کار کوچیکی نیست! حساب کنید ببینید برای امتیاز دادن به هر صفحه (که خود امتیاز هر صفحه از چندین پارامتر تشکیل می‌شه) سیستم چقدر فرصت داره! می‌شه ۸۴۹ میلی‌ثانیه یعنی ۰.۸۴۹ ثانیه تقسیم بر ۸۰ میلیون، که می‌شه 0.0000000106125 ثانیه! حالا شما برو حساب کن ببین چند cpu clock فرصت داری برای امتیاز دادن به هر صفحه!
خیلی علاقه‌مندم دوستمون که این تاپیک رو شروع کردن، بیان و یه مثال عددی از جستجوهاشون بزنن. یعنی مثلاً توی MySql اگه صفحات رو index کنید، مثلاً روی ده میلیون صفحه اگه یه جستجو بزنید، می‌خوام ببینم زیر ثانیه می‌تونید جواب بگیرید؟
بابا ما ۵ سال خودمونو کشتیم و از دهها تکنولوژی مختلف استفاده کردیم تا تونستیم به این عددا برسیم. و البته همچنان هم خیلی کار داریم! هنوز رتبه‌بندیمون خیلی با ایده‌آل فاصله داره.



سورس خزنده ی ویدئو :
...


من چند تا نکته توی کد شما می‌بینم:

چرا از set_time_limit استفاده نکردید؟ مگر این که توی تنظیمات آپاچی درستش کرده باشید.
خوبه error_reporting رو فعال کنید تا در صورت برخورد به باگ متوجه بشید.
به دلیل این که فایل config.php یک فایل مورد نیاز برنامه‌ی شما هست و اگه نباشه به مشکل می‌خوره (متغیر pdo داخل اون تعریف شده)، بهتره به جای include از require استفاده کنید.
بهتره به جای این که عددی مثل 60 رو داخل کد بذارید، اون رو بالاتر define کنید و به صورت یک عدد ثابت ازش استفاده کنید تا راحت‌تر بتونید تغییرش بدید.
توی آرایه‌ی opts که ساختید، اولاً نیازی نیست در انتهای header از

\r\n
استفاده کنید. ثانیاً استاندارد HTTP می‌گه که بین علامت دو نقطه «:» و حرف بعدش یه فاصله بذارید. یعنی:
User-Agent: MyAgent/1.0

استفاده از یه User Agent کاملاً مخصوص با چنین اسمی خیلی جالب نیست. بعضی از سایت‌ها به این جور User Agent ها جواب نمی‌دن و پیغام خطا می‌دن. بهتره از یه عبارت استانداردتر استفاده کنید. برای مثال Bot یوز به این شکل هست:

Mozilla/5.0 (compatible; yoozBot-2.2; http://yooz.ir; info@yooz.ir)



توی خطی که از file_get_contents استفاده کردید، در صورتی که سرور به شما جواب نده چی می‌شه؟ (مثلاً یه لحظه ارتباط سرور با سرور آپارات قطع شده باشه) خروجی false خواهد بود. بعد شما این خروجی رو می‌دید به تابع json_decode و اون هم ناراحت می‌شه می‌گه چرا به من string ندادی! بهتره error handling رو قوی‌تر کنید.
بهتره به جای for معمولی که گذاشتید، از foreach استفاده کنید. کد خواناتر می‌شه.
اون select ای که زدید، هزینه‌اش الکی زیاده. شما فقط می‌خواید ببینید که این url رو قبلاً گرفتید یا نه. درسته؟ برای این کار لازم نیست کلش رو select کنید. کافیه از count استفاده کنید:

select count(*) from video where url = :curl

البته حواستون باشه در صورت انجام این کار، دیگه از تابع rowCount استفاده نکنید! چون خروجی count همیشه یک سطر هست که شامل مقدار هست. باید مقدارش رو چک کنید.



تابعتون رو به صورت بازگشتی صدا زدید. این کار خوبی نیست! چون stack شما رو الکی پر می‌کنه. بهتره از حالت بازگشتی درش بیارید و به جاش از یه حلقه استفاده کنید.
چرا یک خط هم لاگ نگرفتید؟! خوبه که همینطور که کد داره اجرا می‌شه و جلو می‌ره، ذره ذره با echo کردن لاگ بگیرید که چه اتفاقی داره می‌افته تا وقتی به مشکلی برخورد کردید بفهمید چه اتفاقی افتاده!


در نهایت عذر می‌خوام اگه زیادی حاشیه رفتم! چون دوستان رفته بودن تو حاشیه من مجبور شدم تو حاشیه جواب بدم!

Tarragon
پنج شنبه 13 فروردین 1394, 19:52 عصر
سلام
واقعا تشکر می کنم از سید جام عزیز که وقتشون رو برای جواب دادن به سوالات دوستان گذاشتن.
من به نوبه خودم از شما و تمام اعضای تیمتون تشکر می کنم.

در مورد موتور جستجو ی بیان به نام "زال" اینو می دونم که چیزی حدود ۷۰٪ برنامه نویسی های این شرکت در داخل ایران نیست و از کشور هند سر چشمه می گیره و زال هم هنوز برنامه نویسیش کامل نشده. کامل که دوستان عزیز و برادر هندی ها نوشتن موتور جستجوی ملی می شه.

در مورد یوز هم راسیتش رابط کاربریش به دل نمی شینه یه فکری براش بکنید. رابط کاربری گوگل رو ببینید خیلی دلنشینه.:قلب:

freeman99
پنج شنبه 13 فروردین 1394, 22:48 عصر
این رو من از روی تجربه‌ی ۵ ساله‌ی کارم توی موتور جستجوی یوز می‌گم. آخرین آماری که از تعداد سرورهای گوگل داریم، ۲ میلیون سرور هست. ۲ میلیون سرور! نه یکی دو تا ده تا!!

حالا چرا اینقدر گنده مینویسی مگه بیلبورد تبلیغاته :لبخند:
بله تعداد سرورها خیلی زیاده شکی نیست. ولی بخوایم دقیق تر باشیم باید اینو در نظر بگیریم که گوگل علاوه بر موتور جستجو خیلی پروژه ها و سرویسهای دیگر رو هم روی این سرورها ارائه میده. چیزهای خیلی تابلوش مثلا جیمیل. ولی بازم خیلی بیشتر هست. سرویس ترجمه، سرویس نقشه و تصاویر ماهواره ای، گوگل داکس و درایور و پروژه های بازمتنش و غیره و غیره. آها راستی یوتیوب هم که الان مال گوگله نمیدونم تعداد سرورهاش جزو این عدد محسوب شده یا جداست. بهرحال فکر نمیکنم این آمار دو میلیون فقط مربوط به سرویس موتور جستجو بوده باشه. البته مسلمه که درمورد موتور جستجو بازم تعدادش خیلی زیاده و این نشون میده که کار موتور جستجو در سطح جهانی کاری نیست که هر کشوری هم بخواد خودش پیاده کنه، چه برسه به دوتا شرکت و گروه یا افراد عادی.



اولاً که «یارو» نه و فامیل دور! :)
ثانیاً در مورد XSS ای که توی یوز و گرگر بود:
اول بگم که نمی‌خوام ماستمالی کنم، به نظر خود من هم خیلی زشت بود که موتور xss داشته باشه.
اما دلیلش چی بوده؟ دلیلش این بوده که به علت کمبود نیرو، اولویت برطرف کردن xss پایینتر از کارهای دیگه بوده. وگرنه ما قبل از رونمایی از موتور اطلاع داشتیم که موتور xss داره (توجه دارید که xss برای سایتی که هنوز مباحث authentication و session و اینها توش مطرح نیست، از نظر امنیتی مسئله‌ی خیلی مهمی نیست، فقط کلاس کار رو به شدت پایین میاره).
در هر صورت خود من چند بار این رو توی شرکت مطرح کرده بودم که xss خیلی ضایع هست! ولی دوستان توجه نکردند...
بله حالا خیلی هم شاید نباید گیر بدیم، ولی اینطوری اعتبار و زحمت بقول شما 4-5 ساله و این همه هزینه خودشون زیر سوال میره!
ضمنا با باگ XSS میشه کارهایی مثل Phishing هم کرد حتما نیاز نیست authentication و session داشته باشه یا به سرویس خود اون سایت باهاش نفوذ کنن. منظورم از Phishing یعنی مثلا یک کد ریدایرکت میذاریم که کاربر رو هدایت میکنه به یک صفحه ای که توش مثلا بخش لاگین یه سایت دیگری رو جعل کرده، و اینطوری خیلی کاربران ممکنه گول بخورن و نام کاربری و پسورد خودشون رو توش وارد کنن. فکر کنم بشه این رو حتی بصورت iframe هم گذاشت که آدرس نشان داده شده در مرورگر تغییر نکنه.
حتی مثلا میتونیم تحت عنوان کمک به موتور جستجوی ایرانی یک بخش بذاریم برای کمک مالی (با مبلغ ناچیز) و اعلام قرعه کشی و مزایای خاصی هم برای کمک کننده ها بکنیم، بعد اونا رو هدایت میکنیم به سایت بانک جعلی تا اطلاعات کارت بانکیشون رو سرقت کنیم. و همهء اینا با سوء استفاده از آدرس سایت پروژهء ملی موتور جستجو صورت میگیره و اعتمادی که کاربران بهش میکنن! یخورده خلاقیت داشته باشی میبینی که کلی سناریوهای جالب میشه طراحی کرد که از این مسائل سوء استفاده کنن. بخصوص اینطور سایتها که یک جایگاه و وضعیت خاصی دارن و به دید خیلی ها کم و بیش دولتی و قابل اعتمادتر از سایتهای معمولی دیگه میان، میشه از طریقشون کاربران رو راحتتر گول زد و کاری کرد حتی یکسری اطلاعاتی که جاهای دیگه نمیدن اونجا با ترفندهای روانی و مهندسی اجتماعی و این حرفا ازشون بیرون کشید!

-سیّد-
پنج شنبه 13 فروردین 1394, 23:24 عصر
سلام
واقعا تشکر می کنم از سید جام عزیز که وقتشون رو برای جواب دادن به سوالات دوستان گذاشتن.
من به نوبه خودم از شما و تمام اعضای تیمتون تشکر می کنم.

در مورد موتور جستجو ی بیان به نام "زال" اینو می دونم که چیزی حدود ۷۰٪ برنامه نویسی های این شرکت در داخل ایران نیست و از کشور هند سر چشمه می گیره و زال هم هنوز برنامه نویسیش کامل نشده. کامل که دوستان عزیز و برادر هندی ها نوشتن موتور جستجوی ملی می شه.

در مورد یوز هم راسیتش رابط کاربریش به دل نمی شینه یه فکری براش بکنید. رابط کاربری گوگل رو ببینید خیلی دلنشینه.:قلب:

خواهش می‌کنم، وقتی می‌خوایم برای کاربرا موتور جستجو بسازیم، وظیفه‌مونه که براشون درباره‌اش توضیح هم بدیم!

در مورد زال، مطمئن هستید؟ من تا حدی با دوستان شرکت بیان آشنایی دارم، چنین چیزی نشنیدم. می‌تونید منبعی ارائه بدید؟

در مورد رابط کاربری، چی بگم! من مدیر تیم index موتور هستم، سلیقه‌ام هم خیلی جالب نیست! (خوب شد دست من ندادنش! :) )
راستش یه مقداری کار سختیه! اگه شبیه گوگل باشه، ملت راه می‌افتن می‌گن این چرا انقد شبیه گوگله؟! یا هر موتور دیگه‌ای. دوستان تیم UX ما فکر می‌کنم بیش از ۱۰ موتور جستجو رو بررسی کردند تا به این طرح رسیدند. البته به این طرح نه! به طرح‌های قبلی! این یکی فکر می‌کنم یه کم کمتر روش وقت گذاشتن.

در هر صورت خیلی ممنونم از این که نظرتون رو ارائه دادید!


حالا چرا اینقدر گنده مینویسی مگه بیلبورد تبلیغاته :لبخند:
بله تعداد سرورها خیلی زیاده شکی نیست. ولی بخوایم دقیق تر باشیم باید اینو در نظر بگیریم که گوگل علاوه بر موتور جستجو خیلی پروژه ها و سرویسهای دیگر رو هم روی این سرورها ارائه میده. چیزهای خیلی تابلوش مثلا جیمیل. ولی بازم خیلی بیشتر هست. سرویس ترجمه، سرویس نقشه و تصاویر ماهواره ای، گوگل داکس و درایور و پروژه های بازمتنش و غیره و غیره. آها راستی یوتیوب هم که الان مال گوگله نمیدونم تعداد سرورهاش جزو این عدد محسوب شده یا جداست. بهرحال فکر نمیکنم این آمار دو میلیون فقط مربوط به سرویس موتور جستجو بوده باشه. البته مسلمه که درمورد موتور جستجو بازم تعدادش خیلی زیاده و این نشون میده که کار موتور جستجو در سطح جهانی کاری نیست که هر کشوری هم بخواد خودش پیاده کنه، چه برسه به دوتا شرکت و گروه یا افراد عادی.


بله حالا خیلی هم شاید نباید گیر بدیم، ولی اینطوری اعتبار و زحمت بقول شما 4-5 ساله و این همه هزینه خودشون زیر سوال میره!
ضمنا با باگ XSS میشه کارهایی مثل Phishing هم کرد حتما نیاز نیست authentication و session داشته باشه یا به سرویس خود اون سایت باهاش نفوذ کنن. منظورم از Phishing یعنی مثلا یک کد ریدایرکت میذاریم که کاربر رو هدایت میکنه به یک صفحه ای که توش مثلا بخش لاگین یه سایت دیگری رو جعل کرده، و اینطوری خیلی کاربران ممکنه گول بخورن و نام کاربری و پسورد خودشون رو توش وارد کنن. فکر کنم بشه این رو حتی بصورت iframe هم گذاشت که آدرس نشان داده شده در مرورگر تغییر نکنه.
حتی مثلا میتونیم تحت عنوان کمک به موتور جستجوی ایرانی یک بخش بذاریم برای کمک مالی (با مبلغ ناچیز) و اعلام قرعه کشی و مزایای خاصی هم برای کمک کننده ها بکنیم، بعد اونا رو هدایت میکنیم به سایت بانک جعلی تا اطلاعات کارت بانکیشون رو سرقت کنیم. و همهء اینا با سوء استفاده از آدرس سایت پروژهء ملی موتور جستجو صورت میگیره و اعتمادی که کاربران بهش میکنن! یخورده خلاقیت داشته باشی میبینی که کلی سناریوهای جالب میشه طراحی کرد که از این مسائل سوء استفاده کنن. بخصوص اینطور سایتها که یک جایگاه و وضعیت خاصی دارن و به دید خیلی ها کم و بیش دولتی و قابل اعتمادتر از سایتهای معمولی دیگه میان، میشه از طریقشون کاربران رو راحتتر گول زد و کاری کرد حتی یکسری اطلاعاتی که جاهای دیگه نمیدن اونجا با ترفندهای روانی و مهندسی اجتماعی و این حرفا ازشون بیرون کشید!
بله البته همه‌ی سرورها مال سرویس جستجو نیستند. آمار قدیمی ما حدود یک سوم هست. توجه کنید که سرویس‌هایی مثل جیمیل و ترجمه و نقشه و امثالهم کلاً صورت مسئله‌شون با صورت مسئله‌ی جستجو فرق می‌کنه. جستجو باید بین همه‌ی صفحات انجام بشه، ولی وقتی شما از جیمیل استفاده می‌کنید و روی یک ایمیل کلیک می‌کنید، فقط یک درخواست ساده دادید که می‌شه تو scale کوچیک فرض کرد یه select ساده از توی پایگاه داده هست. اما جستجو اینطوری نیست! شما هنگام جستجو، همه‌ی سرورهایی که صفحات روشون پخش شدن رو درگیر می‌کنید و هر کدوم از سرورها هم توی همه‌ی صفحات موجود توی خودشون جستجو می‌کنن. خیلی اساسی‌تره! مثلاً یه سرویسی مثل درایو و اینها، مسئله‌ی اساسیش storage هست.
اما نکته‌ی اساسی‌ای که در مورد گوگل وجود داره، زیرساخت قوی اون هست به همراه دیتای زیاد که به کمک زیرساخت قویش می‌تونه به خوبی دیتای زیادش رو پردازش کنه. تکنولوژی‌هایی مثل MapReduce از اختراعات گوگل بودن که الان دیگه جهانی شدن.

اگه اهل مطالعه هستید، حتماً توصیه می‌کنم این مقالات رو مطالعه کنید:
https://en.wikipedia.org/wiki/MapReduce و مقاله‌ی اصلی گوگل: http://research.google.com/archive/mapreduce.html
https://en.wikipedia.org/wiki/BigTable و مقاله‌ی اصلی گوگل: http://research.google.com/archive/bigtable.html
https://en.wikipedia.org/wiki/Spanner_%28distributed_database_technology%29 و مقاله‌ی اصلی گوگل: http://research.google.com/archive/spanner.html
==> توجه دارید که Spanner رو برای خوشه‌های تا ۱۰ میلیون سرور طراحی کرده‌اند!

این صفحه هم صفحه‌ی خوبیه و می‌تونه یه دید کلی درباره‌ی یه موتور جستجو بهتون بده: https://en.wikipedia.org/wiki/Google_platform

کلاً هم این Jeff Dean رو دریابید! مخترع اکثر سیستم‌های اساسی گوگل همین آقا بوده: http://research.google.com/people/jeff
این presentation اش هم خیلی کاربردیه و حتماً اگه به موتور جستجو فکر می‌کنید این رو ببینید (توش کلی نکات اساسی گفته، از دست ندید! ) : http://research.google.com/people/jeff/WSDM09-keynote.pdf
اینم خوبه: http://www.slideshare.net/leokmax/google-jeff-dean-lessons-learned-while-building-infrastructure-software-at-google

امیدوارم اگه دوستان علاقه‌مند به کار در حوزه‌ی موتور جستجو هستند، وقت بذارن و این مقالات رو مطالعه کنن تا یه دید پایه‌ای به موتور جستجو و کار با داده‌ی بزرگ پیدا کنن.

freeman99
جمعه 14 فروردین 1394, 00:43 صبح
خوبه.
ولی من شخصا از مقیاس بزرگ خوشم نمیاد.
یعنی ترجیح میدم خودم رو درگیر این مسائل نکنم.
بیشتر علاقه دارم روی پروژه های کوچک ولی خلاق و مفید کار کنم.
مقیاس بزرگ مثل برنامه نویسی هستهء سیستم عامل میمونه. باید خودت رو وقفش کنی، بعد از اونور از روی کار هیچی نداری همش پشت کاری! اینجور کارا رو توی دنیا بنظر من همون عدهء معدود انجام بدن کافیه. مثلا هستهء سیستم عامل رو یک عده خوره و نخبه خاص معدود هستن خب دارن انجام میدن و همه استفاده میکنن دیگه؛ دیگه نیازی نیست هر روز یکی بیاد هستهء سیستم عامل جدیدی بنویسه!
موتور جستجو هم بنظر من از این نظر شباهت داره که یک عده «خاص کار» میخواد که هستن و خب دارن کارشون رو خوب انجام میدن و یه سرویس جهانیه مثل هستهء سیستم عامل لینوکس که یجورایی یه محصول رایگان جهانیه. بنابراین بنظر من نیازی نیست و عاقلانه هم نیست و صرف نمیکنه که هرکس بخواد مال خودش رو درست کنه. آخه کار راحت و کم هزینه ای هم نیست که به هیچ وجه! کار سخت، طولانی، پرهزینه ای هست و کار یک نفر و دو نفر به تنهایی هم نیست.
من دوست دارم روی فیلدهای سبک تر و متنوع تری کار کنم. منظورم از سبک این نیست که مثلا کار سطحی و کم ارزشیه، منظورم اینه که حتی یک نفر هم بتونه خودش همه کارش رو از آغاز تا پایان پیش ببره و در مدت عمرش بتونه زیاد از اینطور پروژه ها تولید کنه، نه فقط یکی دوتا چندتا پروژه اونم همش توی یه مایه های مشابه. شخصا کارهایی دوست دارم که متنوع باشن، باحال باشن، هم از پشت کار داشته باشن هم روی کار، ترجیحال در جریان دنبال کردن اونا یادگیری در حیطه های متنوع و گسترده و متفاوتی داشته باشن. خلاصه آدم محروم از هیچی نمونه. مثل اینکه بتونی همه غذاهای معروف و خوشمزه در دنیا رو بخوری و امتحان کنی! من یه خوره ام که دوست دارم همه چیز رو تجربه کنم، درحد مزمزه هم که شده. در مورد چیزهایی مثل هستهء سیستم عامل و موتور جستجو هم البته اطلاعاتی دارم و تا این حد که این دانش رو دارم و درک میکنم و میدونم که اگر واقعا لازم بود و میخواستم میتونستم، چون تمام پایه های اساسی اونو دارم یا در توان خودم میبینم که یاد بگیرم، برای ارضام کفایت میکنه؛ نیازی نیست که حتما یدونش رو خودم درست کنم، چون اینطوری باید بخش بزرگی از عمرم رو در یک حیطه های نسبتا محدودی صرف کنم.
البته با هدف آزمایش و تحقیق و تمرین و این حرفا مشکلی در اینکه کسی روی اینطور پروژه ای کار کنه ندارم قبلا هم گفتم، ولی باز برای یه خوره همه چیز خوار مثل من این فیلد با وجود تمام گستردگی و تنوعش، بقدر کافی متنوع و ارضا کننده نیست و بعضی زمینه ها توش نیست یا خیلی کمتر هست به نسبت. البته شاید باید طور دیگه بگیم که چون بخشهای مرکزی و اصلی و عمدهء اینطور پروژه ها خیلی حجیم و سخت هستن و عمدهء وقت و انرژی آدم رو میگیرن، آدم از یه زمینه های جالب دیگه وامیمونه! میپرسید مثلا چه زمینه ای توش نیست یا کمه؟ باید بگم مثلا همون رمزنگاری که خودش یه رشتهء واقعا گسترده و پیچیده ای هست. یه آدمی که توی عمرش همش روی سیستمهای مقیاس بالا کار میکنه از شگفتی ها و عظمت علم رمزنگاری مدرن چی میدونه؟ شاید نهایت در این حد بلد باشه که دوتا کتابخانه و API رو واسه نیازهای سیستمهای خودش استفاده کرده باشه و یه چیزایی از مباحث امنیت و خواص کاربردی اونا بدونه، ولی واقعا غیرمنتظره است اگر در فیلد علم رمزنگاری هم متخصص باشه، چون این فیلد خودش فوق تخصصیه و کم حجم و پیچیدگی نداره، ولی اون طرف معلومه که عمرش روی مسائل گسترده و پیچیدهء سیستمهای مقیاس بزرگ رفته و وقت نداشته دیگه بره همینطور هرچیز دیگه که دلش میخواد رو یاد بگیره.

Tarragon
جمعه 14 فروردین 1394, 08:45 صبح
در مورد زال، مطمئن هستید؟ من تا حدی با دوستان شرکت بیان آشنایی دارم، چنین چیزی نشنیدم. می‌تونید منبعی ارائه بدید؟
بله مطمئنم. از طریق یه ارگان های ملی در جریان قرار گرفتم. خود بیان به یکی از ارگان ها وابسته است که خودتون می تونید حدسش بزنید...

m.esmaeilzadeh
شنبه 15 فروردین 1394, 10:19 صبح
اگر بحث درباره مسائل موتور جستجو های دیگه است , شاید بحث جالبی باشه !
ولی اگر میخواید یک موتور جستجو طراحی کنید و از نظر مالی و دانش کار ضعیف هستید اصلا انرژی خودتون رو برای کارهای بیهوده هدر ندید !!!!
چون موتورهای جستجو اصلا با زبان هایی مثل php نوشته نمیشن و صرفا بخش نمایش و دریافت درخواست ها با php نوشته خواهد شد ....
چندین میلیارد هم در صورت بزرگ شدن کار سرمایه احتیاج داره ....
حالا اگر میتونید بسم الله :لبخندساده:

aliasgharnasiri72
شنبه 15 فروردین 1394, 17:21 عصر
سید جان ببخشید با خودت میشه بگی چند چندی ؟
یبار میگی من عضو گرگر هستم یبار میگی یوز هستم . اصلا نکنه فقط میای تو این سایتا در مورد جستجوگرا زرتی نظر میدی و میری ؟
همه جا هم ک هستی الحمدالله ...
من نزدیک 40 بار فقط با تو قبلا حرف زدم تو سایتا یبار تعریف گرگر میکردی حالا هم ک یوز میگی ...
اول تکلیف ما رو روشن کن تو کدومشی ..
بعدشم لطفا خواهشا به مسئول یوز بگو اگر اونجاها دیدی ک استایل داک داک رو کپ نزنن بندازن روش زشته عیبه ؟ حداقل اسم کلاس ها رو عوض میکردین ؟
الحمدلله ک بلد نیستین یه اسلاید بسازین و میرین پلاگین زرتی میندازین روش ..
پارسی جو ک نتوسنت یه دیزاین بسازه رفت بوت استرپ برداشت ...
شما هم ک اینطوریه ..
ی سوال خیلی مهم واسم پیش اومده چرا شما ک خزشگر و این چرت و پرتا درست کردین چرا اینقدر دیزاین افتضاحی دارین؟
واقعا متاسفم که چند تا از جوونای کشورمون رفته بودن ی سیستمی قدرتمند از تر از وردپرس درست کرده بودن فناوری ی ریال حسابشون نکرد اونوقت بعضیا میرن جستجوگر مثل پشمک درست میکنن 170 میلیارد یا ب قول شما 7 میلیارذ
میگیرین .. استانداری ک ب ما گفت 170 میلیارد دیگه کم یا زیادش خدا میدونه ...
یا حق

-سیّد-
شنبه 15 فروردین 1394, 21:17 عصر
مقیاس بزرگ مثل برنامه نویسی هستهء سیستم عامل میمونه. باید خودت رو وقفش کنی، بعد از اونور از روی کار هیچی نداری همش پشت کاری! اینجور کارا رو توی دنیا بنظر من همون عدهء معدود انجام بدن کافیه. مثلا هستهء سیستم عامل رو یک عده خوره و نخبه خاص معدود هستن خب دارن انجام میدن و همه استفاده میکنن دیگه؛ دیگه نیازی نیست هر روز یکی بیاد هستهء سیستم عامل جدیدی بنویسه!
موتور جستجو هم بنظر من از این نظر شباهت داره که یک عده «خاص کار» میخواد که هستن و خب دارن کارشون رو خوب انجام میدن و یه سرویس جهانیه مثل هستهء سیستم عامل لینوکس که یجورایی یه محصول رایگان جهانیه. بنابراین بنظر من نیازی نیست و عاقلانه هم نیست و صرف نمیکنه که هرکس بخواد مال خودش رو درست کنه. آخه کار راحت و کم هزینه ای هم نیست که به هیچ وجه! کار سخت، طولانی، پرهزینه ای هست و کار یک نفر و دو نفر به تنهایی هم نیست.

البته مقایسه‌ی موتور جستجو با هسته‌ی سیستم عامل یه مقدار قیاس مع‌الفارق هست. شاید توی سختی کار بشه مقایسه‌شون کرد، ولی موتور جستجو خییییییییییییلی کار گسترده‌ای هست. شما توی موتور جستجو تقریباً باید با تمام مسائل نرم‌افزار و سخت‌افزار آشنا باشید. یعنی تقریباً با همه‌شون درگیر می‌شید، اگه آشنا نباشید به مشکل می‌خورید. اما kernel اینطوری نیست، خیلی محدودتر هست.
همون رمزنگاری هم که گفتید، اگه بخواید توی موتور جستجو واقعاً بهینه کار کنید، درگیرش می‌شید. مثالش پروتوکول SPDY هست که مال گوگل هست.
یا مثلاً من با یکی از دوستان که توی گوگل کار می‌کنه صحبت می‌کردم، می‌گفت من الان کاملاً درگیر مسائل ریاضی هستم و کلاً کاری با بحث‌های فنی ندارم. کارش این بود که بتونه پیش‌بینی کنه که ت
تا چند روز آینده کدوم بخش از سیستم بیشتر درگیر کاربرا می‌شه تا بتونن load مورد نظر رو از قبل برای اون قسمت پیش‌بینی کنن.

در هر صورت شما حق انتخاب دارید! اگه نمی‌خواید روی مقیاس بزرگ کار کنید، مشکلی نیست! :)
اصلاً این تاپیک شروعش درباره‌ی مقیاس بزرگ نبوده و نمی‌تونه هم خیلی بزرگ بشه (همونطور که قبلاً هم دوستان اشاره کردن، مقیاس بزرگش سرمایه و انرژی فراوون می‌خواد)، ولی توی مقیاس کوچیک کار جالبیه.


اگر بحث درباره مسائل موتور جستجو های دیگه است , شاید بحث جالبی باشه !
ولی اگر میخواید یک موتور جستجو طراحی کنید و از نظر مالی و دانش کار ضعیف هستید اصلا انرژی خودتون رو برای کارهای بیهوده هدر ندید !!!!
چون موتورهای جستجو اصلا با زبان هایی مثل php نوشته نمیشن و صرفا بخش نمایش و دریافت درخواست ها با php نوشته خواهد شد ....
چندین میلیارد هم در صورت بزرگ شدن کار سرمایه احتیاج داره ....
حالا اگر میتونید بسم الله :لبخندساده:
حرفتون درسته، دوستان دیگه هم قبلاً اشاره کرده بودن. دوستی هم که تاپیک رو شروع کرد، خودش چند جا گفت که می‌خواد تو مقیاس کوچیک شروع کنه ببینه چی می‌شه.


سید جان ببخشید با خودت میشه بگی چند چندی ؟
یبار میگی من عضو گرگر هستم یبار میگی یوز هستم .

خوب دوست گرامی! من عضو تیم گرگر بودم، الان عضو تیم یوز هستم. مشکلش چیه؟! مثلاً فرض کن من عضو تیم MySql بودم، حالا رفتم توی تیم MariaDb. یه جورایی یوز یه fork از گرگر هست.



اصلا نکنه فقط میای تو این سایتا در مورد جستجوگرا زرتی نظر میدی و میری ؟

:)
واقعاً به نظر شما این شیشصد صفحه‌ای که من تایپ کردم، و همه‌ی سؤالات و ابهامات رو جواب دادم، اسمش «زرتی نظر دادن و رفتن» هست؟!!!!



همه جا هم ک هستی الحمدالله ...

من توی ایام عید که یه کم سرم خلوت‌تر بود، رفتم این ور و اون ور یه کم گشتم ببینم ملت درباره‌ی موتور چی می‌گن. هر جا احساس کردم اشتباه می‌گن (مثل قضیه‌ی ۱۷۰ میلیارد که خیلی جاها اشتباه گفته شده) یا بحث meta search engine بودن یوز مطرح بود یا ...، رفتم عضو شدم و جواب دادم.



من نزدیک 40 بار فقط با تو قبلا حرف زدم تو سایتا یبار تعریف گرگر میکردی حالا هم ک یوز میگی ...
اول تکلیف ما رو روشن کن تو کدومشی ..

خوب ان‌شاءالله تکلیف روشن شد! من الان توی تیم یوز هستم. از سرنوشت گرگر هم خیلی اطلاعی ندارم. فقط تا جایی که می‌دونم دیگه روش هزینه‌ی خاصی نمی‌شه و کار خاصی هم انجام نمی‌شه.
می‌شه اینطوری گفت که این ۷ میلیارد کل هزینه‌ای بوده که روی گرگر + یوز شده.



بعدشم لطفا خواهشا به مسئول یوز بگو اگر اونجاها دیدی ک استایل داک داک رو کپ نزنن بندازن روش زشته عیبه ؟ حداقل اسم کلاس ها رو عوض میکردین ؟
الحمدلله ک بلد نیستین یه اسلاید بسازین و میرین پلاگین زرتی میندازین روش ..
پارسی جو ک نتوسنت یه دیزاین بسازه رفت بوت استرپ برداشت ...
شما هم ک اینطوریه ..
ی سوال خیلی مهم واسم پیش اومده چرا شما ک خزشگر و این چرت و پرتا درست کردین چرا اینقدر دیزاین افتضاحی دارین؟

:)
البته نظر لطف شماست!
از شوخی گذشته، من به شخصه جداً خوشحال می‌شم نظر دوستان رو درباره‌ی بخش‌های مختلف موتور (UI، کیفیت رتبه‌بندی، سرعت، قابلیت‌ها، ...) بدونم، چون بالاخره ما موتور رو برای کاربرا ساختیم و نظر اوناس که مهمه نه نظر ما!
من نظر شما رو به تیم UI منتقل می‌کنم. از طرف اونا نمی‌تونم جواب بدم!



واقعا متاسفم که چند تا از جوونای کشورمون رفته بودن ی سیستمی قدرتمند از تر از وردپرس درست کرده بودن فناوری ی ریال حسابشون نکرد اونوقت بعضیا میرن جستجوگر مثل پشمک درست میکنن 170 میلیارد یا ب قول شما 7 میلیارذ
میگیرین ..

من از اون قضیه‌ی وردپرس که می‌گید خبر ندارم. ولی از موتور جستجومون خبر دارم که مثل «پشمک» درست نشده... :|
ای کاش یه مقدار بیشتر ادب رو رعایت می‌کردید...



استانداری ک ب ما گفت 170 میلیارد دیگه کم یا زیادش خدا میدونه ...
یا حق
خوب من نمی‌دونم استانداری به شما چی گفته و از کجا گفته! والا ۱۷۰ میلیارد اگه به ما داده بودن این همه مشکل کمبود سرور نداشتیم. اون وقت می‌تونستیم صد جور الگوریتم رتبه‌بندی دیگه اجرا کنیم و کیفیت نتایج رو بهتر کنیم. (مراجعه کنید به عدد 0.0000000106125 ثانیه که بالاتر حساب کرده بودم)
در هر صورت من مجدداً لینک خبر رو اینجا می‌ذارم برای ارجاع:
http://www.khabaronline.ir/detail/400804


معاون برنامه‌ریزی وزارت ارتباطات در مراسم رونمایی از موتور «یوز»، اعلام کرد که ساخت این جست‌وجوگر ایرانی تاکنون هزینه‌ای 7 میلیارد تومانی را برای این وزارت‌خانه داشته است.


اون ۱۷۰ میلیارد کل بودجه‌ای هست که دوست دارن به این طرح اختصاص بدن! ولی معلوم نیست طی چه مدت و چطوری! شما حساب کنید از ۱۷۰ میلیارد توی نزدیک ۵ سال، ۷ میلیاردش رسیده! کلش می‌شه چند قرن؟! :)
به نقل از همون خبر:


بر این اساس و با توجه به گفته‌های قنبری به نظر نمی‌رسد که 7 میلیارد تومان همه هزینه‌ای باشد که دولت قرار است صرف ساخت و بهینه‌سازی موتورهای جست‌وجو کند بلکه کشور نیاز به سرمایه‌گذاری حدود 170 میلیارد تومانی در پروژه‌های جویشگر ملی دارد.

reza_alie
شنبه 15 فروردین 1394, 21:21 عصر
اگر بحث درباره مسائل موتور جستجو های دیگه است , شاید بحث جالبی باشه !
ولی اگر میخواید یک موتور جستجو طراحی کنید و از نظر مالی و دانش کار ضعیف هستید اصلا انرژی خودتون رو برای کارهای بیهوده هدر ندید !!!!
چون موتورهای جستجو اصلا با زبان هایی مثل php نوشته نمیشن و صرفا بخش نمایش و دریافت درخواست ها با php نوشته خواهد شد ....
چندین میلیارد هم در صورت بزرگ شدن کار سرمایه احتیاج داره ....
حالا اگر میتونید بسم الله :لبخندساده:
دوست عزیز سیستم یاهو به زبان phpبرنامه نویسی شده:لبخندساده::لبخندساده:

aliasgharnasiri72
شنبه 15 فروردین 1394, 21:48 عصر
فیس بوک هم php هسش خخخخ

hamedarian2009
شنبه 15 فروردین 1394, 22:03 عصر
فیس بوک هم php هسش خخخخ

نه هیچ پروژه بزرگی با یک زبان ایجاد نشده فیسبوک هم از انواع و اقسام زبان ها حتی بعضی هاشو اسمشو نشنیدی ایجاد شده که php و c++ و java معروفترینش هستن

-سیّد-
شنبه 15 فروردین 1394, 22:14 عصر
دوست عزیز سیستم یاهو به زبان phpبرنامه نویسی شده:لبخندساده::لبخندساده:


فیس بوک هم php هسش خخخخ

البته این صحیح نیست و حرف اون دوستمون صحیح هست. معمولاً شرکت‌های بزرگ (در واقع سایت‌های بزرگ) فقط front-end سیستم رو با زبون‌هایی مثل php می‌نویسن و back-end رو با زبون‌های دیگه (مثل ++C یا جاوا یا #C) می‌نویسن. یکی از بزرگ‌ترین نمونه‌هاش فیس بوک هست. فیس بوک توی back-end اش از hadoop و hbase استفاده می‌کنه (به همراه سیستم‌های دیگه) که به زبان جاوا هستن. و البته فیس‌بوک و یاهو دو تا از اسپانسرهای بزرگ همین سیستم‌های hadoop و hbase هستن (به همراه بقیه‌ی tool هایی که develop کردن، مثل pig (محصول یاهو) و hive (محصول فیس‌بوک)).

یه سری لینک هم بذارم دوستان استفاده کنن:
ویکیپدیای hadoop (https://en.wikipedia.org/wiki/Apache_Hadoop) - سایت hadoop (http://hadoop.apache.org/) - صفحه‌ی hadoop در بخش برنامه‌نویسی yahoo (https://developer.yahoo.com/hadoop/)
نقل قول از ویکیپدیای hadoop:


Prominent corporate users of Hadoop include Facebook and Yahoo.


ویکیپدیای hbase (http://en.wikipedia.org/wiki/Apache_HBase) - سایت hbase (http://hbase.apache.org/)

ویکیپدیای pig (https://en.wikipedia.org/wiki/Pig_%28programming_tool%29) - سایت pig (http://pig.apache.org/)
نقل قول از ویکیپدیای pig:


Pig was originally developed at Yahoo Research around 2006 for researchers to have an ad-hoc way of creating and executing map-reduce jobs on very large data sets. In 2007, it was moved into the Apache Software Foundation.


ویکیپدیای hive (https://en.wikipedia.org/wiki/Apache_Hive) - سایت hive (http://hive.apache.org/)
نقل قول از ویکیپدیای hive:


While initially developed by Facebook, Apache Hive is now used and developed by other companies such as Netflix.

FastCode
شنبه 15 فروردین 1394, 22:18 عصر
سلام.
من از زمانی که یادم میاد طراحی پایگاه داده مطالعه کردم.
تا الان ۴ تا پایگاه داده embedded ساختم که ۳ تاش fail شده.
احتمالا صدها کتاب طراحی الگوریتم/جست و جو/ FTS / data mining / map-reduce / ... خوندم و استفاده کردم.
TLDR;
جمع کنید برید خونتون.
Long version:
الگوریتم هایی که نام بردید به هیچ عنوان در یک موتور جست و جو استفاده نمیشن.
اون زمانبندی clock ه cpu که حساب کردید کلا غلطه.index قبلا انجام شده.
خیلی مسائل مثل version control/ refetch interval/ data deduplication/ content correlation/ content interpretion/ کلا اصلا اینجا مطرح نشده.
موتور جست و جو رو با یک زبون نمینویسند.
اول فکر میکنند.چند سال برنامه ریزی میکنند. بعد شروع میکنند به طراحی.
موتورهای جست و جو بسته به تصمیم گیری ای که قبل از زدن این پست انجام میشه به دو دسته crawler-based و index-based نقسیم میشن. معمولا نمیشه هر دو رو با هم داشت. yahoo به راحتی به این نتیجه نرسید.
موتور های جست و جو از curl استفاده نمیکنند. trust me
موتور های جست و جو نمیتونن بین محتوا تفاوت قائل بشن. مخصوصا از یک ورودی باز مثل "Report site"
موتور های جست و جو باید بتونن موارد خواص مثل موتور های جست و جو دیگه رو تضخیص بدن.
میتونم ده ها مورد دیگه رو نام ببرم که احتمالا بهض فکر نکردید. یا اگر نام ببرم باید یک ساعت فکر کنید که بفهمید چرا.

-سیّد-
شنبه 15 فروردین 1394, 22:51 عصر
اون زمانبندی clock ه cpu که حساب کردید کلا غلطه.index قبلا انجام شده.

دوست گرامی لطفاً نوشته‌ی بنده رو دقیق‌تر بخونید. من گفتم برای رتبه‌بندی هر صفحه این مقدار زمان صرف شده. حتماً اطلاع دارید که رتبه‌بندی به صورت آنلاین و بر اساس query انجام می‌شه و هنگام index کردن نمی‌شه صفحات رو رتبه‌بندی کرد.



خیلی مسائل مثل version control/ refetch interval/ data deduplication/ content correlation/ content interpretion/ کلا اصلا اینجا مطرح نشده.

خوب برادر من یه چیزایی مثل data deduplication و correlation و امثالهم توی scale بالا معنی پیدا می‌کنن. موتور جستجویی که دوستمون شروع به طراحیش کرده فکر نمی‌کنم بتونه بیش از ۲۰-۳۰ میلیون صفحه رو در بر بگیره.
همچنین refetch interval هم وقتی خزشگر شما محدود هست خیلی بحثش مطرح نمی‌شه. البته این بحث توی یه تاپیک دیگه ( http://barnamenevis.org/showthread.php?487234-%D9%86%D8%AD%D9%88%D9%87-%DA%A9%D8%A7%D8%B1-%D8%AE%D8%B2%D9%86%D8%AF%D9%87-%D9%87%D8%A7%DB%8C-%D9%88-%DB%8C%D8%A7-%D8%B1%D8%A8%D8%A7%D8%AA%D9%87%D8%A7%DB%8C-%D8%AC%D8%B3%D8%AA%D8%AC%D9%88-%DA%AF%D8%B1&p=2193900 ) مطرح شده، اینجا هم یادم نیست مطرح شده یا نه.



موتورهای جست و جو بسته به تصمیم گیری ای که قبل از زدن این پست انجام میشه به دو دسته crawler-based و index-based نقسیم میشن. معمولا نمیشه هر دو رو با هم داشت. yahoo به راحتی به این نتیجه نرسید.

می‌شه در این مورد بیشتر توضیح بدید؟ اگه می‌شه یه منبعی چیزی هم برای مطالعه بذارید، من مطالعه‌ام در این مورد کمه.



موتور های جست و جو از curl استفاده نمیکنند. trust me

اینجا هم دوباره بحث scale مطرح هست. توی scale کوچیک چرا که نه، می‌شه از php+mysql استفاده کرد، در کنار curl یا هر کتابخونه‌ی دیگه‌ای که بشه کار رو باهاش به راحتی انجام داد و درگیر مسائل توزیع‌شدگی و امثالهم هم نشد.



موتور های جست و جو باید بتونن موارد خواص مثل موتور های جست و جو دیگه رو تضخیص بدن.
میتونم ده ها مورد دیگه رو نام ببرم که احتمالا بهض فکر نکردید. یا اگر نام ببرم باید یک ساعت فکر کنید که بفهمید چرا.
خوب دوست عزیز این دوستمون که اینجا این تاپیک رو شروع کردن، می‌خوان با این موارد آشنا بشن. اگه می‌تونید کمکشون کنید که خوشحال می‌شن (احتمالاً!).
موارد خاص یکی دو تا نیستن! مثلاً لینک «ارسال پست» یا «پاسخ» رو نباید یه خزشگر بره و fetch کنه!

freeman99
یک شنبه 16 فروردین 1394, 02:25 صبح
البته مقایسه‌ی موتور جستجو با هسته‌ی سیستم عامل یه مقدار قیاس مع‌الفارق هست. شاید توی سختی کار بشه مقایسه‌شون کرد، ولی موتور جستجو خییییییییییییلی کار گسترده‌ای هست. شما توی موتور جستجو تقریباً باید با تمام مسائل نرم‌افزار و سخت‌افزار آشنا باشید. یعنی تقریباً با همه‌شون درگیر می‌شید، اگه آشنا نباشید به مشکل می‌خورید. اما kernel اینطوری نیست، خیلی محدودتر هست.
منظور من این بود که هر دو از سنگ بناها و زیربنایی هستن. هستهء سیستم عامل یه زیربنای مشترکه که بقیه میان کارشون و لایه های دیگر رو روش میسازن و تنوع بیشتر در اون لایه های بعدی هست تا خود هسته. یعنی ما شونصد مارک و نوع هسته نداریم. عمدتا از نظر حجم و اهمیت بخوای حساب کنی یدونه لینوکس هست که بازمتنه و بیشتر از همه استفاده میشه و بقیه از همون استفاده میکنن. خب هرکس هم بخواد هستهء خودش رو درست کنه که به صرفه نیست و این وسط کاربران هم سردرگم میشن، علاوه بر اینکه user base درست کردن برای اینطور محصولات خودش براحتی شکست میخوره و کسی دلیلی نداره بره روی محصول جدیدی که مزیت و برتری های خاصی هم نداره سرمایه گذاری کنه یا حتی استفادش کنه.
حالا موتور جستجو هم بنظر من میاد که یک سرویس زیربنایی اینترنته و یدونه خوب و رایگان و جهانی که وجود داره همون کافیه برای اکثر مردم و نیازها. دلیلی نداره هر روز یکی بره یه مدل و مال خودش رو درست کنه.
بنظر من اینا زیربنایی هستن. مثل شبکهء برق که در خیلی جاها کم و بیش در انحصار دولته. یدونه بیشتر نیست. کسی و کمپانی ای نمیاد شبکهء برق جدیدی درست کنه، بلکه میره بجاش تجهیزات برقی در سطوح و لایه های بعدی رو طراحی و تولید میکنه. از تجهیزات مورد استفاده در همون شبکهء برق مثل ترانسهای قدرت بگیر تا برس به وسایل صنعتی و سرانجام وسایل خانگی برقی!
یک دلیل البته همون گستردگی و حجم و دشواری و نیاز به هزینه و زمان بالا برای چیزهای زیربنایی مثل هستهء سیستم عامل و موتور جستجوی در مقیاس جهانی و شبکهء توزیع برق هست که باعث میشه اصولا جز معدود موجودیت های خاص که این امکانات رو دارن و یا بنوعی بر دوش اوناست، این کارها رو انجام ندن.
بنابراین بنظر من دنبال درست کردن یک موتور جستجوی جهانی جدید رفتن، کار چندان معقول و مفیدی نمیاد، مگر اینکه به دلیلی مجبور باشیم. چون مثل اینه که کسی بخواد شبکهء برق خودش رو درست کنه! خب یکی هست همه دارن استفاده میکنن کلی هم خرجش شده در طول سالها و به تکامل و تجربهء خودش رسیده؛ حالا شما میخوای از صفر و چیزی که اونا 40 سال پیش شروع کردن تازه شروع و تقلید کنی که چی بشه؟
همینطوره درست کردن هستهء سیستم عامل (منظورم در حد لینوکسه).
البته کم و بیش داره شدت مصداق این قضیه، ولی فکر میکنم در اینکه همشون یجورایی سرویسهای زیربنایی و عمومی هستن و نمیتونن یا معقول و به صرفه نیست که کثرت و تنوع زیادی داشته باشن، مشترک هستن و شباهت دارن از این باب.
ضمنا هستهء سیستم عامل رو دست کم نگیرید. یک چیزی در حد کرنل لینوکس پروژهء بسیار بزرگی است که سالهای سال طول کشیده تا به این حد از تکامل رسیده، میلیونها خط کد داره، هزاران پیچیدگی و همش مسائل سطح پایین و سر و کله زدن با CPU ها و سخت افزارهای مختلف و نسلها و استانداردها و مارک های مختلف اونا، هندل کردن سخت افزارهای مختلف، مهندسی معکوس و خیلی کار و زحمت خیلی افراد و گروهها که صرفش شده تا به اینجا رسیده. شما میتونید یک کرنل خیلی محدودتر و ساده تر درست کنید، اونم اسمش کرنله، ولی کرنل لینوکس کجا و مال شما کجا.


همون رمزنگاری هم که گفتید، اگه بخواید توی موتور جستجو واقعاً بهینه کار کنید، درگیرش می‌شید. مثالش پروتوکول SPDY هست که مال گوگل هست.

تاجاییکه دیدم این پروتکل گرچه میتونه با امنیت و رمزنگاری هم مربوط باشه طبیعتا، اما خودش به تنهایی یک پروتکل رمزنگاری نیست. میشه گفت از امنیت و رمزنگاری و یا پروتکل های رمزنگاری هم استفاده میکنه برای تامین امنیت خودش.
بحث پروتکل و الگوریتم های اختصاصی برای بحث امنیت و رمزنگاری جداست و اصولا هم کسی که تخصص این رشته رو نداشته باشه صلاحیت نداره و خیلی موارد اصلا نمیتونه روی طراحی این چیزا کار کنه، ولو بهترین برنامه نویس دنیا باشه از جهات دیگه. رمزنگاری مثل ریاضی و فیزیک میمونه؛ باید درسهاش رو خونده باشی باید سوادش رو داشته باشی باید تئوری هاش رو بلد باشی. چیزی نیست که تجربی و صرفا بخاطر باهوش بودن و از طریق آزمون و خطا و تست و یا بخاطر اینکه مهندس رشتهء دیگری هستی فنی هستی کسی درست و درمون از پسش بربیاد. بارها به تجربه بوده که پروتکل ها و الگوریتم های رمزنگاری که توسط افراد بدون صلاحیت طراحی شدن به همین دلیل دچار ضعفهای اساسی بودن و در عمل هم ازشون سوء استفاده شده (نمونش پروتکل WEP).
پس مطمئن باش کسانی که روی بحث امنیت و رمزنگاری در این پروتکل کار کردن حتما این تخصص و تحصیلات رو داشتن. البته نمیدونم تا چه حد و به چه شکل از مباحث رمزنگاری درش استفاده شده.


در هر صورت شما حق انتخاب دارید! اگه نمی‌خواید روی مقیاس بزرگ کار کنید، مشکلی نیست! :)
یکی از چیزایی که توی مقیاس بزرگ من خوشم نمیاد اینه که همش باید فکر پرفورمنس و مدیریت منابع و هندل کردن ترافیک و بارهای سنگین باشی و دستت باز نیست. باید بهینه سازیهای زیادی بکنی، تفکر و آزادی برنامه نویسی سطح بالا حداقل تاحدی ازت سلب میشه، دیگه نمیتونی صرفا روی منطق و الگوریتم ها و هدف اصلی در سطح بالا تمرکز کنی. محدودیت داری.
حقیقت اینه که خیلی چیزهای جالب و کاربردی و قدرتمند هستن که در سطح بالاتری کار میکنن و نیاز به منابع کافی دارن. مثلا همون رمزنگاری خودش عملیات سنگینی هست و از یک حدی دیگه نمیشه کمترش کرد چون امنیت مخدوش میشه. اونوقت اگر محدودیت منابع داشته باشی خیلی وقتا مجبوری ترفندهای دیگری بزنی که بقدر استفاده با دست باز از رمزنگاری اصولی و بی نقص نیستن. در منابع مختلف چند بار خوندم که مثلا تمام سایتهای یک سرور وقتی از HTTP به HTTPS سویچ کنن لود سرور چند برابر و حتی 10 برابر میشه! این یعنی اینکه امنیت و رمزنگاری خورهء منابع سخت افزاره، کاریش هم نمیشه کرد، نهایت چندتا ترفند میزنی ماجول سخت افزاری مخصوص رمزنگاری نصب میکنی، اما بهرحال همهء اینا هزینه داره و هنوزم مقدار قابل توجهی بار پردازشی و کندی افزوده داری و مصرف انرژی بیشتر به همین نسبت. چون بحث امنیت و رمزنگاری دیگه بحث مدیریت منابع سخت افزار حالیش نیست، بلکه بحث فرمول و ریاضی و اعداد تصاعدیه. دیگه نمیتونی همینطور بیای بگی خب این مثلا 128 بیته من الان میام میکنم 64 بیت که در مصرف RAM و CPU صرفه جویی کرده باشم، یا این حلقه که 80 تا دور میزنه من میکنم 40 تا، یا دهه چرا 4 تا پیام بین کلاینت و سرور رفت و برگشت میشه بخاطر یک اتصال عادی و من میام با یه ترفند میکنم 2 تا!


اصلاً این تاپیک شروعش درباره‌ی مقیاس بزرگ نبوده و نمی‌تونه هم خیلی بزرگ بشه (همونطور که قبلاً هم دوستان اشاره کردن، مقیاس بزرگش سرمایه و انرژی فراوون می‌خواد)، ولی توی مقیاس کوچیک کار جالبیه.

من میگم همون مقیاس کوچک و آزمایشش هم باز از چیزی که بروبچ فکر کرده بودن خیلی بزرگتر و پیچیده تره. هنوزم کار بزرگ و سختیه. قبلا گفته بودم که حتی یک صدم گوگل رو هم درست کردن کار بزرگ و سختیه.
اصلا من میگم باید اول روی زیرپروژه های جداگانه ای کار کرد و کار رو خیلی محدودتر و اختصاصی تر کرد. موتور جستجو مفهوم خیلی گسترده ای داره و زیرسیستمهای زیادی داره که هرکدوم پروژه های حرفه ای دشوار و پیچیده ای هستن، و ترکیب کردن و ارتباط دادن و یک پارچه کردن همهء اینا با هم بازهم پیچیدگی و جزییات و حجم کار زیاد خودش رو داره. مثلا بنظر من درست کردن یک کراولر به تنهایی میتونه یک انتخاب واقعگرایانه تر و بدردبخورتر وب بهینه تری باشه تا اینکه از اول و وقتی هنوز تجربه و پشتوانه نداریم بگیم میخوایم موتور جستجو درست کنیم. اصلا کراولر چیه، من میگم روبات های خوب و منعطف درست کردن هم هنوز خودش پروژهء حرفه ای و قابل توجهی است! یعنی شما بری تخصصی مدتی روی فیلد روبات برای سایتهای خاص و محدودی کار کنی که کارهای خاصی رو در اون سایتها انجام بدن. اول برو در روبات حرفه ای شو، بعد برو سراغ کراولر، در جریان یا بعد سعی کن اینا رو ماجولار و قابل استفاده و ترکیب در برنامه های دیگه درست کنی، بعد تازه کم کم میتونی به فکر درست کردن یک طرح اولیه و سیستم بدوی شبه موتور جستجو بیفتی، یه چیزی تازه مثل بچه غورباقه که هنوز بالغ نشده و شکل ماهیه و آبشش داره!!


من توی ایام عید که یه کم سرم خلوت‌تر بود، رفتم این ور و اون ور یه کم گشتم ببینم ملت درباره‌ی موتور چی می‌گن. هر جا احساس کردم اشتباه می‌گن (مثل قضیه‌ی ۱۷۰ میلیارد که خیلی جاها اشتباه گفته شده) یا بحث meta search engine بودن یوز مطرح بود یا ...، رفتم عضو شدم و جواب دادم.

به نکتهء جالبی اشاره کردید.
نظر من اینه که آدمایی که میخوان کارهایی به این بزرگی و سختی و پیچیدگی رو بکنن، توی این دوتا مسائل ساده و اولیه مثل درست خوندن دوتا منبع اونم فارسی و چندتا جمله رسمی و منطقی و خبر و تحقیق درست و فهمیدن حقیقت ماجرا نباید اینقدر مشکل داشته باشن و دچار اشتباه بشن، چون اون پروژه هایی که میخوان کار کنن به ذهنهای بسیار دقیق و ریزبینی نیاز داره. ضریب خطای آدم از همین چیزها در همین مسائل روشن میشه و مسلمه کسانی در این حد چنین برنامه هایی رو اصلا نمیتونن درست کنن درست هم بکنن به خیال خودشونه فقط و معلوم نیست واقعا باید اسمش رو چی گذاشت، یه چیزی پر از باگ و نقص میشه و حکایت همون بچه قورباغه اونم از نوع دچار انواع بیماری های مادرزادی ژنتیک و عجیب الخلقه و کج و معوج خلاصه!!
فردا برای موتور جستجو، ساده ترین و اولیه ترین منابع رسمی و علمی و اصولی و دقیق که میخوای بخونی، اونوقت میخوای چکار کنی؟! اصلا چیزی ازشون میتونی بفهمی؟

m.esmaeilzadeh
یک شنبه 16 فروردین 1394, 11:17 صبح
یکسری دوستان خیلی پافشاری میکنن که بگن با php میشه موتور جستجو طراحی کرد ...
ازتون میخوام درباره single threaded و multi threaded یک تحقیقاتی انجام بدید !
php یکی از بهترین هاست , من هم خودم قبلا دات نت کار بودم سر اینکه php خوبه اومدم سمتش ...
ولی باهاش نمیشه فراتر از یکسری محدوده ها کار کرد !!!

-سیّد-
یک شنبه 16 فروردین 1394, 20:39 عصر
حالا موتور جستجو هم بنظر من میاد که یک سرویس زیربنایی اینترنته و یدونه خوب و رایگان و جهانی که وجود داره همون کافیه برای اکثر مردم و نیازها. دلیلی نداره هر روز یکی بره یه مدل و مال خودش رو درست کنه.

این حرف شما وقتی درسته که فقط بخواید از موتور جستجو استفاده کنید. اینی که می‌گید رایگانه، استفاده ازش رایگانه! تکنولوژیش رو که به رایگان نمی‌ده! (نه فقط به رایگان، هر چقدر هم پول بدی بهت نمی‌ده!)
چیزی که مورد نیاز ما بود و هست، تکنولوژی موتور جستجو هست. بله اگه کسی می‌خواد بره یه موتور جستجو بسازه که بعدش بره ازش استفاده کنه، خوب یه گوگل هست که می‌تونه بره ازش استفاده کنه! (البته همین استفاده هم محدودیت داره. همون طور که احتمالاً در جریانید، گوگل خیلی از سرویس‌هاش رو به ایران نمی‌ده (مثلاً API) و در نتیجه توی استفاده‌اش هم مشکل وجود داره.)

پس ما با ایجاد یه موتور جستجو دو تا هدف داریم:
یکی این که به تکنولوژی موتور جستجو دست پیدا کنیم (که خیلی گسترده هست و باهاش می‌شه خیلی کارهای فراتر از «فقط جستجو» کرد).
دوم این که امکان انواع استفاده رو ازش فراهم می‌کنیم که بعضیاش به علل سیاسی در دسترس ما نیست، بعضیاش هم شاید برای بعضیا نصرفه که برن خرج کنن و از گوگل بگیرن (همین وزارت ارتباطات اگه بخواد یه تحلیلی روی دیتای اینترنت (چه داخلی چه خارجی) بکنه، می‌تونه از ما سرویس بگیره به جای این که بره کلی خرج کنه از گوگل بگیره (تازه اگه گوگل بهش بده!)).

در ضمن دیتا هم مسئله‌ی مهمیه! با دیتا هم می‌شه خیلی کارها کرد. خیلی تحلیل‌ها رو می‌شه روی دیتا انجام داد. انواع پروژه‌های دانشگاهی رو می‌شه روش تعریف کرد (در رشته‌های مختلف، نه فقط کامپیوتر. فرض کنید رشته‌های علوم اجتماعی برای تحلیل جامعه).
حالا در کنار دیتا، توانایی پردازشش هم مهمه که اون زیرساخت موتور جستجو که من خودمو کشتم هی دارم می‌گم، به این دردا می‌خوره!

اون شبکه‌ی برقی هم که گفتید، به نظرم خیلی خوبه که یه کشور بتونه مستقلاً خودش شبکه‌ی برقش رو درست کنه و گسترش بده. بنابراین باید به تکنولوژیش دست پیدا کنه تا بتونه بدون وابستگی این کارو انجام بده. و در ضمن پس فردا که تکنولوژی جلو رفت و سیستم‌های جدید برای توزیع برق ابداع شد، اگه تکنولوژیش رو داشته باشه برای به‌روزرسانی شبکه‌ی برق کشور هم می‌تونه بدون وابستگی به خارج این کارو بکنه. و در ضمن خودم هم می‌تونه بعداً روشهای نوین ابداع کنه.
البته که دستیابی به یه تکنولوژی کار راحتی نیست! و خرج هم داره، و باید دید که می‌صرفه دولت در اون زمینه‌ی خاص اون خرج رو بکنه یا نه، که اینجا ممکنه نظرات مختلف باشه.



یکی از چیزایی که توی مقیاس بزرگ من خوشم نمیاد اینه که همش باید فکر پرفورمنس و مدیریت منابع و هندل کردن ترافیک و بارهای سنگین باشی و دستت باز نیست. باید بهینه سازیهای زیادی بکنی، تفکر و آزادی برنامه نویسی سطح بالا حداقل تاحدی ازت سلب میشه، دیگه نمیتونی صرفا روی منطق و الگوریتم ها و هدف اصلی در سطح بالا تمرکز کنی. محدودیت داری.

اتفاقاي یکی از قشنگیای این قضیه همینه که توی محدودیت بتونی کارت رو بکنی! یعنی دو نوع مختلف هست، ممکنه یکی از این خوشش بیاد، یکی از اون. ولی اینجا هم قشنگیای خودش رو داره و واقعاً بعضی از ایده‌هایی که زده می‌شه فوق‌العاده هست! (خیلی از ایده‌های این مسائل ابتکار گوگل بوده، توی همون presentation ای که از Jeff Dean گذاشته بودم توی اون یکی پست، چند از این ایده‌ها رو مشاهده می‌کنید (مثلاً در مورد varint و group varint))



من میگم همون مقیاس کوچک و آزمایشش هم باز از چیزی که بروبچ فکر کرده بودن خیلی بزرگتر و پیچیده تره. هنوزم کار بزرگ و سختیه. قبلا گفته بودم که حتی یک صدم گوگل رو هم درست کردن کار بزرگ و سختیه.

ببینید مقیاس رو می‌تونید مثلاً کوچیک، بزرگ و خیلی بزرگ فرض کنید. اگه اینطوری دسته‌بندی کنید، درست کردن موتور جستجو در مقیاس کوچیک خیلی کار سختی نیست و فکر می‌کنم دوستمون هم فعلاً دنبال همون هست.
کوچیک مثلاً می‌شه چند ده میلیون صفحه، با یه rate خزش خیلی معمولی. سخت‌افزار خاصی هم نمی‌خواد، یه VPS با مثلاً ۴ تا cpu core و ۱۶ گیگ RAM و پهنای باند خیلی معمولی می‌تونه کار آدم رو راه بندازه.
اما اگه بخواین مثلاً تو مقیاس موتوری مثل یوز یا پارسی‌جو کار بکنید، اون وقت دیگه به این راحتیا نیست. این می‌شه همون مقیاس بزرگ که گفتم. مقیاس خیلی بزرگ هم که گوگل هست. توجه کنید که مقیاس یوز بزرگ هست، اما با مقیاس گوگل خیلی فاصله داره! تعداد سرورها، قدرت پردازش، تعداد query هایی که روزانه جواب می‌ده (با توجه به جهانی بودنش)، تعداد نیروها، و مقدار منابع مالی گوگل نسبت به یوز خیلی بیشتر هست! در حد صدها برابر!
فقط یه نمونه بگم: طبق برآوردهایی که ما داریم، گوگل روزانه حداقل ۳ میلیارد جستجو رو جواب می‌ده. زیاده نه؟!! (می‌خواستم بزرگ‌ترش کنم، گفتم دوباره میاین می‌گین بیلبورد تبلیغاتی نیست! :) )
البته بعضی برآوردها تا حدود ۶-۷ میلیارد هم بالا می‌ره، من عدد مطمئنش رو گفتم.

ولی باز تأکید می‌کنم، ساختن یه موتور جستجوی کوچیک و ساده که نخواد از انواع الگوریتم‌های رتبه‌بندی بهره بگیره و تا جایی که می‌تونه صفحات وب رو پوشش بده، کار قابل انجامیه و هزینه و سخت‌افزار خیلی زیادی نمی‌خواد. برای همین فکر می‌کنم این دوستمون اگه تلاشش رو بکنه می‌تونه یه موتور ساده بسازه. (البته همینش هم کار می‌بره ها!)


یکسری دوستان خیلی پافشاری میکنن که بگن با php میشه موتور جستجو طراحی کرد ...
ازتون میخوام درباره single threaded و multi threaded یک تحقیقاتی انجام بدید !
php یکی از بهترین هاست , من هم خودم قبلا دات نت کار بودم سر اینکه php خوبه اومدم سمتش ...
ولی باهاش نمیشه فراتر از یکسری محدوده ها کار کرد !!!
اینم عطف به همون صحبت بالاییم: بستگی داره به چی بگید موتور جستجو. اگه توی مقیاس کوچیک بخواید کار کنید، با PHP و MySql و به صورت single-thread هم می‌شه این کار رو کرد. فوقش اینه که برای این که از قدرت پردازش و پهنای باند سرور به خوبی استفاده بشه، می‌شه چند تا process رو همزمان اجرا کرد و کار رو بینشون تقسیم کرد.
توی مقیاس بالا هست که دیگه این کارا خیلی بهینه نیست و نمی‌شه single-thread کار کرد!

engmmrj
یک شنبه 16 فروردین 1394, 21:39 عصر
یعنی ۸۰ میلیون نتیجه توی ۸۴۹ میلی‌ثانیه رتبه‌بندی شدند! این اصلاً کار کوچیکی نیست! حساب کنید ببینید برای امتیاز دادن به هر صفحه (که خود امتیاز هر صفحه از چندین پارامتر تشکیل می‌شه) سیستم چقدر فرصت داره! می‌شه ۸۴۹ میلی‌ثانیه یعنی ۰.۸۴۹ ثانیه تقسیم بر ۸۰ میلیون، که می‌شه 0.0000000106125 ثانیه! حالا شما برو حساب کن ببین چند cpu clock فرصت داری برای امتیاز دادن به هر صفحه!
خیلی علاقه‌مندم دوستمون که این تاپیک رو شروع کردن، بیان و یه مثال عددی از جستجوهاشون بزنن. یعنی مثلاً توی MySql اگه صفحات رو index کنید، مثلاً روی ده میلیون صفحه اگه یه جستجو بزنید، می‌خوام ببینم زیر ثانیه می‌تونید جواب بگیرید؟
بابا ما ۵ سال خودمونو کشتیم و از دهها تکنولوژی مختلف استفاده کردیم تا تونستیم به این عددا برسیم. و البته همچنان هم خیلی کار داریم! هنوز رتبه‌بندیمون خیلی با ایده‌آل فاصله داره.
لطفا چندتا از سر فصل هاشو بگین تا ما هم در بارش تحقیقی داشته باشیم

سوداگر
دوشنبه 17 فروردین 1394, 01:04 صبح
من از یه کارشناس IT شنیدم که فیسبوک و اینتاگرام و وایبر و ... بابت ایجاد ترافیک توی شبکه پول دریافت میکنن (چیزی که توی ایران نداریم) که حدوداً نصفش رو به زیرساخت اختصاص میدن به عبارت دیگه در آمد فیسبوک و ... از طریق 1) تبلیغات 2) فروش اطلاعات مردم به سازمانهای امنیتی(مثل فروش اطلاعات انقلابیون مصر) 3) صادرات ترافیک (از کشورهای دیگه از سایت شما بازدید کنند)، که شما در ایران فقط از طریق تبلیغات میتونید درآمد داشته باشید!
اینجوری دخل و خرج با هم جور در میاد؟

Mousavmousab
دوشنبه 17 فروردین 1394, 11:47 صبح
آقا ، عزیز ، برادر ، ایرانی !!! (ایرانی که هستی ؟ نیستی ؟) من فرض بر این میزارم که ایرانی هستی !!!

این دوستمون می خواد موتور جستجو بسازه ، (هیچ موقع هم به هیچ دلیلی استاپ نمیکنه میره جلو- چه سخت افزار داشته باشه چه نداشته باشه !!! چه هر چیز دیگه ...)

شما برادران که انقدر زحمت کشیدین و برنامه نویسی یاد گرفتین و عمرتونو پای برنامه نویسی گذاشتین

اگر اطلاعاتی دارین و می تونین کمک کنید ، کمک کنید !!!

یه کتابی ، تکنولوژی ، چیزی ....
بحث های شما باید در مورد اینکه چطوری بسازیمش و چیکار کنیم بهتر باشه ، باید باشه نه اینکه همش چوب لای چرخ بزارین یا از هم خرده بگیرین.


من منظورم به شخص خاصی نبود ، اشتباه برداشت نکنین.
هر موقع میام اینجا سر میزنم میبینم همش داریم به هم می توپیم.
اشتباه جلو میریم بگین چرا !! اگه وقت نداری و نمی تونی بگی چرا هم خوب نگو برادر !!!

خلاصه !! انرژی مثبت بده !!!

موفق باشید.

سوداگر
دوشنبه 17 فروردین 1394, 15:49 عصر
دوست عزیز شما میخواهید یک کار مهندسی انجام دهید نه صرفا کدنویسی و یا رسیدن به تکنولوژی. درسته؟ کار علمی محضه یا قراره یه بیزینس بشه؟ من تاپیک رو خوندم چیزی در مورد بیزینس ندیدم و برام سوال پیش اومد و پرسیدم.
هر موقع اسم موتور جستجوگر ایرانی میاد یاد اون بیچاره ای میفتم که 200 میلیون پول بی زبون رو به باد داد و نزدیک بود زندان بیفته(خودم مامور بدرقه اش بودم توی سربازی) و نمیخوام دوباره از این اتفاقات بیفته و باعث بدبینی عموم جامعه در مورد پروژه های کامپیوتری بشه. این مورد خیلی مهمیه اگه بهش دقت بشه و قصد چوب لای چرخ دیگران گذاشتن رو ندارم (اصلاً امکانش نیست که کسی چوب لای چرخ یه برنامه نویس بذاره :لبخند:)

ضمناً نیازی نیست کار رو از صفر انجام دهید فقط کافیه توی گوگل سرچ کنید: opensource search engine می بینید پروژه های دیگه ای هم هست که میشه توسعه شون داد (http://sourceforge.net/projects/opensearchserve/)یا فقط دیکشنری اونها رو تغییر داد و چیزی بدست بیاد که میخواستید! یه سری به لینک های گوگل بزنید...

موفق باشید

aliasgharnasiri72
دوشنبه 17 فروردین 1394, 18:43 عصر
دوست عزیز شما میخواهید یک کار مهندسی انجام دهید نه صرفا کدنویسی و یا رسیدن به تکنولوژی. درسته؟ کار علمی محضه یا قراره یه بیزینس بشه؟ من تاپیک رو خوندم چیزی در مورد بیزینس ندیدم و برام سوال پیش اومد و پرسیدم.
هر موقع اسم موتور جستجوگر ایرانی میاد یاد اون بیچاره ای میفتم که 200 میلیون پول بی زبون رو به باد داد و نزدیک بود زندان بیفته(خودم مامور بدرقه اش بودم توی سربازی) و نمیخوام دوباره از این اتفاقات بیفته و باعث بدبینی عموم جامعه در مورد پروژه های کامپیوتری بشه. این مورد خیلی مهمیه اگه بهش دقت بشه و قصد چوب لای چرخ دیگران گذاشتن رو ندارم (اصلاً امکانش نیست که کسی چوب لای چرخ یه برنامه نویس بذاره :لبخند:)

ضمناً نیازی نیست کار رو از صفر انجام دهید فقط کافیه توی گوگل سرچ کنید: opensource search engine می بینید پروژه های دیگه ای هم هست که میشه توسعه شون داد (http://sourceforge.net/projects/opensearchserve/)یا فقط دیکشنری اونها رو تغییر داد و چیزی بدست بیاد که میخواستید! یه سری به لینک های گوگل بزنید...

موفق باشید

والا منم با نظر ایشون موافقم . من نمیدونم هر کشوری چند تا موتور جستجو نیاز داره ... والا بینگ هم ک ساخت خودشو زشت کرد . چین ژاپن کوفت زهرمار :لبخند: هر کدوم یدونه خاص دارن ولی ایران ما هنوز کافی واسش نیس ... من به نوبه ی خودم واقعا نمیفهمم چخبره ... فیس بوک اومد همه مثل *** رفتن شبکه اجتماعی زدن . دوباره وایبر و ... اومد رفتن واسه ما برنامه انار هسش چیه اسم مسخرش رفتن درست کردن من نمیگم بده خیلی هم خوبه ولی بنظر شما اگه بیان روی یه پروژه های دیگه سرمایه گذاری بشه بهتر نیس .. خوب ی جستجوگر داریم واسلام نه اینکه سه تا هستن هنوز کافی نیس واسشون فراخوان هم دیگه زدن ... خدا بخیر بگذرونه ...:متفکر:

-سیّد-
دوشنبه 17 فروردین 1394, 20:42 عصر
لطفا چندتا از سر فصل هاشو بگین تا ما هم در بارش تحقیقی داشته باشیم
من یه سری لینک توی چند تا از پست‌های بالاترم گذاشتم، یه سریشون که درباره‌ی پردازش داده‌ی بزرگ هست (hadoop و امثالهم)، توی بقیه‌اش یه چیزایی در این موارد پیدا می‌شه (بازم اشاره کنم به همون presentation آقای Jeff Dean که توش به خیلی از مطالب به صورت گذرا اشاره کرده و واقعاً توصیه می‌کنم اگه کسی می‌خواد در این زمینه مطالعه داشته باشه اون رو نگاه کنه (خیلی هم ازتون وقت نمی‌گیره)).
یه سری نکات دیگه هم هست. مثلاً این که وقتی شما دارید به صورت توزیع‌شده در مقیاس بالا کار می‌کنید، خیلی اتفاقات ممکنه بیافته که در حالت عادی احتمالشون خیلی کمتره. مثلاً احتمال failure به شدت می‌ره بالاتر. یا مثلاً ممکنه یکی از سرورهایی که درخواست جستجو رو براش می‌فرستید، به هر دلیلی اون درخواست رو درست جواب نده (مشکل شبکه باشه، مشکل خود سرور باشه، یا مشکل نرم‌افزار باشه یا هزار چیز دیگه که آدم در نگاه اول به فکرش نمی‌رسه). حالا شما فرض کنید ۹۵٪ سرورها جواب دادن (مثلاً توی ۵۰۰ میلی‌ثانیه)، و شما علاف موندید تا ۵٪ بقیه هم جواب بدن! و به دلایلی که گفتم اون ۵٪ هم ۵ ثانیه طول می‌کشه تا جواب بدن. اصلاً فکر کنید فقط یک سرور شما ۵ ثانیه طول بده. خوب اینجا این بحث پیش میاد که آیا می‌ارزه ۵ ثانیه صبر کنید تا جواب کامل به کاربر بدید؟ یا می‌تونید یه مقدار از کیفیت نتایج بزنید و عوضش خیلی سریعتر جواب بدید؟ اینا بحثای راحتی نیستن! و جواب به سادگی «آره» یا «نه» نیست!

این paper (از Jeff Dean) چیز جالبیه:
http://research.google.com/pubs/pub40801.html
اینم لینک PDF اش:
http://infolab.stanford.edu/infoseminar/archive/WinterY2013/dean.pdf


من از یه کارشناس IT شنیدم که فیسبوک و اینتاگرام و وایبر و ... بابت ایجاد ترافیک توی شبکه پول دریافت میکنن (چیزی که توی ایران نداریم) که حدوداً نصفش رو به زیرساخت اختصاص میدن به عبارت دیگه در آمد فیسبوک و ... از طریق 1) تبلیغات 2) فروش اطلاعات مردم به سازمانهای امنیتی(مثل فروش اطلاعات انقلابیون مصر) 3) صادرات ترافیک (از کشورهای دیگه از سایت شما بازدید کنند)، که شما در ایران فقط از طریق تبلیغات میتونید درآمد داشته باشید!
اینجوری دخل و خرج با هم جور در میاد؟
اولاً که گوگل بیشترین درآمدش از طریق تبلیغات هست. اصلاً تبلیغات رو دست کم نگیرید!
ثانیاً همونطور که یکی از مسئولین (فکر کنم معاون وزیر یا خود وزیر بود) گفته بود، دولت داره هزینه‌ی بسیار زیادی برای پهنای باند خارج شده از کشور می‌پردازه (حساب کنید ۲۵ میلیون بازدید روزانه‌ی ایرانی‌ها از گوگل چقدر ترافیک ایجاد می‌کنه!). هر چقدر از این ترافیک رو بتونیم به داخل کشور بیاریم، این خرج کمتر می‌شه که در واقع می‌شه به شکل درآمد بهش نگاه کرد.
ثالثاً بله تا چند سال اول دخل و خرج با هم جور در نمیاد. برای همین دولت در مورد موتور یوز اعلام کرده که دو-سه سال ازش حمایت می‌کنه تا بتونه خودش خرج خودش رو در بیاره.
رابعاً تنها مسئله درآمد نیست. بحث تکنولوژی هم مطرحه و صدها کاری که می‌شه با داشتن این تکنولوژی انجام داد (دیگه انقدر در این مورد حرف زدم دهنم کف کرد! :) ).


آقا ، عزیز ، برادر ، ایرانی !!! (ایرانی که هستی ؟ نیستی ؟) من فرض بر این میزارم که ایرانی هستی !!!

این دوستمون می خواد موتور جستجو بسازه ، (هیچ موقع هم به هیچ دلیلی استاپ نمیکنه میره جلو- چه سخت افزار داشته باشه چه نداشته باشه !!! چه هر چیز دیگه ...)

شما برادران که انقدر زحمت کشیدین و برنامه نویسی یاد گرفتین و عمرتونو پای برنامه نویسی گذاشتین

اگر اطلاعاتی دارین و می تونین کمک کنید ، کمک کنید !!!

یه کتابی ، تکنولوژی ، چیزی ....
بحث های شما باید در مورد اینکه چطوری بسازیمش و چیکار کنیم بهتر باشه ، باید باشه نه اینکه همش چوب لای چرخ بزارین یا از هم خرده بگیرین.


من منظورم به شخص خاصی نبود ، اشتباه برداشت نکنین.
هر موقع میام اینجا سر میزنم میبینم همش داریم به هم می توپیم.
اشتباه جلو میریم بگین چرا !! اگه وقت نداری و نمی تونی بگی چرا هم خوب نگو برادر !!!

خلاصه !! انرژی مثبت بده !!!

موفق باشید.
من که به شخصه سعی کردم انرژی مثبت بدم، و تا جایی که از دستم بر میومد (مخصوصاً تا جایی که وقتم اجازه می‌داد) کمک کردم (چندین لینک گذاشتم درباره‌ی پردازش داده‌ی زیاد و موتورهای جستجو، از گوگل، که به نظرم بهترین مطالب در این زمینه هستند).
فکر هم نمی‌کنم کسی سعی در بی‌خیال کردن دوستان داشته باشه.

اما همونطور که دوستمون اشاره کردن:

دوست عزیز شما میخواهید یک کار مهندسی انجام دهید نه صرفا کدنویسی و یا رسیدن به تکنولوژی. درسته؟ کار علمی محضه یا قراره یه بیزینس بشه؟ من تاپیک رو خوندم چیزی در مورد بیزینس ندیدم و برام سوال پیش اومد و پرسیدم.

شما می‌خواین یه کاری انجام بدین. اول نباید درباره‌ی ابعاد کار و این که اگه چقدر انرژی بذارید، چقدر خروجی می‌گیرید، بدونید؟
اگه ندونید که ابعاد گوگل در چه حدی هست، فکر می‌کنید که می‌تونید با چهار تا VPS تا نزدیک گوگل جلو برید! خوب باید این رو بدونید که با چه میزان انرژی گذاشتن، چقدر می‌تونید جلو برید. من سعی کردم این رو روشن کنم.



ضمناً نیازی نیست کار رو از صفر انجام دهید فقط کافیه توی گوگل سرچ کنید: opensource search engine می بینید پروژه های دیگه ای هم هست که میشه توسعه شون داد (http://sourceforge.net/projects/opensearchserve/)یا فقط دیکشنری اونها رو تغییر داد و چیزی بدست بیاد که میخواستید! یه سری به لینک های گوگل بزنید...
موفق باشید
البته من فکر می‌کنم قصد دوستان از این کار یاد گرفتن طرز کار موتور جستجو بوده، و با استفاده از یه پروژه‌ی متن‌باز نمی‌شه به راحتی طرز کارش رو یاد گرفت (مخصوصاً که معمولاً پروژه‌های متن‌باز documentation خوبی ندارن و نمی‌شه به راحتی به روش‌های استفاده شده درونشون پی برد! اگر هم این کار قرار باشه با نگاه کردن به کدشون انجام بشه که آدم پیر می‌شه! :) ).
اگه دوستان قصدشون فقط راه‌اندازی یه موتور جستجوی ساده بود، بله بهترین کار استفاده از موتورهای جستجوی متن‌باز موجود بود.

در ضمن این رو هم بگم که تا جایی که ما بررسی کردیم، هیچ کدوم از موتورهای جستجوی متن‌باز توی مقیاس بزرگ نمی‌تونن درست کار کنن. ما در شروع پروژه‌ی موتور جستجو، تقریباً تمام solution های متن‌باز موجود رو بررسی کردیم و روی بهترین‌هاشون شروع به کار کردیم. ولی حداقل توی index که من توش درگیر بودم، تا یه جایی که بالا می‌رفتیم همه چیز خوب بود، بعد یهو می‌دیدی که مشکل ایجاد می‌شد. برای همین ما ۳ بار کل معماری index رو زیر و رو کردیم و در نهایت هم مجبور شدیم بیشترش رو خودمون پیاده‌سازی کنیم. (فکر نکنید گوگل تکنولوژیش رو خیلی راحت میاد و در اختیار ما می‌ذاره! اون paper های گوگل که قبلتر بهشون اشاره کردم، به قول یه بنده خدایی تفاله‌های علمشون هست! یعنی هر کدوم از اون تکنولوژی‌هایی که اونجا توضیح می‌دن، خودشون یه چند سالی هست که دارن ازش استفاده می‌کنن و فقط گوشه‌هایی ازش رو رو می‌کنن. بنابراین فکر نکنید که تکنولوژی موتور جستجو خیلی چیز در دسترسی هست و متن‌بازش هم موجوده!).


والا منم با نظر ایشون موافقم . من نمیدونم هر کشوری چند تا موتور جستجو نیاز داره ... والا بینگ هم ک ساخت خودشو زشت کرد . چین ژاپن کوفت زهرمار :لبخند: هر کدوم یدونه خاص دارن ولی ایران ما هنوز کافی واسش نیس ... من به نوبه ی خودم واقعا نمیفهمم چخبره ... فیس بوک اومد همه مثل *** رفتن شبکه اجتماعی زدن . دوباره وایبر و ... اومد رفتن واسه ما برنامه انار هسش چیه اسم مسخرش رفتن درست کردن من نمیگم بده خیلی هم خوبه ولی بنظر شما اگه بیان روی یه پروژه های دیگه سرمایه گذاری بشه بهتر نیس .. خوب ی جستجوگر داریم واسلام نه اینکه سه تا هستن هنوز کافی نیس واسشون فراخوان هم دیگه زدن ... خدا بخیر بگذرونه ...:متفکر:
در مورد بینگ قیاس مع‌الفارق هست. چین و روسیه که موتور جستجو ساختن و موفق هم بودن، یعنی تونستن به تکنولوژیش دست پیدا کنن، و تونستن برای مردم خودشون یه موتور جستجوی درست و حسابی بسازن. قصد ما هم در درجه‌ی اول رقابت با گوگل در مقیاس جهانی نیست! بینگ برای این جلوی گوگل کم اورد که مقیاسش رو جهانی گرفت و در نتیجه کارش خیییییلی سخت شد!
ولی در مورد یه موتور جستجوی داخلی، همونطور که قبلاً هم گفتم، ما دهها سرویس مختلف می‌تونیم ارائه بدیم که گوگل یا نمی‌تونه ارائه بده (مثلاً به علل سیاسی، یا به علل عدم آشنایی با فرهنگ ما)، یا نیازی به ارائه‌شون نمی‌بینه. (مثل جدول لیگ داخلی کشور ما)

الان هم ما توی کشور یه موتور جستجو در مقیاس قابل قبول داریم، نه ۳ تا. اگه ابهامی هست نام ببرید تا جواب بدم. (قصدم نه تخریبه، نه توهین، نه هیچ چیز دیگه! فقط می‌خوام روشن بشه که ما توی کشور شیشصد تا موتور جستجو نداریم!)

در نهایت هم بگم: دوستی که این تاپیک رو شروع کردن، از وقتی من اومدم هیچ جوابی ندادن. شاید هنوز جواب‌های تاپیک رو ندیدن. ولی خوشحال می‌شم حداقل یه بوق بزنن! :)
یه سؤال هم پرسیده بودم که خوشحال می‌شم جواب بدن (درباره‌ی سرعت جستجو با MySql بود).

aliasgharnasiri72
دوشنبه 17 فروردین 1394, 23:16 عصر
در مورد بینگ قیاس مع‌الفارق هست. چین و روسیه که موتور جستجو ساختن و موفق هم بودن، یعنی تونستن به تکنولوژیش دست پیدا کنن، و تونستن برای مردم خودشون یه موتور جستجوی درست و حسابی بسازن. قصد ما هم در درجه‌ی اول رقابت با گوگل در مقیاس جهانی نیست! بینگ برای این جلوی گوگل کم اورد که مقیاسش رو جهانی گرفت و در نتیجه کارش خیییییلی سخت شد!
ولی در مورد یه موتور جستجوی داخلی، همونطور که قبلاً هم گفتم، ما دهها سرویس مختلف می‌تونیم ارائه بدیم که گوگل یا نمی‌تونه ارائه بده (مثلاً به علل سیاسی، یا به علل عدم آشنایی با فرهنگ ما)، یا نیازی به ارائه‌شون نمی‌بینه. (مثل جدول لیگ داخلی کشور ما)

الان هم ما توی کشور یه موتور جستجو در مقیاس قابل قبول داریم، نه ۳ تا. اگه ابهامی هست نام ببرید تا جواب بدم. (قصدم نه تخریبه، نه توهین، نه هیچ چیز دیگه! فقط می‌خوام روشن بشه که ما توی کشور شیشصد تا موتور جستجو نداریم!)



والا در مورد سه تا عرض کنم یکی پارسی جو یه یوز یه گرگر ک البته ب قول شما ک شبیه هم نیس من عرض میکنم ... الحمدالله فراخوان هم ک زدن و دیگه هیچی .. ما منتظر 4 هستیم هیچ جا نمیریم همین جا هستیم :لبخند:

-سیّد-
سه شنبه 18 فروردین 1394, 09:21 صبح
والا در مورد سه تا عرض کنم یکی پارسی جو یه یوز یه گرگر ک البته ب قول شما ک شبیه هم نیس من عرض میکنم ... الحمدالله فراخوان هم ک زدن و دیگه هیچی .. ما منتظر 4 هستیم هیچ جا نمیریم همین جا هستیم :لبخند:
:)
همونطور که قبلاً در مورد گرگر گفتم، در واقع یوز یه fork از گرگر هست و گرگر دیگه به اون صورت روش کار نمی‌شه (و هزینه هم دوبل نبوده روی یوز و گرگر). پس در واقع الان از این دو تا فقط یوز فعال هست.
در مورد پارسی‌جو چند تا نکته هست: یکی این که پارسی‌جو از نظر مقیاس، اصلاً قابل مقایسه با یوز نیست. الان پارسی‌جو مقیاسش ۲۰۰ میلیون صفحه هست، و برنامه‌ی نهاییشون ۱ میلیارد صفحه هست. در حالی که یوز همین الان ۱ میلیارد صفحه رو داره، و برنامه‌ی فازهای بعدی چند ده میلیارد صفحه هست (که با مقیاس گوگل قابل مقایسه‌تر می‌شه). خوب توجه دارید که اینجا کلاً دو تا رویکرد مختلف هست و هزینه‌ها هم خیلی با هم فرق می‌کنه.
نکته‌ی دیگه اینه که کلاً بد نیست که ۲ تا موتور جستجوی داخلی وجود داشته باشه که یه رقابتی هم وجود داشته باشه.

در مورد فراخوان نمی‌دونم چی بگم! فعلاً که خبری نیست! فکر نکنید که تا فراخوان دادن ده تا موتور دیگه تولید می‌شه! (یه دونه‌اش هم معلوم نیست تولید بشه!)
ما هم منتظر دومیش هستیم! نه چهارمیش! :)

freeman99
سه شنبه 18 فروردین 1394, 09:58 صبح
ثانیاً همونطور که یکی از مسئولین (فکر کنم معاون وزیر یا خود وزیر بود) گفته بود، دولت داره هزینه‌ی بسیار زیادی برای پهنای باند خارج شده از کشور می‌پردازه (حساب کنید ۲۵ میلیون بازدید روزانه‌ی ایرانی‌ها از گوگل چقدر ترافیک ایجاد می‌کنه!). هر چقدر از این ترافیک رو بتونیم به داخل کشور بیاریم، این خرج کمتر می‌شه که در واقع می‌شه به شکل درآمد بهش نگاه کرد.همه حرفات خوب بود ولی این یکی بنظرم بی معنی بود، چون ترافیک خود موتور جستجو که برای سرچ و آپدیت روانه خارج از کشور میشه به مراتب بیشتره.راستی این تحریم محریم و اینا رو چه میکنید؟ یعنی مثلا صفحات و سایتهایی که موتور جستجو با IP ایران بره به روش بسته است.تازه اگر موتور جستجوی شما واقعا کارا و مهم بشه شاید یه روزی سعی کنن جلوش رو بگیرن! اینه که موتور جستجو وقتی توی یک کشوری باشه که در دنیا بیشترین نفوذ و قدرت و آزادی عمل رو داره، بیشتر میشه روش اتکا کرد.
در مورد بینگ قیاس مع‌الفارق هست. چین و روسیه که موتور جستجو ساختن و موفق هم بودن، یعنی تونستن به تکنولوژیش دست پیدا کنن، و تونستن برای مردم خودشون یه موتور جستجوی درست و حسابی بسازن. قصد ما هم در درجه‌ی اول رقابت با گوگل در مقیاس جهانی نیست! بینگ برای این جلوی گوگل کم اورد که مقیاسش رو جهانی گرفت و در نتیجه کارش خیییییلی سخت شد!من بعضی وقتا گوگل قطع میشه از بینگ یا یاهو استفاده میکنم :لبخند:ولی خداییش وقتی موتور جستجو در دسترس نیست آدم متوجه میشه چقدر دستش بسته میشه و چقدر موتور جستجو برای اینترنت مهم و اساسیه.

-سیّد-
سه شنبه 18 فروردین 1394, 10:13 صبح
همه حرفات خوب بود ولی این یکی بنظرم بی معنی بود، چون ترافیک خود موتور جستجو که برای سرچ و آپدیت روانه خارج از کشور میشه به مراتب بیشتره.

تمرکز ما الان روی صفحات فارسی هست، که خیلیهاشون داخل کشور هستن. حداقل در وضعیت فعلی ما این ترافیک کمتر از اون ترافیک هست. (عجب جمله‌ای شد!)
حالا شاید در آینده و فازهای بعدی که به سمت صفحات انگلیسی هم حرکت کنیم، این هزینه دیگه اینطوری نباشه. من الانو گفتم!



راستی این تحریم محریم و اینا رو چه میکنید؟ یعنی مثلا صفحات و سایتهایی که موتور جستجو با IP ایران بره به روش بسته است.

نکته‌ی اول توی همون تمرکز ما بر صفحات فارسی وب هست. اینی که شما می‌گید در مورد سایت‌های خارجی مصداق پیدا می‌کنه. بنابراین توی فارسی مسئله‌ی خاصی نخواهد بود (به جز بعضی سایت‌های خاص مثل ویکیپدیا که فارسیش مهمه و خارجی هم هست).
نکته‌ی بعدی اینه که یه جاهایی که می‌شه دور زد، دور می‌زنیم! یعنی قطعاً نمی‌شه با V.P.N خزش معمولی انجام داد! ولی می‌شه مثلاً dump یه سایت (مثل ویکیپدیا) رو گرفت و اورد. خلاصه‌اش این که همه‌ی راهها بسته نیست! فقط بعضی جاها کار سخت می‌شه، بعضی جاها هم خیلی سخت می‌شه! :)



تازه اگر موتور جستجوی شما واقعا کارا و مهم بشه شاید یه روزی سعی کنن جلوش رو بگیرن!

ببینید الان گوگل به شدت داره از ایران دیتا می‌گیره (هم خزشگرش داره خزش می‌کنه، هم جستجوها و کلیک‌های کاربران رو داره می‌گیره (بعلاوه‌ی بقیه‌ی سرویس‌هاش...)). اگه یه روزی بخواد دعوامون بشه(!)، دو طرف ضرر می‌کنن. یعنی اگه اونا ما رو ببندن، ما هم می‌تونیم اونا رو ببندیم و در نتیجه هم ما ضرر می‌کنیم و هم اونا (و البته مشخصه که اگه ایران گوگل رو ببنده یکی از ضررهایی که می‌کنه اینه که کاربرا به شدت شاکی می‌شن!). در نتیجه یه trade-off هست و راحت نیست که بگن خوب بیایم از فردا ببندیمش! دنیای سیاست هست دیگه! :)

MMSHFE
سه شنبه 18 فروردین 1394, 10:16 صبح
یکسری دوستان خیلی پافشاری میکنن که بگن با php میشه موتور جستجو طراحی کرد ...
ازتون میخوام درباره single threaded و multi threaded یک تحقیقاتی انجام بدید !
php یکی از بهترین هاست , من هم خودم قبلا دات نت کار بودم سر اینکه php خوبه اومدم سمتش ...
ولی باهاش نمیشه فراتر از یکسری محدوده ها کار کرد !!!
اگه از PHP روی یک سرور خوب استفاده کنید، میشه Multi-threaded هم کار کرد. خیلی وقتی PHP ابزارهای MT رو هم ارائه کرده. گویا خیلی در جریان جزئیات قابلیتهای جدید PHP نیستین دوست عزیز. البته من هم موافق این مسئله هستم که توی یکسری مسائل مثل الگوریتمهای پشت پرده بهتره از ++C و Hadoop و Big Data DB و Sphinx و... استفاده کرد. معماری چندلایه (با MVC اشتباه نگیرین) اینجور جاها قدرتش رو به رخ میکشه.

freeman99
سه شنبه 18 فروردین 1394, 10:29 صبح
سید یه چیزی! میگم با فیلترینگ داخلی چه رابطه ای دارید؟ چون میدونی که خیلی از سایتها حتی غیر از مسائل غیراخلاقی فیلتر هستن و خیلی ها حتی به اشتباه و بصورت خودکار فیلتر شدن (یا بخشهایی از اونا حداقل). خلاصه فیلترینگ زده اینترنت رو چپرچلاق کرده طوری که بنظرم حتی روبات موتور جستجو هم با مشکلات عدیده ای مواجه خواهد شد از این حیث. اونوقت واسه موتور جستجوی شما تمهیدات خاصی ندادن مثلا نیامدن فیلتر نکنن که با این مشکلات برخورد نکنه؟ مثلا IP های اختصاصی بدون فیلتر بهتون ندادن؟

-سیّد-
سه شنبه 18 فروردین 1394, 10:45 صبح
سید یه چیزی! میگم با فیلترینگ داخلی چه رابطه ای دارید؟ چون میدونی که خیلی از سایتها حتی غیر از مسائل غیراخلاقی فیلتر هستن و خیلی ها حتی به اشتباه و بصورت خودکار فیلتر شدن (یا بخشهایی از اونا حداقل). خلاصه فیلترینگ زده اینترنت رو چپرچلاق کرده طوری که بنظرم حتی روبات موتور جستجو هم با مشکلات عدیده ای مواجه خواهد شد از این حیث. اونوقت واسه موتور جستجوی شما تمهیدات خاصی ندادن مثلا نیامدن فیلتر نکنن که با این مشکلات برخورد نکنه؟ مثلا IP های اختصاصی بدون فیلتر بهتون ندادن؟
ای آقا! دست رو دلم نذار که چند ساله خونه! :|
ما به هر دری زدیم که اینترنت بدون فیلتر برای خزشگرمون بگیریم، نشد که نشد! حالا رابطه‌مون با فیلترینگ داخلی مشخص شد؟! رابطه‌مون =! هست!!! :))
یکی از مشکلاتی که ما داریم و مجبوریم یه جوری حلش کنیم، اینه که گراف وبمون ناقص هست. مثلاً تعداد بسسسسسسسسسسسسسسسسسسسسسیار زیادی سایت به facebook.com لینک دادن، و در نتیجه توی گراف وب، این صفحه، صفحه‌ی بسیار با اهمیتی هست. اما توی گراف وب ما این صفحه موجود نیست! یعنی وقتی همینطوری بهش نگاه کنی، به این نتیجه می‌رسی که توی وب ایران یه مشت خل و چل وجود دارن که همه‌شون به یه سری سایت لینک دادن که وجود خارجی ندارن!!!! فیس‌بوک، یوتیوب، توییتر، وردپرس، ...
در نتیجه ما با یک گراف وب نصفه مواجه هستیم! برای همین صورت مسئله‌ی موتور جستجو در ایران، صورت مسئله‌ای هست که گوگل هم تا به حال حلش نکرده! و در هیچ یک از paper ها به این موضوع اشاره نشده! پس ما مجبوریم خودمون روش‌هایی ابداع کنیم که این مشکل رو حل کنیم.
بالاخره ما این ۴-۵ سال بیکار نبودیم! :)

جواب سؤال آخر شما (مثلا IP های اختصاصی بدون فیلتر بهتون ندادن؟) هم اینه: نه ندادن! :)

MMSHFE
سه شنبه 18 فروردین 1394, 10:51 صبح
تو ایران هر چیزی که قانونه، خوبه. در سایر نقاط جهان، هر چیزی که خوبه، قانونه.

m.esmaeilzadeh
سه شنبه 18 فروردین 1394, 11:04 صبح
اگه از PHP روی یک سرور خوب استفاده کنید، میشه Multi-threaded هم کار کرد. خیلی وقتی PHP ابزارهای MT رو هم ارائه کرده. گویا خیلی در جریان جزئیات قابلیتهای جدید PHP نیستین دوست عزیز. البته من هم موافق این مسئله هستم که توی یکسری مسائل مثل الگوریتمهای پشت پرده بهتره از ++C و Hadoop و Big Data DB و Sphinx و... استفاده کرد. معماری چندلایه (با MVC اشتباه نگیرین) اینجور جاها قدرتش رو به رخ میکشه.

یکی از اصول مدیریت پروژه مدیریت منابع هستش , یعنی بیایم برای اینکه فقط میخوایم با php کار کنیم کلی هزینه سرور بدیم چون php روی سرورهای قوی خوب کار میکنه ؟!
بله , من خودم بولتن ساز خبری رو با php کار کردم و چون پروژه برای یک مرکز عالی رتبه بود و مشکل سرور نداشتن خیلی خوب روش ران می شد و خروجی قابل قبولی هم داشت , ولی بعد از مدتی که اون پروژه رو با یک زبان دیگه و به شیوه desktop application پیاده سازی کردیم اصلا کلی مصرف منابع سروری رو دگرگون کردیم ....
هر چیزی برای کاری ساخته شده , کسی با تانک و یا جت جنگی مسافرت نمیره و از ابزار مناسب تری استفاده میکنن !
در مورد MT هم چیزی نشنیده بودم , ولی اگر زمان داشتم حتما جستجو میکنم و ببینم چی هستش :چشمک:

MMSHFE
سه شنبه 18 فروردین 1394, 11:18 صبح
منظورم از MT همون Multi-Thread هست. درمورد افزونه PThread توی PHP تحقیق کنید. ضمناً PHP رو هم اگه به خوبی از امکانات مدرنش مثل همین Thread یا OPCache و... استفاده کنید، ابداً دست کم نگیرین. نمیخوام خیلی بزرگنمایی کنم ولی اخیراً دارم میبینم کم لطفیهای زیادی داره در حق PHP میشه و خیلی دست کم میگیرنش.

فراموش نکنید که یکی از مهمترین منابع، زمانی هست که صرف یادگیری و تسلط به یک زبان جدید (در حد پیاده سازی یک پروژه تجاری بزرگ) میکنید. اگه فقط به PHP مسلط هستین، مطمئن باشین هزینه یک سرور خوب و مطمئن ارزشش رو داره که دو سال زمان رو از دست ندین و به یک زبان دیگه مسلط بشین چون با این سرعت پیشرفت حوزه IT یقین داشته باشین توی این 2 سال، یکی دیگه ایده شما رو اجرا کرده و شما بعداً فقط دنباله رو اون یکی خواهید بود چون همیشه، اولین ها هستن که به خاطر سپرده میشن (مگه اینکه دومین مورد، یکی مثل گوگل باشه که رقبای قبلی خودش رو هم پشت سر میگذاره چون همیشه کار رو به بهترین شکل ممکن انجام میده و قدرت فنی و سیاسی و منابع مالی و... رو هم در اختیار داره).

وقتی دشمن به کشور شما حمله کرده و زمان ندارین واسه ساخت تانک، با دندون هم از کشورتون دفاع میکنید. منتها تا جایی که بشه سعی میکنید مسواک بزنید تا دندوناتون با اولین گاز گرفتن، کنده نشه یا نشکنه!!! توی فاصله ای که دشمن رو با دندوناتون عقب نگه داشتین هم وقت دارین که تانک بسازین (عجب مثالی شد خودم حال کردم) !

aliasgharnasiri72
سه شنبه 18 فروردین 1394, 16:22 عصر
:)
همونطور که قبلاً در مورد گرگر گفتم، در واقع یوز یه fork از گرگر هست و گرگر دیگه به اون صورت روش کار نمی‌شه (و هزینه هم دوبل نبوده روی یوز و گرگر). پس در واقع الان از این دو تا فقط یوز فعال هست.
در مورد پارسی‌جو چند تا نکته هست: یکی این که پارسی‌جو از نظر مقیاس، اصلاً قابل مقایسه با یوز نیست. الان پارسی‌جو مقیاسش ۲۰۰ میلیون صفحه هست، و برنامه‌ی نهاییشون ۱ میلیارد صفحه هست. در حالی که یوز همین الان ۱ میلیارد صفحه رو داره، و برنامه‌ی فازهای بعدی چند ده میلیارد صفحه هست (که با مقیاس گوگل قابل مقایسه‌تر می‌شه). خوب توجه دارید که اینجا کلاً دو تا رویکرد مختلف هست و هزینه‌ها هم خیلی با هم فرق می‌کنه.
نکته‌ی دیگه اینه که کلاً بد نیست که ۲ تا موتور جستجوی داخلی وجود داشته باشه که یه رقابتی هم وجود داشته باشه.

در مورد فراخوان نمی‌دونم چی بگم! فعلاً که خبری نیست! فکر نکنید که تا فراخوان دادن ده تا موتور دیگه تولید می‌شه! (یه دونه‌اش هم معلوم نیست تولید بشه!)
ما هم منتظر دومیش هستیم! نه چهارمیش! :)

من دانشجوی یزد بودم و خودمم یزدی هستم و استادم ک مدیر پارسی جو هسش یادم میاد میگفت از یه چیز میترسم و اون هم هجوم ناگهانی به پارسی جو هسش ....
نمیدونم الانم این ترس رو داره یا نه :)

-سیّد-
سه شنبه 18 فروردین 1394, 16:56 عصر
من دانشجوی یزد بودم و خودمم یزدی هستم و استادم ک مدیر پارسی جو هسش یادم میاد میگفت از یه چیز میترسم و اون هم هجوم ناگهانی به پارسی جو هسش ....
نمیدونم الانم این ترس رو داره یا نه :)
اولاً که من به پارسی‌جو و آقای دکتر زارع هجوم نبردم! می‌دونم که دکتر زارع روی پارسی‌جو زحمت کشیده‌اند و به کارشون احترام می‌ذارم.
من چی گفتم؟ من گفتم مقیاس پارسی‌جو با یوز قابل مقایسه نیست! این رو ما از ۴ سال پیش می‌دونستیم. حتماً دکتر زارع هم این رو می‌دونستن.

اصلاً نوع نگاه پارسی‌جو و یوز به مسئله فرق می‌کنه. پارسی‌جو هدفش اینه که بتونه بهترین صفحات فارسی وب رو جمع‌آوری کنه و با منابع محدودتر کار رو جلو ببره (همونطور که احتمالاً در جریان هستید، تز دکترای دکتر زارع روی یک الگوریتم خزش بوده).
اما یوز نگاهش مثل گوگل هست. یعنی هر چی دستمون می‌رسه که ارزش جمع‌آوری داره، جمع کنیم (یعنی اسپم و صفحات به درد نخور رو بذار کنار!)، بعد از توی این صفحات بتونیم بهترین صفحات رو موقع جستجو به کاربر ارائه بدیم.
بحث هم سر این نیست که این بهتره یا اون بهتره! هر کدوم مزایا و معایب خودشون رو دارن. خوب قطعاً وقتی پارسی‌جو از یک میلیارد صفحه، ۲۰۰ میلیونش رو index کرده، یه جاهایی به مشکل می‌خوره. از اون طرف وقتی مقیاس پایین‌تر باشه، کارشون راحت‌تر می‌شه و شاید یه جاهایی بتونن بهتر از ما کار کنن.

پ.ن. خوب از اول می‌گفتی یزدی هستی درباره‌ی پارسی‌جو حرف نزنم! ;)

-سیّد-
سه شنبه 18 فروردین 1394, 17:12 عصر
البته شاید هم منظور شما هجوم کاربرا به پارسی‌جو بوده (یعنی peak درخواست‌ها)!
اگه اینطور بوده که هیچی! :)

engmmrj
سه شنبه 18 فروردین 1394, 21:26 عصر
منظورم از MT همون Multi-Thread هست. درمورد افزونه PThread توی PHP تحقیق کنید. ضمناً PHP رو هم اگه به خوبی از امکانات مدرنش مثل همین Thread یا OPCache و... استفاده کنید، ابداً دست کم نگیرین. نمیخوام خیلی بزرگنمایی کنم ولی اخیراً دارم میبینم کم لطفیهای زیادی داره در حق PHP میشه و خیلی دست کم میگیرنش.

فراموش نکنید که یکی از مهمترین منابع، زمانی هست که صرف یادگیری و تسلط به یک زبان جدید (در حد پیاده سازی یک پروژه تجاری بزرگ) میکنید. اگه فقط به PHP مسلط هستین، مطمئن باشین هزینه یک سرور خوب و مطمئن ارزشش رو داره که دو سال زمان رو از دست ندین و به یک زبان دیگه مسلط بشین چون با این سرعت پیشرفت حوزه IT یقین داشته باشین توی این 2 سال، یکی دیگه ایده شما رو اجرا کرده و شما بعداً فقط دنباله رو اون یکی خواهید بود چون همیشه، اولین ها هستن که به خاطر سپرده میشن (مگه اینکه دومین مورد، یکی مثل گوگل باشه که رقبای قبلی خودش رو هم پشت سر میگذاره چون همیشه کار رو به بهترین شکل ممکن انجام میده و قدرت فنی و سیاسی و منابع مالی و... رو هم در اختیار داره).

وقتی دشمن به کشور شما حمله کرده و زمان ندارین واسه ساخت تانک، با دندون هم از کشورتون دفاع میکنید. منتها تا جایی که بشه سعی میکنید مسواک بزنید تا دندوناتون با اولین گاز گرفتن، کنده نشه یا نشکنه!!! توی فاصله ای که دشمن رو با دندوناتون عقب نگه داشتین هم وقت دارین که تانک بسازین (عجب مثالی شد خودم حال کردم) !
تعصب زیاد دیده میشه !

MMSHFE
چهارشنبه 19 فروردین 1394, 00:17 صبح
تعصب زیاد دیده میشه !

ابداً صحبت تعصب نیست. کمی واقع بین باشین میفهمین که تنها منبعی که نمیشه جبرانش کرد، زمانه. ضمناً PHP هم اگه به درستی و با رعایت بهینه سازیها و تجهیزات سخت افزاری مناسب بکار گرفته بشه، واقعاً اینقدرها که دارین فکر میکنید، ناکارآمد نیست و هنوز هم بیش از 81 درصد سایتهای دنیا با PHP داره کار میکنه و انصافاً هم مشکل خاصی ندارن. در بین این سایتها، دونه درشتهای زیادی هم دیده میشه. از سایتهای دانلود و اشتراک گذاری فایل بگیرین تا سرویسهای زمانبندی و مدیریت پروژه و حتی موتورهای جستجو. فکر میکنم کسانی که یکطرفه دارن PHP رو میکوبن رو بیشتر بشه به تعصب داشتن متهم کرد.

***BiDaK***
چهارشنبه 19 فروردین 1394, 04:14 صبح
باگ xss در گرگر :
http://gorgor.ir/?q=%3Cscript%3Ealert%28%22hacked%22%29%3C/script%3E
که البته قبلش تو یوز هم بوده!
موتور یوز توو نتایج جستجوش این باگ رو داره.
این لینکو (http://yooz.ir/?q=%3Cscript%3Ealert%28%29%3C%2Fscript%3E+&st=0&s=0&i=&v=2) باز کنید در پیج 13 "به بعد" دیده میشه. این آلرت ها از url نتایج هست.مثلا این یکی از url های نتیجه جستجو هست: لینک (http://yooz.ir/redirect/?url=http%3A%2F%2Fbooks.google.com%2Fbooks%3Fid%3D yX5vAwAAQBAJ%26pg%3DPT518%26lpg%3DPT518%26dq%3D%3C script%3Ealert%28%22hacked%22%29%3C%2Fscript%3E%26 source%3Dbl%26ots%3DhQykGftzD4%26sig%3DJCY-OQhIr4hJnkzxffXzuZttepo%26hl%3Den%26sa%3DX%26ei%3D XdD2VOnmN9LhaI_jgpAE%26ved%3D0CPkEEOgBMGI&tpk=http%3A%2F%2Fbooks.google.com%2Fbooks%3Fid%3Dy X5vAwAAQBAJ%26pg%3DPT518%26lpg%3DPT518%26dq%3D%3Cs cript%3Ealert%28%22hacked%22%29%3C%2Fscript%3E%26s ource%3Dbl%26ots%3DhQykGftzD4%26sig%3DJCY-OQhIr4hJnkzxffXzuZttepo%26hl%3Den%26sa%3DX%26ei%3D XdD2VOnmN9LhaI_jgpAE%26ved%3D0CPkEEOgBMGI&pgt=19&q=%3Cscript%3Ealert()%3C/script%3E%20&idx=116)
این لینک (http://yooz.ir/?q=%3Cscript%3Ealert%28document.domain%29%3C%2Fscr ipt%3E&st=0&s=0&i=&v=2) و لینک (http://yooz.ir/?q=%3Cscript%3Ealert%28document.domain%29%3C%2Fscr ipt%3E%22%3E%29%3E+&st=0&s=0&i=&v=2)جستجوی دیگه ایه که انجام دادم.

-سیّد-
چهارشنبه 19 فروردین 1394, 06:52 صبح
موتور یوز توو نتایج جستجوش این باگ رو داره.
این لینکو (http://yooz.ir/?q=%3Cscript%3Ealert%28%29%3C%2Fscript%3E+&st=0&s=0&i=&v=2) باز کنید در پیج 13 "به بعد" دیده میشه. این آلرت ها از url نتایج هست.مثلا این یکی از url های نتیجه جستجو هست: لینک (http://yooz.ir/redirect/?url=http%3A%2F%2Fbooks.google.com%2Fbooks%3Fid%3D yX5vAwAAQBAJ%26pg%3DPT518%26lpg%3DPT518%26dq%3D%3C script%3Ealert%28%22hacked%22%29%3C%2Fscript%3E%26 source%3Dbl%26ots%3DhQykGftzD4%26sig%3DJCY-OQhIr4hJnkzxffXzuZttepo%26hl%3Den%26sa%3DX%26ei%3D XdD2VOnmN9LhaI_jgpAE%26ved%3D0CPkEEOgBMGI&tpk=http%3A%2F%2Fbooks.google.com%2Fbooks%3Fid%3Dy X5vAwAAQBAJ%26pg%3DPT518%26lpg%3DPT518%26dq%3D%3Cs cript%3Ealert%28%22hacked%22%29%3C%2Fscript%3E%26s ource%3Dbl%26ots%3DhQykGftzD4%26sig%3DJCY-OQhIr4hJnkzxffXzuZttepo%26hl%3Den%26sa%3DX%26ei%3D XdD2VOnmN9LhaI_jgpAE%26ved%3D0CPkEEOgBMGI&pgt=19&q=%3Cscript%3Ealert()%3C/script%3E%20&idx=116)
این لینک (http://yooz.ir/?q=%3Cscript%3Ealert%28document.domain%29%3C%2Fscr ipt%3E&st=0&s=0&i=&v=2) و لینک (http://yooz.ir/?q=%3Cscript%3Ealert%28document.domain%29%3C%2Fscr ipt%3E%22%3E%29%3E+&st=0&s=0&i=&v=2)جستجوی دیگه ایه که انجام دادم.
بسیار از شما سپاسگزارم که اطلاع دادید. من حتماً به تیم مربوطه ارجاع می‌دم که برطرفش کنن (خودمم بالا سرشون وامی‌ستم تا درستش کنن! :) ).

پ.ن. یعنی شما ۱۳ صفحه رفتی پایین؟! :لبخند:
اون paging اتوماتیک رو گذاشتیم معنیش این نیست که هر چقدر دلت خواست بری پایین! :لبخند:

***BiDaK***
چهارشنبه 19 فروردین 1394, 07:09 صبح
بسیار از شما سپاسگزارم که اطلاع دادید. من حتماً به تیم مربوطه ارجاع می‌دم که برطرفش کنن (خودمم بالا سرشون وامی‌ستم تا درستش کنن! :) ).

پ.ن. یعنی شما ۱۳ صفحه رفتی پایین؟! :لبخند:
اون paging اتوماتیک رو گذاشتیم معنیش این نیست که هر چقدر دلت خواست بری پایین! :لبخند:
برای کمک به میهن تا 1300 هم میرم:لبخند:

پ.نون: وقتی next() هست چرا اسکرول بدم.:لبخند:

aliasgharnasiri72
چهارشنبه 19 فروردین 1394, 07:27 صبح
بسیار از شما سپاسگزارم که اطلاع دادید. من حتماً به تیم مربوطه ارجاع می‌دم که برطرفش کنن (خودمم بالا سرشون وامی‌ستم تا درستش کنن! :) ).

پ.ن. یعنی شما ۱۳ صفحه رفتی پایین؟! :لبخند:
اون paging اتوماتیک رو گذاشتیم معنیش این نیست که هر چقدر دلت خواست بری پایین! :لبخند:

سید آخرین سوال من و میخوام رفع زحمت کنم و برم سراغ کار و زندگیم ... این یوز هسته خزشگرش با چی نوشته شده و خود سایت با چی طراحی شده ؟ ممنون میشم

arash691
چهارشنبه 19 فروردین 1394, 14:30 عصر
پیشنهاد میکنم با استادی نظیر دکتر ابوالحسنی که جدیدا" بعنوان مهندس نرم افزار ارشد گوگل مشغول به کار شدن و چندین دوره واحدهایی نظیر " ذخیره و بازیابی پیشرفته " رو در دانشگاه شریف تدریس داشتن مشورتی بگیرید که میتونه خیلی مفید باشه . ادرس صفحه ی Linkedin ایشون
https://www.linkedin.com/profile/view?id=1087657&authType=name&authToken=1NS4&trk=prof-connections-name

-سیّد-
پنج شنبه 20 فروردین 1394, 10:21 صبح
سید آخرین سوال من و میخوام رفع زحمت کنم و برم سراغ کار و زندگیم ... این یوز هسته خزشگرش با چی نوشته شده و خود سایت با چی طراحی شده ؟ ممنون میشم
اولاً من نمی‌تونم به صورت مبسوط همه چیز رو اینجا بگم. ثانیاً توی کل موتور، ما تقریباً از هر تکنولوژی و زبانی که شما بگید استفاده کردیم! از بیش از ۳ زبان برنامه‌نویسی اصلی استفاده شده، و انواع تکنولوژی‌ها مورد استفاده قرار گرفته (پایگاه‌های داده‌ی رابطه‌ای و توزیع شده، انواع وب سرور برای کارهای مختلف، انواع تکنولوژی برای RPC و ارتباط بین کامپوننت‌ها، ...) که هر کدوم متناظر با بخش خودش استفاده شده. واقعاً نمی‌شه یه نسخه‌ی واحد برای همه‌ی بخش‌ها چید! Jeff Dean هم توی یکی از Presentation هاش گفته بود که گوگل از زبان‌های ++C و جاوا و python برای کارهای مختلفش استفاده می‌کنه. ما هم تقریباً همینطور! و البته زبان‌های دیگه هم استفاده کردیم.

هنوز موتور یوز به یه پایداری خوبی نرسیده که فرصت کنیم روی ارتباطمون با بقیه بیشتر فکر کنیم. امیدوارم زودتر به اینجا برسیم! چیزی که توی ذهن من و بقیه‌ی دوستان هست اینه که حداقل یه وبلاگ داخلی راه بندازیم و توش نکات فنی‌ای که باهاشون برخورد می‌کنیم رو با بقیه به اشتراک بذاریم.


پیشنهاد میکنم با استادی نظیر دکتر ابوالحسنی که جدیدا" بعنوان مهندس نرم افزار ارشد گوگل مشغول به کار شدن و چندین دوره واحدهایی نظیر " ذخیره و بازیابی پیشرفته " رو در دانشگاه شریف تدریس داشتن مشورتی بگیرید که میتونه خیلی مفید باشه . ادرس صفحه ی Linkedin ایشون
https://www.linkedin.com/profile/view?id=1087657&authType=name&authToken=1NS4&trk=prof-connections-name
ممنون از پیشنهادتون.
ما با چند نفر از اعضای گوگل و بینگ تا به حال ملاقات و صحبت داشتیم. من ایشون رو هم به مدیر پروژه معرفی می‌کنم. بازم ممنون.

aliasgharnasiri72
پنج شنبه 20 فروردین 1394, 12:25 عصر
ما با چند نفر از اعضای گوگل و بینگ تا به حال ملاقات و صحبت داشتیم. من ایشون رو هم به مدیر پروژه معرفی می‌کنم. بازم ممنون.

والا منم با مدیر گوگل صحبتی داشتم :چشمک:

m.esmaeilzadeh
پنج شنبه 20 فروردین 1394, 12:44 عصر
منظورم از MT همون Multi-Thread هست. درمورد افزونه PThread توی PHP تحقیق کنید. ضمناً PHP رو هم اگه به خوبی از امکانات مدرنش مثل همین Thread یا OPCache و... استفاده کنید، ابداً دست کم نگیرین. نمیخوام خیلی بزرگنمایی کنم ولی اخیراً دارم میبینم کم لطفیهای زیادی داره در حق PHP میشه و خیلی دست کم میگیرنش.

فراموش نکنید که یکی از مهمترین منابع، زمانی هست که صرف یادگیری و تسلط به یک زبان جدید (در حد پیاده سازی یک پروژه تجاری بزرگ) میکنید. اگه فقط به PHP مسلط هستین، مطمئن باشین هزینه یک سرور خوب و مطمئن ارزشش رو داره که دو سال زمان رو از دست ندین و به یک زبان دیگه مسلط بشین چون با این سرعت پیشرفت حوزه IT یقین داشته باشین توی این 2 سال، یکی دیگه ایده شما رو اجرا کرده و شما بعداً فقط دنباله رو اون یکی خواهید بود چون همیشه، اولین ها هستن که به خاطر سپرده میشن (مگه اینکه دومین مورد، یکی مثل گوگل باشه که رقبای قبلی خودش رو هم پشت سر میگذاره چون همیشه کار رو به بهترین شکل ممکن انجام میده و قدرت فنی و سیاسی و منابع مالی و... رو هم در اختیار داره).

وقتی دشمن به کشور شما حمله کرده و زمان ندارین واسه ساخت تانک، با دندون هم از کشورتون دفاع میکنید. منتها تا جایی که بشه سعی میکنید مسواک بزنید تا دندوناتون با اولین گاز گرفتن، کنده نشه یا نشکنه!!! توی فاصله ای که دشمن رو با دندوناتون عقب نگه داشتین هم وقت دارین که تانک بسازین (عجب مثالی شد خودم حال کردم) !

من اصلا php رو دست کم نمیگیرم و خودم به شخصه چند سالی هست که با این زبان کار میکنم !
اگر کسی خودش برنامه نویس php باشه , با سلیقه خودش اگر دوست داشت از ابزارهای موجود استفاده کنه و پروژه رو به اتمام برسونه !
ولی اگر کار برای یک شرکت و یا حتی وزارت خونه باشه بعید میدونم وقت خودشون رو برای php تلف کنن و به دنبال استخدام برنامه نویس مثلا ++C میگردن یا چیزی مثل جاوا که بتونه با ابزارهایی که شما اشاره کردی کار کنه ....
مثال شما هم مفهوم مرتبطی نداشت , ولی ممنون که وقت گذاشتی :چشمک:

MMSHFE
پنج شنبه 20 فروردین 1394, 12:53 عصر
اتفاقاً مفهومش مرتبط بود. با زبانی که بهش مسلط هستین، کار رو شروع کنید و ایده خودتون رو اجرا کنید (قبل از اینکه یکی دیگه اجراش کنه و بعد بخواین دنباله روی کنید). درمورد شرکتهای دولتی و اینکه چرا روی PHP سرمایه گذاری نمیکنن قبلاً زیاد بحث شده و علت عمده اون رو هم بیسوادی مسئولین ما بدونید که فکر میکنن چون PHP یک زبان Open Source هست، پس سورس سایتهاشون رو همه میبینن. توی کشورهای دیگه اینطوری نیست. برای مثال سایت کاخ سفید، با Drupal (یکی از CMFهای ایجادشده با PHP) ساخته شده. موفق باشید.

-سیّد-
جمعه 21 فروردین 1394, 06:31 صبح
والا منم با مدیر گوگل صحبتی داشتم :چشمک:
:لبخندساده:
منظورم اعضای ایرانی بینگ و گوگل بود! نه مدیرانش!

-سیّد-
یک شنبه 23 فروردین 1394, 20:46 عصر
دوستانی که علاقمند به همکاری در موتور جستجوی یوز هستند، می‌تونن به این پست (http://barnamenevis.org/showthread.php?491665-دعوت-به-همکاری-در-موتور-جستجوی-یوز&p=2198808#post2198808) مراجعه کنن.

LastAirbender
دوشنبه 24 فروردین 1394, 16:54 عصر
sourceweb (http://barnamenevis.org/member.php?354058-sourceweb) عزیز ، من این رو تو اون یکی تاپیکتون هم گفتم،فک کردم اینجاهم اشاره کنم بهتره ، پیشنهاد میکنم شما و دوستان علاقه مند دیگه اگر منابع مالی ندارید با -سیّد- (http://barnamenevis.org/member.php?u=329223) ارتباط حاصل کنید ، وارد کار بشید و اگه شده حتی به صورت رایگان کار کنید و تجربه کنید ، بعد اینکه کمی تجربه کردید و یاد گرفتید خواستید می تونید خودتون کار متفاوتی رو شروع بکنید ، با آرزوی موفقیت برا همه دوستان

sourceweb
شنبه 29 فروردین 1394, 08:14 صبح
خب
پس از مدتی برگشتم گفتم برای شما هم یه توضیحی بدم
طبق تحقیق هایی ک کردم و وارد مرحله عملی این پروژه شدم چون یک نفر بودم و کسی کمکم نکرد بیخیال این پروژه شدم چون به هیچ عنوان تک نفری نمیشه همچین پروژه ای رو حتی در مقیاس کوچک راه اندازی کرد

اما در آخرین باری که کد میزدم تعداد صفحاتی که ایندکس شده بود توسط خزنده ای ک نوشته بودم 13 ملیون صفحه بود که جستجو بین اونها زیر نیم ثانیه انجام میشد یعنی حدودا خوب بود
اما هرچی فکر کردم با خودم فایده ای نداره چون تنهایی به جایی نخواهد رسید این پروژه و حد اقل باید 2 نفر برای هر بخش فعالیت کنن بخش هایی مثل ایندکس مثل کرالر رابط کاربری سناریو سازی و...

موفق باشید

-سیّد-
شنبه 29 فروردین 1394, 11:27 صبح
خب
پس از مدتی برگشتم گفتم برای شما هم یه توضیحی بدم
طبق تحقیق هایی ک کردم و وارد مرحله عملی این پروژه شدم چون یک نفر بودم و کسی کمکم نکرد بیخیال این پروژه شدم چون به هیچ عنوان تک نفری نمیشه همچین پروژه ای رو حتی در مقیاس کوچک راه اندازی کرد

اما در آخرین باری که کد میزدم تعداد صفحاتی که ایندکس شده بود توسط خزنده ای ک نوشته بودم 13 ملیون صفحه بود که جستجو بین اونها زیر نیم ثانیه انجام میشد یعنی حدودا خوب بود
اما هرچی فکر کردم با خودم فایده ای نداره چون تنهایی به جایی نخواهد رسید این پروژه و حد اقل باید 2 نفر برای هر بخش فعالیت کنن بخش هایی مثل ایندکس مثل کرالر رابط کاربری سناریو سازی و...

موفق باشید
خیلی ممنون از این که اومدید و توضیح دادید.
خوب حالا دوستان می‌تونن یه تخمین حدودی از ابعاد موتور جستجو داشته باشن.
البته من توی این پست یه توضیح کلی داده بودم:
http://barnamenevis.org/showthread.php?488925-%D9%81%D8%B1%D8%A7%D8%AE%D9%88%D8%A7%D9%86-%D8%A7%DB%8C%D8%AC%D8%A7%D8%AF-%DB%8C%DA%A9-%D9%85%D9%88%D8%AA%D9%88%D8%B1-%D8%AC%D8%B3%D8%AA%D8%AC%D9%88%DB%8C-%D8%AF%D8%A7%D8%AE%D9%84%DB%8C&p=2199579&viewfull=1#post2199579


اگه بخواین یه کار خیلی ساده بکنین انقد درگیر نمی‌شین. کافیه با اصول اولیه‌ی HTTP آشنا باشید تا بتونید یه خزشگر ساده بنویسید (یا از یه نمونه‌ی آماده‌اش استفاده کنید و تغییرش بدید). بعد هم صفحات رو توی یه پایگاه داده‌ی ساده ذخیره کنید و از FTS استفاده کنید تا بتونید جستجو کنید. یه UI ساده هم با زبونی مثل PHP می‌زنید و تمام.
اما حالا می‌خواین یه مرحله جلوتر برین و نتایج جستجو رو بهبود بدین. بنابراین درگیر مباحث IR می‌شین. مجبور می‌شین برین در این زمینه مطالعه کنین. خیلی گسترده هست! دهها Paper در زمینه‌های مختلف IR وجود داره که تازه خیلیهاشون توی موتور کاربردی نیستن چون سرعتشون پایینه! مثلاً طرف می‌گه این حرکتو بزن، کیفیت نتایج ۱۰ درصد بهتر می‌شه! فقط مشکلش اینه که هر جستجوتون ۱ دقیقه طول می‌کشه!!!!
بعد می‌خواین بازم جلوتر برین و صفحات خراب رو بتونین درست تشخیص بدین. وارد بحث parse کردن صفحات می‌شین. باید با تکنولوژی HTML به صورت کامل آشنا بشین تا بتونین همه‌ی سوراخ سنبه‌هاش رو پیدا کنین! بعدش هم باید برین سراغ HTML5 و بعد از اون فهمیدن جاوا اسکریپت و AJAX.
بعد می‌خواین جلوتر برین و سایت‌هایی که بعضی وقت‌ها مشکل دارن رو بتونین تشخیص بدین (مثلاً یهو یه سایت بهتون connection نمی‌ده). باید با مباحث شبکه آشنا بشین و مثلاً در مورد Socket timeout و مباحث TCP و HTTP و غیره مطالعه‌ی دقیقی بکنید.
بعد می‌خواین جلوتر برین و پوشش موتورتون رو گسترده‌تر کنین. پس باید خزشگر رو یه جوری طراحی کنین که بتونه صفحات زیادی رو جمع‌آوری کنه. درگیر مسائل توزیع‌شدگی می‌شین و باید برین درباره‌ی پایگاه‌های داده‌ی توزیع شده مطالعه کنید. بعد درباره‌ی distributed computing مطالعه کنید. بعد خزشگرتون رو طوری طراحی کنید که بتونه توی چند صد میلیون صفحه اولویت‌بندی کنه و صفحات مهم‌تر رو سریعتر بیاره. بعد هم بریم سراغ بحث update! باید بتونین توی چند صد میلیون صفحه مشخص کنین که کدومها با چه rate ای به‌روزرسانی بشن.
بعد درگیر این می‌شید که حالا این update ها رو چطوری توی index اعمال کنید؟ احتمالاً می‌رید به سراغ روش batch. یعنی اول توی یه index دیگه اینها رو اعمال می‌کنید، بعد جای دو تا index رو با هم عوض می‌کنید.
همین وسط می‌بینید خودتون همه‌ی این کارا رو نمی‌تونید با هم انجام بدید، پس می‌رید سراغ استخدام نیرو. اون هم انواع نیرو: شبکه، برنامه‌نویس، نیروی research، توی همه‌ی بخش‌ها!
همزمان با این موضوع، باید پهنای باند رو هم به صورت متناسب افزایش بدید. پولش رو هم باید بدید!
بعد سر این موضوع درگیر مباحث شبکه‌ای و زیرساختی می‌شین، چون تعداد سرورها داره می‌ره بالا. بعد یه دفعه می‌بینید دیگه پول ندارید سرور بخرید!!!
بعد یهو می‌بینید اون یه دونه ادمین شبکه‌ای که استخدام کرده بودید و خوشحال بودید، زیر بار چندین سرور و کلاستر و غیره داره منفجر می‌شه! پس مجبور می‌شید نیروی جدید استخدام کنید! حالا بیا و نیروی جدید رو آموزش بده!
حالا همه‌ی این مشکلات رو حل کردید، یهو می‌بینید این همه صفحه که خزش کردید، دیگه با یه Index ساده روی ستون متناظرش توی پایگاه داده جواب نمی‌ده! جستجوها سرعتشون کندتر و کندتر می‌شه! مجبور می‌شین برین سراغ یه Index توزیع شده. روز از نو، روزی از نو! همه‌ی قصه‌هایی که بالاتر گفتم دوبل می‌شه!!!
تازه این رو هم توجه داشته باشید یه پایگاه داده‌ی توزیع شده، خیلی ساده‌تر از یه index توزیع شده هست. توی پایگاه داده می‌خواین lookup کنین و مثلاً یه دونه از سطرها (یا یه range از سطرها) رو استخراج کنید، ولی توی هر جستجو، باید به بخش وسیعی از صفحات موجود توی index تون دسترسی پیدا کنید و با query کاربر match کنید، بعد از match هم باید score کنید تا بتونید بهترین صفحات رو پیدا کنید.
بعد می‌خواین باز جلوتر برین و سرعت جستجو رو بالا ببرین (زیر ثانیه) و همچنین بتونین چندین جستجوی همزمان رو جواب بدید. ساده‌ترین راهش افزایش سخت‌افزاره! ولی پول می‌خواد! بنابراین سعی می‌کنید حتی‌الامکان نرم‌افزارتون رو بهینه‌سازی کنید. پس وارد مباحث بهینه‌سازی می‌شید. هم بهینه‌سازی کد، هم بهینه‌سازی شبکه.
بعد می‌خواین stability موتور رو بالا ببرید. مجبور می‌شید بعضی جاها سیستم‌های زپرتی‌ای که از روی جبر (به خاطر کمبود زمان و دانش و نیرو) استفاده کردید رو با یه سیستم درست و حسابی جایگزین کنید. بعد هم مجبور می‌شین برای همه‌ی سیستم‌هاتون یه سیستم backup بذارین تا در صورت پایین اومدنش بتونین روی backup سوئیچ کنید. بعد باید یه مقدار پیشرفته‌ترش کنید و این switch کردن روی backup رو خودکار کنید. بعد یهو می‌بینید کلی سرور جدید لازم دارید که سیستم‌ها همگی HA باشن! بعد گریه می‌کنید!! :)
بعد می‌خواین یه کاری کنید که هیچ وقت موتور پایین نیاد و همیشه پاسخگو باشه. برای همین نمی‌تونید تغییرات رو (مثلاً تغییر توی الگوریتم رتبه‌بندی) روی خوشه‌ی index اصلی اعمال کنید و تست کنید! چون ممکنه نتایج خراب بشه! پس باید یه خوشه مخصوص تست‌های مختلف داشته باشید! اینجا باز هم گریه می‌کنید!!
بعد می‌خواین توان پاسخگویی موتور رو بالا ببرید تا مثلاً توی peak وقتی ۱۰ تا کاربر با هم جستجو می‌کنن کم نیاره و به همگی زیر ثانیه جواب بده. در نتیجه باز هم باید بهینه‌سازی کنید، یا سخت‌افزار اضافه کنید!
بعد کم کم درگیر مباحث امنیت می‌شید. جدا از این که بعضی از کاربران شروع می‌کنن به اذیت کردن، از اون طرف صفحاتی که خزش می‌شن، بعضیاشون مشکل دارن!
بعد می‌خواین یه کم به کاربر حال بدین، می‌رین سراغ auto-complete. بعد یهو می‌بینید سیستم نمی‌کشه! بعد که یه جوری مشکل سرعت رو حل می‌کنید، می‌بینید کیفیت عبارت‌های auto-complete شده پایینه!
بعد می‌خواین از cache استفاده کنید تا سرعت بالا بره. بعد یهو توی این مسئله می‌مونید که چطوری این cache رو می‌خواین update کنید؟ توجه کنید که این cache شامل یه داده‌ی مشخص نیست که به راحتی بشه update اش کرد، بلکه شامل نتیجه‌ی یه جستجو هست که ممکنه بعد از مثلاً چند دقیقه، با خزش شدن یه صفحه‌ی جدید، این صفحه در صورت انجام جستجوی جدید بیاد و بشه جزو نتایج اون جستجو. یا یکی از نتایج اون جستجو update بشه و مثلاً پاک بشه، یا کلاً دیتاش عوض بشه (مثلاً صفحه‌ی اول یه سایت خبری که تند و تند عوض می‌شه)، پس باید توی نتایج شما هم عوض بشه. اینا هر کدوم برای خودشون داستانی داره!
بعد هم به این فکر می‌کنید که چقدر خوب بود اگه index به جای این که batch باشه، realtime باشه و به محض این که خزشگر یه صفحه رو گرفت، سریع توی index به‌روزرسانی بشه. برای همین شروع می‌کنید به طراحی سیستم به صورت realtime، یه دفعه می‌بینید کللللللللللللللاً همه چی زیر و رو می‌شه! برای همین یا بی‌خیال می‌شید، یا بسم‌الله می‌گید و وارد گود می‌شید! البته معلوم نیست کی از گود بیاین بیرون! :)
بعد دیگه به صورت دائم درگیر مسئله‌ی بهبود کیفیت هستید که هیچ وقت تموم نمی‌شه! درگیر مسائل مختلفی می‌شید:


Query Expansion
Query Correction و Spell Suggestion
افزودن پارامترهای جدید به الگوریتم رتبه‌بندی (توجه کنید که اگه یه پارامتر جدیدی بخواین از چند صد میلیون صفحه استخراج کنید و توی index اعمال کنید، کار راحتی نیست!)
ایجاد انواع تغییر توی الگوریتم رتبه‌بندی
افزودن قابلیت learn شدن موتور از روی جستجوها و کلیک‌های کاربران
اجرای الگوریتم‌هایی مانند Page Rank روی صدها میلیون صفحه و اعمالشون توی سیستم
...



خوب اینجاس که یه نگاه می‌کنید، می‌بینید کار راحتی نیست! می‌شه راحت و کوچیک شروع کرد، ولی بزرگ کردنش کار سختیه. نگرفتم نمی‌شه، خیلی سخته، و خیلی هم هزینه داره.


این که دوستمون می‌گه ۱۳ میلیون صفحه رو زیر نیم‌ثانیه جواب می‌ده، باید چند تا نکته رو در نظر داشته باشید:
یکی این که چند تا کاربر می‌تونن به صورت همزمان با این سیستم کار کنن و زیر نیم ثانیه (یا زیر ثانیه) جواب بگیرن؟
دوم این که کیفیت نتایج چطور بود؟ اگه یه مقدار بخواین مباحث پیشرفته‌تر IR رو درگیر کار کنین، مطمئن باشین سرعت پایین‌تر میاد.
سوم این که سیستم شما توزیع‌شده نیست. باید ببینید با چه تکنولوژی‌ای می‌خواین به صورت توزیع‌شده درش بیارین و در نتیجه اینجا دوباره ممکنه سرعت پایین بیاد (یا مسائل دیگه نظیر مشکلات stability پیش بیاد).

در نهایت باز هم ممنونم که برگشتید و قضیه رو روشن کردید.