PDA

View Full Version : حرفه ای: نحوه دریافت اطلاعات از سایت ها توسط روبات



14morteza14
سه شنبه 10 دی 1392, 10:32 صبح
ضمن سلام و وقت به خیر
کسی از اساتید می دونند چه جوری می شه یه رباتی نوشت که بره از بقیه سایت ها مطالب متنی و یا عکس و ... رو بخونه و بیاد توی دیتابیس ذخیره کنه. در واقع همین کاری که الان داره گوگل انجام می ده.
ممنون

omidabedi
سه شنبه 10 دی 1392, 10:36 صبح
با استفاده از اتبع file_get_content و curl میشه اینکارو کرد.
به 2 صورت انجام میشه
1.سایت مورد نظر rss داره که رباط rss رو میگیره
2.نداره که اونوقت متن رو crawl میکنه و قسمت های مورد نظر رو میگیره

14morteza14
سه شنبه 10 دی 1392, 10:47 صبح
ممنون می شه فقط یه منبع فارسی یا انگلیسی خوب معرفی کنید؟

omidabedi
سه شنبه 10 دی 1392, 11:35 صبح
باید توابع رو مطالعه کنی.
سرچ کنید پیدا میکنید
اموزش کار با تابع curl و file_get_content

metal gear solid 4
سه شنبه 10 دی 1392, 12:54 عصر
دوستان هم اشاره کردن. باید از curl و file_get_contentاستفاده کنید.
البته file_get_content برای موارد پیچیده کارآمد نیست. مثلاً لاگین کردن توی وبسایت؛ ذخیره کوکی ها؛ ریدایرکت ها. برای این گونه موارد باید از cURL استفاده کنید.
هر دوی اینها محتوای آدرسی که وارد میکنید رو برمیگردونن. شما میتونید محتوای برگشتی رو توی یک متغیر ذخیره کنید و اطلاعات مورد نظر رو بکشید بیرون. دراکثر مواقع خروجی html خواهد بود. که میتونید از regex و یا DOM (http://simplehtmldom.sourceforge.net/) استفاده کنید.