PDA

View Full Version : سوال: Curl و خزیدن در وب سایت



Dead Space
دوشنبه 06 خرداد 1392, 23:36 عصر
سلام دوستان
من یک سوال داشتم
من میخوام یه روبوت بنویسم زمانی که لینکی بهش دادم لینک رو صفحش رو دریافت کنه تجزیه کنش و لینک های مثلا عکسش رو جدا کنه و بعدش حالا یه سری عملیات روش انجام بده.
از طرف دیگه ممکنه اون پیج چند صفحه باشه میخوام روبوت متوجه بشه و به صفحات دیگر هم بره و اونجا هم لینکارو جدا کنه.
---
حال میخوام ببینم اصلا این کار با curl انجام میشه ؟
اگر انجام میشه منبع خوبی دوستان برای آموزش دارند ؟
تشکر

sh.n.n786
سه شنبه 07 خرداد 1392, 12:07 عصر
درود و ...
بله این امکان وجود داره منطق برنامه به این صورته :
1 - اول دریافت سورس کد صفحه و جدا سازی اطلاعات ( CURL (http://ir2.php.net/manual/en/book.curl.php) , DOM (http://simplehtmldom.sourceforge.net/manual.htm) , REGRX (http://ir2.php.net/manual/en/book.regex.php) , ... )
به این صورت که با DOM یا REGEX باید بگردی href های سایتو در بیاری و بعد هر کدومو تو یه آرایه ذخیره کنی و ... بعد هرکدوم از اون لینک ها رو آخر کار دوباره صدا بزنی ( پیشنهاد من اینه که یک تابع باورودی لینک بش بدی و خروجی ایش سورس بگیری ) و تابع رو بندازی تو یه حلقه و ...
2 - هر سایتی که از Anti-DdoS استفاده کنه راحت IP شمارو BLock میکنه پس باید برای هر بار اجرا شدن یه مکس داشته باشی مثلا : sleep(5);
3 - مشخص کردن هدف که می خوای چه چیزی رو از برنامه استخراج کنی و ...

همین

موفق باشی

Dead Space
سه شنبه 07 خرداد 1392, 18:36 عصر
ممنون دوست عزیز.
من متاسفانه با curl خیلی کم کار کردم.
شما منبع خوبی سراغ دارید جز سایت php.net ؟