PDA

View Full Version : خبر خوان با Dom Html



Hamed Beyranvand
یک شنبه 21 تیر 1394, 23:13 عصر
سلام دوستان.
یه سایتی رو با Dom Html پیمایش می کنم که در هر صفحه اگر 100 لینک وجود دارد 100 بار اون لینک هارو بازدید می کنم و محتوا صفحات رو در دیتابیس ذخیره می کنم(البته این کار curl در یه دقیقه انجام می دهد)
حالا احساس می کنم سایت مقصد این درخواست های منو شناسایی می کنه و اجازه این کار رو به من نمی دهد.
اگه فقط 100 لینکی که در صفحه اول هستنecho کنم مشکلی نداره ولی وقتی اون 100 لینک رو هم در یه حلقه قرار می دهم برای پیمایش هیچی بر نمی گرداند و دفعات بعد کلا انگار درخواست های من فیلتر می شوند.
حالا راه حل این کار چیه؟؟؟


$html = new \Htmldom($link);
foreach($html->find('.description a') as $link){
echo $link->href;

$link2 = new \Htmldom($link->href);
foreach($link2->find('h1') as $a){
echo $a->plaintext.'<br/>';
}
}

Mohammadsgh
دوشنبه 22 تیر 1394, 04:26 صبح
از این کلاس استفاده کنید
http://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0CB4QFjAA&url=http%3A%2F%2Fsimplehtmldom.sourceforge.net%2F&ei=kQmjVd_XMYvhywOzkZe4Cg&usg=AFQjCNEj25gYEBl4te-VvReRxFLr8EHXMA&sig2=kmxeQLRuc8CrgaByZPJ7vA

Hamed Beyranvand
دوشنبه 22 تیر 1394, 08:29 صبح
ممنون دوست عزیز.
ولی مشکل از تغییر دادن کلاس نبود.
چون این سایت یه بلایی سر سیستم یا شایدم مرورگر من میاره یعنی شناسایی میشه و دسترسی غیرمجاز میزنه.
یعنی حتی تو مرورگرم دیگه نمیشه اون سایت رو باز کنم برای چند دقیقه.
حالا راهی هست که اجازه ندم منو بلاک کنه؟؟؟

Mohammadsgh
دوشنبه 22 تیر 1394, 12:29 عصر
هر سایتی که تو مرورگر باز بشه و مشکلی نباشه با php هم میشه اینکار رو کرد.فقط باید یک خورده تلاش کنید و ببینید روش کارش چطوره؟

Hamed Beyranvand
دوشنبه 22 تیر 1394, 15:39 عصر
متاسفانه اینطوری نیست.و این سایت ها منو بلاک می کنند.حتی در مرورگرم غادر به باز کردن اون صفحه نیستم تا دقایقی.یعنی پیام دسترسی غیر مجاز رو نمایش می دهد.

البته منطقی!!
چون شما در سایت های که محتوا مهمی دارند فکر همچین خزندهایی رو می کنن.
مثلا در یه دقیقه از یه سیستم و یه مرورگر صدها لینک پیمایش می شه قطعا اون Ip رو بلاک می کنه دیگه(چون معلومه انسان نیست).

حالا راه دور زدن این سیستم امنیتی چی می تونه باشه؟؟؟

thanks in advance