خواندن اطلاعات از روی وبسایت دیگر [بایگانی]

View Full Version : خواندن اطلاعات از روی وبسایت دیگر

erfanpj

چهارشنبه 02 اردیبهشت 1394, 19:10 عصر

-سیّد-

پنج شنبه 03 اردیبهشت 1394, 07:54 صبح

با سلام
میخواستم بپرسم دوستان نظری برای خواندن اطلاعات از روی وبسایت دیگه ای دارن ؟
یا نوشتن روبات که این کار رو انجام بده

مثلا کاری که سایتهای زیر دارن انجام میدن که اطلاعات پرواز رو از سایتهای آژانسها میخونن
دوستان کسی تجربه داره ؟

سایتهای مثل http://charter118.ir
http://tcharter.ir/
http://sepehr360.ir/#!/showflight

ممنون میشم هر راهنمایی میتونید بهم بکنید

ممنون
سلام
اینجا ۲ تا نکته وجود داره:
اول این که شما از کجا مطمئن هستید که این سایت‌ها اطلاعات رو از سایت‌های آژانسها می‌خونن؟ با توجه به این که توی اسم سایتشون charter دارن، ممکنه چارتر کرده باشن و خودشون اطلاعات رو ارائه بدن.
حالا فرض می‌کنیم اینطوری نباشه (یا اگه اینا اینطوری هستن، فرض می‌کنیم می‌خوایم از اطلاعات آژانسهای دیگه استفاده کنیم).
با این فرض، باز ۲ تا نکته پیش میاد.
اول این که مراقب باشید: با توجه به این که چه اطلاعاتی رو دارید می‌خونید و چه استفاده‌ای ازش می‌کنید، این کار ممکنه غیرقانونی باشه.
دوم: اینجا هم با توجه به این که اطلاعات رو از کجا می‌خواید بخونید، ممکنه ۲ تا روش وجود داشته باشه:
۱. ممکنه دسترسی به یه API خاصی داشته باشید که خیلی راحت بتونید اطلاعات رو ازش دریافت کنید. مثلاً یک web service. که این سرویس ممکنه public باشه، یا ممکنه فقط به شما ارائه بشه (مثلاً ممکنه خریده باشید، یا رفیقشون باشید به شما داده باشن!). خوب در این حالت که مشکل خاصی نیست و همون شخص یا شرکتی که به شما API می‌ده، معمولاً نحوه‌ی استفاده ازش رو هم بهتون می‌گه (مثل API پرداخت الکترونیکی).
۲. ممکنه دسترسی به چیز خاصی نباشه و قرار باشه که اطلاعات از یه سایت کاملاً معمولی (یعنی خروجی HTML یا AJAX) استخراج بشه. در این حالت، شما یا به صورت آنلاین این کار رو می‌کنید (یعنی به محض این که کاربر به سرور شما درخواست داد، شما همونجا می‌رید اطلاعات رو از اون سایت مورد نظر می‌گیرید و پردازش می‌کنید و به کاربر نشون می‌دید)، یا به صورت آفلاین (که می‌شه همون روبات که گفتید).
اگه آنلاین باشه، مزیتش اینه که اطلاعات کاملاً به‌روز هست.
اگه آفلاین باشه، مزیتش اینه که سرعت پاسخدهی به درخواست کاربر بسیار بالاتر می‌ره. فرض کنید در حالتی که می‌خواین آنلاین از اون سایت جواب بگیرید، در یکی از درخواستها، به هر دلیلی اون سایت به شما جواب نده و مثلاً connection timeout برابر ۵ ثانیه گذاشته باشید. خوب با توجه به این که شما جوابی از اون سرور نگرفتید، جوابی هم ندارید که به کاربرتون بدید! در نتیجه بعد از ۵ ثانیه علاف کردن کاربر، بهش می‌گید که ببخشید برو بعداً بیا!
از طرفی اگه بخواین آفلاین اطلاعات رو بگیرید، باید یه روبات داشته باشید که این کار رو انجام بده. مثلاً توسط cron یه برنامه تنظیم می‌کنید که هر چند وقت یه بار اجرا بشه و بره اطلاعات رو از اون سایت بگیره و به‌روز کنه. حالا سؤالی که پیش میاد اینه که هر چند وقت یه بار این کارو بکنیم؟ هر یک دقیقه یه بار؟ اون وقت شاید اصلاً اون سایت ما رو بلاک کنه! هر یک ساعت یه بار؟ اون وقت شاید اطلاعاتمون بیش از حد قدیمی بشه. یا مثلاً فرض کنید ساعت ۳ نصفه شب هم برنامه‌ی شما داره هر چند دقیقه یه بار اطلاعات رو از اون سایت می‌گیره، در حالی که هیچ بازدید کننده‌ای ندارید و عملاً بیخودی دارید اطلاعات رو به‌روز می‌کنید!
نتیجه‌گیری اخلاقی: این تصمیم که آنلاین باشه یا آفلاین، کاملاً بستگی داره به طراحی شما و اون سایت مورد نظر.

حالا از همه‌ی اینا که بگذریم، برای گرفتن یه صفحه از یه سایت دیگه، خیلی راحت می‌تونید از دستوراتی مثل file_get_contents استفاده کنید (البته اگه allow_url_fopen فعال باشه: http://php.net/manual/en/filesystem.configuration.php#ini.allow-url-fopen ):

$html = file_get_contents('http://yooz.ir');

و در ادامه اطلاعات مورد نظرتون رو از توی html ای که دریافت کردید استخراج می‌کنید. برای این کار می‌تونید از طریق توابع کار با string عمل کنید، یا از regular expression استفاده کنید، یا HTML رو parse کنید و اطلاعاتتون رو ازش استخراج کنید.

erfanpj

جمعه 04 اردیبهشت 1394, 13:32 عصر

ممنون دوست عزیز از توضیح کاملت

چندتا موضوع
1. اینکه چارتر کرده باشن مطمن هستم که نیست و چندتا سیستم آژانس هستش که آژانس ها دارن از اون استفاده میککن که این سایتهام میرن از اونا میخونن که حالا چند تا اتفاق این وسط گنگ هست
A اون سیستم هیچ API ی ندارن که بشه استفاده کرد
B اون سیتم ها دارای CAPTCHA CODE هستن که زیاد نتونی راحت ازش رد شی
C کلا تو همشون اطلاعات سمت سرور رندر میشه که باز یکم کارو سخت میشه چون به ازای هر SESSION که میسازه یه خروجی سمت سرور تولید میکنه

و نمیشه از file_get_contents استفاده کرد چون PERMISSION نمیده و ...

باز ممنون که وقت گ اشتی اگر نظر دیگه هم داشتی ممنون میشم راهنمایی کنی

با تشکر

سلام
اینجا ۲ تا نکته وجود داره:
اول این که شما از کجا مطمئن هستید که این سایت‌ها اطلاعات رو از سایت‌های آژانسها می‌خونن؟ با توجه به این که توی اسم سایتشون charter دارن، ممکنه چارتر کرده باشن و خودشون اطلاعات رو ارائه بدن.
حالا فرض می‌کنیم اینطوری نباشه (یا اگه اینا اینطوری هستن، فرض می‌کنیم می‌خوایم از اطلاعات آژانسهای دیگه استفاده کنیم).
با این فرض، باز ۲ تا نکته پیش میاد.
اول این که مراقب باشید: با توجه به این که چه اطلاعاتی رو دارید می‌خونید و چه استفاده‌ای ازش می‌کنید، این کار ممکنه غیرقانونی باشه.
دوم: اینجا هم با توجه به این که اطلاعات رو از کجا می‌خواید بخونید، ممکنه ۲ تا روش وجود داشته باشه:
۱. ممکنه دسترسی به یه API خاصی داشته باشید که خیلی راحت بتونید اطلاعات رو ازش دریافت کنید. مثلاً یک web service. که این سرویس ممکنه public باشه، یا ممکنه فقط به شما ارائه بشه (مثلاً ممکنه خریده باشید، یا رفیقشون باشید به شما داده باشن!). خوب در این حالت که مشکل خاصی نیست و همون شخص یا شرکتی که به شما API می‌ده، معمولاً نحوه‌ی استفاده ازش رو هم بهتون می‌گه (مثل API پرداخت الکترونیکی).
۲. ممکنه دسترسی به چیز خاصی نباشه و قرار باشه که اطلاعات از یه سایت کاملاً معمولی (یعنی خروجی HTML یا AJAX) استخراج بشه. در این حالت، شما یا به صورت آنلاین این کار رو می‌کنید (یعنی به محض این که کاربر به سرور شما درخواست داد، شما همونجا می‌رید اطلاعات رو از اون سایت مورد نظر می‌گیرید و پردازش می‌کنید و به کاربر نشون می‌دید)، یا به صورت آفلاین (که می‌شه همون روبات که گفتید).
اگه آنلاین باشه، مزیتش اینه که اطلاعات کاملاً به‌روز هست.
اگه آفلاین باشه، مزیتش اینه که سرعت پاسخدهی به درخواست کاربر بسیار بالاتر می‌ره. فرض کنید در حالتی که می‌خواین آنلاین از اون سایت جواب بگیرید، در یکی از درخواستها، به هر دلیلی اون سایت به شما جواب نده و مثلاً connection timeout برابر ۵ ثانیه گذاشته باشید. خوب با توجه به این که شما جوابی از اون سرور نگرفتید، جوابی هم ندارید که به کاربرتون بدید! در نتیجه بعد از ۵ ثانیه علاف کردن کاربر، بهش می‌گید که ببخشید برو بعداً بیا!
از طرفی اگه بخواین آفلاین اطلاعات رو بگیرید، باید یه روبات داشته باشید که این کار رو انجام بده. مثلاً توسط cron یه برنامه تنظیم می‌کنید که هر چند وقت یه بار اجرا بشه و بره اطلاعات رو از اون سایت بگیره و به‌روز کنه. حالا سؤالی که پیش میاد اینه که هر چند وقت یه بار این کارو بکنیم؟ هر یک دقیقه یه بار؟ اون وقت شاید اصلاً اون سایت ما رو بلاک کنه! هر یک ساعت یه بار؟ اون وقت شاید اطلاعاتمون بیش از حد قدیمی بشه. یا مثلاً فرض کنید ساعت ۳ نصفه شب هم برنامه‌ی شما داره هر چند دقیقه یه بار اطلاعات رو از اون سایت می‌گیره، در حالی که هیچ بازدید کننده‌ای ندارید و عملاً بیخودی دارید اطلاعات رو به‌روز می‌کنید!
نتیجه‌گیری اخلاقی: این تصمیم که آنلاین باشه یا آفلاین، کاملاً بستگی داره به طراحی شما و اون سایت مورد نظر.

حالا از همه‌ی اینا که بگذریم، برای گرفتن یه صفحه از یه سایت دیگه، خیلی راحت می‌تونید از دستوراتی مثل file_get_contents استفاده کنید (البته اگه allow_url_fopen فعال باشه: http://php.net/manual/en/filesystem.configuration.php#ini.allow-url-fopen ):

$html = file_get_contents('http://yooz.ir');

و در ادامه اطلاعات مورد نظرتون رو از توی html ای که دریافت کردید استخراج می‌کنید. برای این کار می‌تونید از طریق توابع کار با string عمل کنید، یا از regular expression استفاده کنید، یا HTML رو parse کنید و اطلاعاتتون رو ازش استخراج کنید.

-سیّد-

جمعه 04 اردیبهشت 1394, 18:37 عصر

اون سیتم ها دارای CAPTCHA CODE هستن که زیاد نتونی راحت ازش رد شی

این رو هم می‌شه براش راه حل پیدا کرد! اگه روبات داشته باشید، کافیه یه بار لاگینش کنید (یعنی captcha رو دستی وارد کنید) و بعد دیگه می‌تونه دوره‌ای سر بزنه به سیستم و اطلاعات رو به‌روز کنه. هر وقت هم که session اش expire شد، مجدداً captcha رو براش دستی وارد می‌کنید و مجدداً لاگین می‌شه.
می‌شه یه سیستم نوشت و یه تعداد آدم گذاشت پاش که فقط captcha نشونشون بده و اونا وارد کنن و سیستم بقیه‌ی کار رو به صورت خودکار انجام بده. بسته به این که rate سر زدن روبات شما به اون سیستم چقدره، و session timeout اش چقدره، تعداد آدم مورد نیازش فرق می‌کنه، که فکر نکنم در موارد معمولی بیش از یک نفر نیاز باشه.

کلا تو همشون اطلاعات سمت سرور رندر میشه که باز یکم کارو سخت میشه چون به ازای هر SESSION که میسازه یه خروجی سمت سرور تولید میکنه

این بخش رو منظورتون رو نفهمیدم. شما به سرور وصل می‌شید و ازش اطلاعات رو می‌گیرید. حالا دیگه چی کار دارید که سمت سرور session ساخته می‌شه؟

و نمیشه از file_get_contents استفاده کرد چون PERMISSION نمیده و ...

یعنی چی permission نمی‌ده؟ مگه دست خودشه؟! :)
شما تقریباً هر صفحه‌ای از وب رو می‌تونید با file_get_contents بگیرید (توجه دارید که اگه آدرس http بهش بدید، می‌ره و براتون دانلودش می‌کنه). مگر این که شرایط خاصی داشته باشه. مثلاً کوکی خاصی بخواد (مثل لاگین) یا User-Agent خاصی بخواد یا ...
در صورتی که صفحه‌ی مورد نظر شما مثلاً لاگین داره، و یا به هر دلیل دیگه می‌خواین یه مقدار پیشرفته‌تر با صفحات وب برخورد کنید، می‌تونید از curl استفاده کنید:
http://php.net/manual/en/book.curl.php

freddy

دوشنبه 11 خرداد 1394, 13:03 عصر

http://hiholiday.ir/WebService