PDA

View Full Version : سوال: به نظر شما به جز rss از چه روشی میشه خبر های یک سایت رو توی برنامه قرارا داد؟



samadblaj
سه شنبه 04 مهر 1391, 13:37 عصر
سلام دوستان قبلا یه برنامه نوشتم که یه سری اطلاعات از سایت معرفی شده دریافت میکرد الان میخوام این برنامه رو برای یه سایت دیگه تغییر بدم اما سایت مورد نظر rss نداره و دنبال یه روش میگردم که بتونم مثلا عناوین خبر ها سایت رو توی برنامه ای مثل یه شی listbox به نمایش بذارم ، چیزی به ذهنتون میرسه کمکم کنید؟ :متفکر:

ممنونم

مسعود اقدسی فام
سه شنبه 04 مهر 1391, 16:24 عصر
سایت اگه rss نداره خروجی دیگه‌ای داره یا می‌خواید روش خواندن متن و تشخیص تیتر رو بدونید؟

samadblaj
سه شنبه 04 مهر 1391, 16:52 عصر
سایت اگه rss نداره خروجی دیگه‌ای داره یا می‌خواید روش خواندن متن و تشخیص تیتر رو بدونید؟

سلام آقای اقدم...
rss رو بسته میخوام تیتر مطالب رو بدست بیارم و توی پروژه ام قرارا بدم ؟؟؟

Y_Safaiee
سه شنبه 04 مهر 1391, 17:01 عصر
سلام دوست من

اگه rss نداره راه دیگش خوندن خود صفحه و بارگذاری اطلاعات با بررسی و برداشتن تک های داخل سورس سایته

موفق باشی
بایت بایت

samadblaj
سه شنبه 04 مهر 1391, 17:06 عصر
سلام دوست من

اگه rss نداره راه دیگش خوندن خود صفحه و بارگذاری اطلاعات با بررسی و برداشتن تک های داخل سورس سایته

موفق باشی
بایت بایت


خوب این جور برای کار من منطقی نیست یعنی ببینید اگه بخوام از سورس page استفاده کنم فقط عنوان های امروز رو میتونم استخراج کنم و من میخوام این روش رو برای چند تا سایت استفاده کنم که روال و مقدار ها ممکنه فرق کنه.
یعنی اگه بخوام از این روش استفاده کنم برای چند سایت میشه ؟

مسعود اقدسی فام
سه شنبه 04 مهر 1391, 21:15 عصر
خوب این جور برای کار من منطقی نیست یعنی ببینید اگه بخوام از سورس page استفاده کنم فقط عنوان های امروز رو میتونم استخراج کنم و من میخوام این روش رو برای چند تا سایت استفاده کنم که روال و مقدار ها ممکنه فرق کنه.
یعنی اگه بخوام از این روش استفاده کنم برای چند سایت میشه ؟

یه استاندارذ برای خودتون تعریف کنید. هر سایتی که می‌خونید - چه با rss یا خوندن کد و غیره - به شکل اون استاندارد ذخیره کنید تا بتونید از نظر زمانی و غیره مرتب، مقایسه یا هر کار دیگه‌ای بکنید.

samadblaj
سه شنبه 04 مهر 1391, 21:39 عصر
یه استاندارذ برای خودتون تعریف کنید. هر سایتی که می‌خونید - چه با rss یا خوندن کد و غیره - به شکل اون استاندارد ذخیره کنید تا بتونید از نظر زمانی و غیره مرتب، مقایسه یا هر کار دیگه‌ای بکنید.
نه ببینید ریتم آر اس اس برای تمامی سرویس ها نظیر ویندوز و یا لینوکس یکسان هستش چون یه فایل xml خواهد بود. اما استفاده از سورسیکسان نیست و ممکنه نام و فرمت کد نویسی اشیا با هم بلکل متفاوت باشه که به مشکل بر میخوریم... چون ممکنه ادرس سایت هم تغییر کنه اصولی نیست.

مسعود اقدسی فام
سه شنبه 04 مهر 1391, 21:50 عصر
خب آره. این دردسر اساسی وجود داره که چطور صفحه طراخی شده باشه و تیتر چطور تعریف شده باشه و ...

سایت‌های مورد بررسی یه سری سایت مشخص هستن؟ یا ممکنه عوض بشن؟ اگه ثایت باشن که خب می‌شه بررسی کرد و ریتمشون رو به دست آورد.

یعنی ممکنه لینک خبر به آدرس سایت دیگه باشه؟

samadblaj
سه شنبه 04 مهر 1391, 22:19 عصر
آره ممکنه سایت ها متفاوت بشه ولی باید طور ثابتی بشه.
یه نکته دیگه که هست باید متن های لینک دار رو برداریم ولی لینک عکس ها برداشته نشه اینو چجور تشخیص بدیم که مشکلی پیش نیاد؟

مسعود اقدسی فام
چهارشنبه 05 مهر 1391, 11:23 صبح
آره ممکنه سایت ها متفاوت بشه ولی باید طور ثابتی بشه.
یه نکته دیگه که هست باید متن های لینک دار رو برداریم ولی لینک عکس ها برداشته نشه اینو چجور تشخیص بدیم که مشکلی پیش نیاد؟

قسمت href تگ a بررسی می‌شه. اگه پسوند فایل فرمت عکس (مثل jpeg و jpg و gif‌ و png) بود عکسه. وگرنه لینک به یه صفحه‌ی دیگست که احتمال زیاد خودش خبره. حتی اگه فایل نداشت (مثل www.sdsdsdsd.com/portal) بازم به یه صفحه باز می‌شه اصولا.

مسعود اقدسی فام
چهارشنبه 05 مهر 1391, 16:40 عصر
البته همیشه نمی‌شه مطمئن بود هر آدرسی به فرم آدرس غیر تصویر به متن بر می‌خوره. اولا که pdf و غیره هم یادتون نره. ثانیا گاهی خود اون صفحه‌ها به صورت خودکار برای دانلود یا هر چیز دیگه‌ای منتقل می‌شن به آدرس یه تصویر یا مثلا pdf و zip و غیره.

samadblaj
چهارشنبه 05 مهر 1391, 16:49 عصر
نه خوشبختانه اون سایتی که من استفاده میخوام کنم فقط روی متن لینک میندازه ویگرنه چیزی برای دانلود وجود نداره.


البته همیشه نمی‌شه مطمئن بود هر آدرسی به فرم آدرس غیر تصویر به متن بر می‌خوره. اولا که pdf و غیره هم یادتون نره. ثانیا گاهی خود اون صفحه‌ها به صورت خودکار برای دانلود یا هر چیز دیگه‌ای منتقل می‌شن به آدرس یه تصویر یا مثلا pdf و zip و غیره.

ولی خوب بود یه روش منطقی پیدا میکردیم؟

مثل توی بعضی editor ها یه گزینه هست که متن رو به حالت اولیه ر میگردونه (مثلا لینک متن رو حذف میکنه ، اگر بویلد باشه بر طرف میشه)... این روش هم خوبه بشه روی تگ body اعمالش کرد.

مسعود اقدسی فام
چهارشنبه 05 مهر 1391, 17:02 عصر
نه خوشبختانه اون سایتی که من استفاده میخوام کنم فقط روی متن لینک میندازه ویگرنه چیزی برای دانلود وجود نداره.



ولی خوب بود یه روش منطقی پیدا میکردیم؟

مثل توی بعضی editor ها یه گزینه هست که متن رو به حالت اولیه ر میگردونه (مثلا لینک متن رو حذف میکنه ، اگر بویلد باشه بر طرف میشه)... این روش هم خوبه بشه روی تگ body اعمالش کرد.

بحث من روش واکشی نیست. شما مثلا آدرس www.asdfgh/com/ewerewree/154345 رو از یه قسمت با هر روش دلخواهی کشیدی بیرون. تا اینجا مشکلی نیست. بعد می‌خوای خود این آدرس رو بخونی. درخواست که می‌فرستی یهو یه pdf می‌یاد که مثلا کتاب با کد 154345 هستش.

پاک کردن تگ‌ها یه بحثه، تشخیص لینک به درد بخور یه بحث دیگه. یا مثلا یه لینک داره به قسمت درباره ما.

من هدفم ارائه‌ی راه حل نبود این قسمت. دارم یادآوری می‌کنم که اینا هم هستن.

samadblaj
چهارشنبه 05 مهر 1391, 17:06 عصر
باشه مرسی از لطفتون ممنونم

Farshid007
چهارشنبه 05 مهر 1391, 18:10 عصر
قسمت href تگ a بررسی می‌شه. اگه پسوند فایل فرمت عکس (مثل jpeg و jpg و gif‌ و png) بود عکسه. وگرنه لینک به یه صفحه‌ی دیگست که احتمال زیاد خودش خبره. حتی اگه فایل نداشت (مثل www.sdsdsdsd.com/portal) بازم به یه صفحه باز می‌شه اصولا.
تو html برای عکس از تگ img استفاده میشه و برای ادرس دادنش src رو مقدار می دن

مسعود اقدسی فام
چهارشنبه 05 مهر 1391, 20:12 عصر
تو html برای عکس از تگ img استفاده میشه و برای ادرس دادنش src رو مقدار می دن

منظور تگ a بود که داخلش تگ img استفاده شده. :چشمک: