PDA

View Full Version : بیرون کشیدن متن خبر از سایتهای خبری



mehdiyamani
پنج شنبه 20 فروردین 1394, 08:32 صبح
باسلام روز بخیر
من در چندین سایت خبری این رو دیدم ولی نمیدونم چه طوری انجام میشه .
قطعا توسط rss نیست ، در rss متن خبر معمولا 1-2 خط و به صورت خلاصه هستش .

در این وب سایتها که من دیدم به این صورت هستش که کل متن خبر به همراه تصاویر رو از سایت استخراج میکنه و ثبت میکنه .

میخواستم ببینم چه طوری چنین کاری انجام میشه ؟

ممنون میشم راهنمایی کنید
با تشکر

m.esmaeilzadeh
پنج شنبه 20 فروردین 1394, 14:01 عصر
برای اینکار باید از DOM در خود php استفاده کنید
نمونه بسیار است , در این باره جستجو کنید ....

j_naroogha@yahoo.com
پنج شنبه 20 فروردین 1394, 14:13 عصر
خب باید اول باید با file_get_contents اون صفحه رو بخونید و بعدش متن و بقیه چیزا رو ازش بیرون بکشین
البته برای بیرون کشیدن متن و بقیه کتابخونه های خوبی هست مثل simplehtmldom

DR Zico
جمعه 21 فروردین 1394, 10:01 صبح
Rss ، آدرس مطلب رو داره با استفاده از اون آدرس محتویات صفحه رو میگیریم و قسمت متن رو جدا میکنیم دوستمون در بالا اشاره کرد ک simplehtmldom ​کتابخونه خوبیه برای این کار

nasser.man
جمعه 21 فروردین 1394, 14:37 عصر
باسلام روز بخیر
من در چندین سایت خبری این رو دیدم ولی نمیدونم چه طوری انجام میشه .
قطعا توسط rss نیست ، در rss متن خبر معمولا 1-2 خط و به صورت خلاصه هستش .

در این وب سایتها که من دیدم به این صورت هستش که کل متن خبر به همراه تصاویر رو از سایت استخراج میکنه و ثبت میکنه .

میخواستم ببینم چه طوری چنین کاری انجام میشه ؟

ممنون میشم راهنمایی کنید
با تشکر

ساده ترین راه استفاده از خود ار اس اس هست که بدترین انتخاب هست

روش بعدی همون طور که دوستان گفتند استفاده از dom و پردازش اچ تی ام ال هست . من سایت که کمی ناقص مونده از این روش استفاده کردم .
http://infeed.ir , http://uninews.ir که در هر دوی اینتها میام اخرین مطالب رو پردازش و مطالب اصلی رو بر می دارم

اما روش اصولی تر که البته می تونه کمی دستتون رو ببنده و در عوض خودکار هست و کارتون رو سریع راه می اندازه، پروژه ای هست به اسم readability که در اصلی اگر اشتباه نکنم با رابی شروع شده اما برای پی اچ پی و ... ارایه شده. با این کتابخونه که اپن هم هست کافیه ادرس صفحه رو بهش بدی تا اون با تقریب بسیار خوبی محتوای اون رو با حذف المان های اضافی بهت بده

http://en.wikipedia.org/wiki/Readability

تا اونجا که تست کردم روی اکثر cms ها خوب کار می کنه و روی سایت های شخصی هم باید کار کنه.
نتیجش رو اگر خواستید بهم ایمیل بکنید nasser[.]man[@]gmail