PDA

View Full Version : پیدا کردن متن اصلی از صفحه وب دانلود شده



taha mahdi
پنج شنبه 09 شهریور 1391, 14:33 عصر
با سلام
چطور متن اصلی یک صفحه وب مثل سایت های خبری را از بقیه محتوای آن جدا کنم؟

hakan648
پنج شنبه 09 شهریور 1391, 15:04 عصر
سلام
میتونید کل صفحه رو به عنوان یک رشته دریافت کنید و با رگولار ، تگ های Html رو حذف کنید . در این حالت همه متن هارو خواهید داشت .
how-can-i-download-html-source-in-c-sharp (http://stackoverflow.com/questions/599275/how-can-i-download-html-source-in-c-sharp)

در صورتی که نیاز داشته باشید که متن یک قسمت از صفحه رو دریافت کنید ، میتونید طبق این آموزش عمل کنید .
استخراج اطلاعات از صفحات وب با کمک HtmlAgilityPack (http://www.dotnettips.info/Post/1009/%D8%A7%D8%B3%D8%AA%D8%AE%D8%B1%D8%A7%D8%AC-%D8%A7%D8%B7%D9%84%D8%A7%D8%B9%D8%A7%D8%AA-%D8%A7%D8%B2-%D8%B5%D9%81%D8%AD%D8%A7%D8%AA-%D9%88%D8%A8-%D8%A8%D8%A7-%DA%A9%D9%85%DA%A9-htmlagilitypack)

موفق باشید

مهرداد صفا
پنج شنبه 09 شهریور 1391, 17:15 عصر
سلام
با خصوصیت InnerText میتوانید به متن Element دسترسی داشته باشید. مثلا:

string text=WebBrowser1.Document.InnerText;
//or
string text=WebBrowser1.Document.OuterText;

taha mahdi
جمعه 10 شهریور 1391, 09:21 صبح
با تشکر. اما مسئله به این سادگی نیست. پیدا کردن متن اصلی در هر صفحه یجوری و ی الگوریتم ثابت نمیشه تعریف کرد. نیاز به پردازش هوشمن داره. مثل smart browser.