PDA

View Full Version : سوال: دانلود webpage از طریق برنامه نویسی و ذخیره محتوای متنی آن



Danesh123
سه شنبه 09 اردیبهشت 1393, 16:32 عصر
با سلام
من می خوام برنامه ای به زبان #C بنویسم که با این قسمتش مشکل دارم . اینکه برنامه قادر باشد :
آدرس صفحه وب را از ورودی دریافت کرده صفحه مورد نظر را دانلود کند.(آدرس مورد نظر یکی از صفحات
Wikipedia خواهد بود).محتوای متنی صفحه مورد نظر را استخراج کرده و در فایلی به نام text قرار دهد.
پیشاپیش ممنونم

simorgh-hossein
سه شنبه 09 اردیبهشت 1393, 20:05 عصر
سلام
جواب سوالتون :

OpenFileDialog save = new OpenFileDialog(); save.ShowDialog();
if (save.FileName != string.Empty)
{

System.Net.WebClient Client = new System.Net.WebClient();
Client.DownloadFile("Url", save.FileName);
}

MILAD1992
جمعه 12 اردیبهشت 1393, 12:31 عصر
با سلام . . .
می خوام توی فرمم وقتی یک لینکی رو وارد می کنم، سورس اون (تمامی کدهای HTML) رو نمایش بده . . . کسی تا حالا اینکار رو کرده و می تونه کمکم کنه ؟

amirreza_.net
جمعه 12 اردیبهشت 1393, 12:40 عصر
System.Net.WebClient wb = new System.Net.WebClient(); string Sitesource = wb.DownloadString("http://google.com");
wb.Dispose();

MILAD1992
جمعه 12 اردیبهشت 1393, 15:27 عصر
خیلی ممنون از کدی که گذاشتین ، مشکلم حل شد
حالا اگه بخوام زیر لینک های این لینک رو جدا کنم، یعنی بگم بعد از href رو می خوام ، باید چیکار کنم ؟ یه دستوری بود substring ، با این چطوری می شه این کارو کرد ؟ من نمی خوام بگم از کاراکتر چندم چندتا بگیر، می خوام بگم href رو پیدا کن و داخل "" رو بگیر

esaaano
دوشنبه 15 اردیبهشت 1393, 09:07 صبح
سلام خوبی؟ این قطعه کدی که گذاشتید یه فایل txt میده. حالا واسه اینکه کلمات همون فایل رو جدا جدا بریزیم تو یه فایل دیگه باید چیکار کرد؟ (tokenize کردن کلمات)
باید از split استفاده کرد؟ میشه قطعه کد اونم بذارید؟ من تو قسمت خوندن فایل txt از ورودی و پیدا کردن کلمات مشکل دارم که جدا کننده رو چی بذارم
در واقع اون فایل تکستی که از آدرس سایت wikipedia دانلود شد و استخراج شد یه سری کد html وجود داره که نمیذاره نتیجه کارمو درست بگیرم و نمیشه کلمات مهم متن مقاله رو split کرد.
ممنون میشم کمک کنید.

golestan1
دوشنبه 15 اردیبهشت 1393, 11:01 صبح
خیلی ممنون از کدی که گذاشتین ، مشکلم حل شد
حالا اگه بخوام زیر لینک های این لینک رو جدا کنم، یعنی بگم بعد از href رو می خوام ، باید چیکار کنم ؟ یه دستوری بود substring ، با این چطوری می شه این کارو کرد ؟ من نمی خوام بگم از کاراکتر چندم چندتا بگیر، می خوام بگم href رو پیدا کن و داخل "" رو بگیر



شاید به کارت بیاد