PDA

View Full Version : حرفه ای: ذخیره سایت



aminvb
یک شنبه 13 فروردین 1391, 21:52 عصر
سلام دوستان .

چطور میتونم تمام نوشته های سایت رو در یک فایل تکست ذخیره کنم ؟

خیلی گیرم خواهش میکنم اگه کسی راه کاری داره بگه
ممنون

p.yazdkhasti
دوشنبه 14 فروردین 1391, 09:24 صبح
سلام
در صورتی که می خواهید متن بخشی از صفحات وب را استخراج کنید، در صورتی که فرمت صفحات مورد نظر با یکدیگر یکسان است می توانید از کلاس System.Net.WebClient استفاده نمایید. این کلاس یک متد با نام DownloadString دارد که به عنوان پارامتر ورودی آدرس صفحه را دریافت می کند. بعد از دانلود صفحه به صورت String می توانید با استفاده از کلاس های دیگر جستجو در یک String مانند Regex متن مورد نظر خود را استخراج نمایید. دقت نمایید که همیشه استفاده System.Net.WebClient امکان پذیر نیست و بستگی به نحوه پیاده سازی صفحه و آدرس صفحات دارد ولی در بیشتر موارد برای این کار می توان از آن استفاده کرد.

banitaba.ommolketab
دوشنبه 14 فروردین 1391, 10:21 صبح
سلام
در صورتی که از کنترل web browser برای load صفحه مورد نظر استفاده کنی ف میتونی محتویات اون صفحه را هم به صورت text و هم به صورت stream ذخیره کنی .

string s = web.DocumentText;


web نام کنترل webbrowser میباشد ،
قبل از استفاده از دستوربالا باید صفحه مورد نظرت را load کنی ، اینجوری : web.Navigate("google.com");

aminvb
دوشنبه 14 فروردین 1391, 22:14 عصر
سلام
در صورتی که می خواهید متن بخشی از صفحات وب را استخراج کنید، در صورتی که فرمت صفحات مورد نظر با یکدیگر یکسان است می توانید از کلاس System.Net.WebClient استفاده نمایید. این کلاس یک متد با نام DownloadString دارد که به عنوان پارامتر ورودی آدرس صفحه را دریافت می کند. بعد از دانلود صفحه به صورت String می توانید با استفاده از کلاس های دیگر جستجو در یک String مانند Regex متن مورد نظر خود را استخراج نمایید. دقت نمایید که همیشه استفاده System.Net.WebClient امکان پذیر نیست و بستگی به نحوه پیاده سازی صفحه و آدرس صفحات دارد ولی در بیشتر موارد برای این کار می توان از آن استفاده کرد.
یک تیکه کد میزاشتی

p.yazdkhasti
دوشنبه 14 فروردین 1391, 22:30 عصر
سلام
برای مثال می توانید از کد زیر به منظور ذخیره سازی محتویات صفحه اول وب سایت yahoo در یک فایل تکست در درایو C استفاده نمایید.

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;
using System.Diagnostics;
using System.IO;
using System.Net;
namespace Samples
{
class Program
{
static void Main(string[] args)
{

var webClient = new WebClient();
var webPageHtml = webClient.DownloadString("http://yahoo.com");
var path = @"c:\yahoo.txt";
var fileStream = new FileStream(path, FileMode.OpenOrCreate);
var streamWriter = new StreamWriter(fileStream);
streamWriter.Write(webPageHtml);
streamWriter.Close();
fileStream.Close();
}
}
}

aminvb
سه شنبه 15 فروردین 1391, 00:05 صبح
سلام
برای مثال می توانید از کد زیر به منظور ذخیره سازی محتویات صفحه اول وب سایت yahoo در یک فایل تکست در درایو C استفاده نمایید.

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;
using System.Diagnostics;
using System.IO;
using System.Net;
namespace Samples
{
class Program
{
static void Main(string[] args)
{

var webClient = new WebClient();
var webPageHtml = webClient.DownloadString("http://yahoo.com");
var path = @"c:\yahoo.txt";
var fileStream = new FileStream(path, FileMode.OpenOrCreate);
var streamWriter = new StreamWriter(fileStream);
streamWriter.Write(webPageHtml);
streamWriter.Close();
fileStream.Close();
}
}
}


ممنون ولی عمل نکرد . خودتون تست کردین؟
اگه تست کردین سورس برنامتونو بذارین شاید یک جای کار من ایراد داره.
از توجهتون ممنونم

p.yazdkhasti
سه شنبه 15 فروردین 1391, 00:12 صبح
سلام
بله تست کردم.یعد از اجرای برنامه شما در درایو C باید یک فایل با نام yahoo.txt مشاهده نمایید.

aminvb
سه شنبه 15 فروردین 1391, 00:42 صبح
دوسته عزیز میشه سورس برنامتون رو بذارین ممنون میشم. کارم بد جوری گیره

dorna20-30
سه شنبه 15 فروردین 1391, 10:01 صبح
سلام.منم تست کردم جواب میده یه فایل تکست به همان نام ایجاد میشه اما وقتی بازش کنی فقط سورس html سایت رو نمایش میده

rahdar
سه شنبه 15 فروردین 1391, 18:36 عصر
کدهای تبدیل HTML به متن ساده رو میتونید از لینک زیر پیدا کنید.


http://www.codeproject.com/KB/MCMS/htmlTagStripper.aspx

http://www.codeproject.com/KB/HTML/HTML_to_Plain_Text.aspx

http://www.codeproject.com/Tips/136704/Remove-all-the-HTML-tags-and-display-a-plain-text-.aspx