PDA

View Full Version : سوال: Parsing HTML



niloofar norouzi
دوشنبه 01 شهریور 1389, 22:14 عصر
سلام

چطور می توان لینک های موجود در یک صفحه ی html را بدست آورد؟

با تشکر

ricky22
دوشنبه 01 شهریور 1389, 22:23 عصر
ببین از این می تونی ایده بگیری؟
List<Uri> findUris(string message)
{
string anchorPattern = "<a[\\s]+[^>]*?href[\\s]?=[\\s\\\"\']+(?<href>.*?)[\\\"\\']+.*?>(?<fileName>[^<]+|.*?)?<\\/a>";
MatchCollection matches = Regex.Matches(message, anchorPattern, RegexOptions.IgnorePatternWhitespace | RegexOptions.IgnoreCase | RegexOptions.Multiline | RegexOptions.Compiled);
if (matches.Count > 0)
{
List<Uri> uris = new List<Uri>();

foreach (Match m in matches)
{
string url = m.Groups["url"].Value;
Uri testUri = null;
if (Uri.TryCreate(url, UriKind.RelativeOrAbsolute, out testUri))
{
uris.Add(testUri);
}
}
return uris;
}
return null;
}

niloofar norouzi
دوشنبه 01 شهریور 1389, 22:48 عصر
کد شما uri برمی گردونه
لینک ها رو چه جوری خارج کنم؟

niloofar norouzi
دوشنبه 01 شهریور 1389, 23:44 عصر
متاسفانه کد شما لینک ها را نمی تونه خارج کنه
ممنون میشم اگر چیزی به ذهنتون میرسه راهنمایی بفرمایید