PDA

View Full Version : تفاوت ساختار لینک های سایت در سورس صفحه(عبارات با قاعده )



بیتا حکمت
شنبه 03 مرداد 1394, 11:57 صبح
سلام ، وقت بخیر ، دوستان من در بدست اوردن لینک های سایت به مشکلی برخوردم ، برا اینکه کد طولانی نشه و استادان بزرگوار حس خوندن کد رو داشته باشن ، من فقط اون تیکه ای
که مشکل داره کپی می کنم





string pattern = @"\b(?:https?://|www\.)\S+\b";


Regex rgx = new Regex(pattern);
foreach (Match m in rgx.Matches(data))
try
{
listRange.Add(m.Value.ToString());
}
catch
{

}

return listRange;

}
catch { }

return null;



ببینید کد بالا اگر از داخل سورس Html لینک هایی مث لینک هایی پایینی رو پیدا کنه

لینک های حالت اول (بدون مشکل بدست میاد )



http://blog.7010.ir/date/2013/12
http://blog.7010.ir/date/2012/12
http://www.7010.ir




لینک های حالت دوم ( این نوع لینک ها استخراج نمیشه )

ولی می دونین که مثلا لینک یه سایت ممکن هست که به این صورت باشه



<a title="آموزش پيانو و سازدهني " href="/view/781043/">


میخوام عبارت باقاعده طوری تنظیم بشه که حالت بالایی رو گزینش کنه ( یعنی هم حالت اول که کار کنه ، هم حالت دوم )

zayens
یک شنبه 04 مرداد 1394, 15:29 عصر
این سوال نباید اینجا مطرح میشد مربوط به قسمت وب هست
در مورد لینک نوع دوم امکان شناسایی آدرس نیست!
در واقع آدرسی مثل "href="/view/781043
به آدرسی در فولدر ویو در هاست اشاراه میکنه
در واقع اینجا از آدرس دهی نسبی استفاده شده و آدرس کامل سایت رو نمیشه صرفا از این خط کد در آورد

بیتا حکمت
یک شنبه 04 مرداد 1394, 15:44 عصر
این سوال نباید اینجا مطرح میشد مربوط به قسمت وب هست
در مورد لینک نوع دوم امکان شناسایی آدرس نیست!
در واقع آدرسی مثل "href="/view/781043
به آدرسی در فولدر ویو در هاست اشاراه میکنه
در واقع اینجا از آدرس دهی نسبی استفاده شده و آدرس کامل سایت رو نمیشه صرفا از این خط کد در آورد

سلام ، ممنونم، برا سایت نمیخوام برای برنامه ویندوزی میخوام و اینکه بخش وب به اندازه این تالار فعال نیست
ضمن اینکه امکان شناسایی ادرس هم هست ، اما باید روش بدست اوردن اون لینک ها تغییر کنه ..