مبتدی: استخراج تگ های HTML از سورس یک صفحه وب [بایگانی]

alimooghashang

جمعه 19 آذر 1389, 18:23 عصر

با سلام
من یه سری فایل HTML دارم
میخوام این فایل ها رو با برنامه ای که مینویسم بازشون کنم و تگ های داخلشون رو جدا جدا کنم! و اطلاعات این تگ ها رو استخراج کنم
و در آرایه های جدا جدا ذخیره کنم!
ایا کلاسی پیشفرض در داخل c# برای این کار تعریف شده است؟
اگر آری چگونه این کار رو انجام دهم!
با تشکر

epsi1on

جمعه 19 آذر 1389, 20:02 عصر

با سلام
من یه سری فایل HTML دارم
میخوام این فایل ها رو با برنامه ای که مینویسم بازشون کنم و تگ های داخلشون رو جدا جدا کنم! و اطلاعات این تگ ها رو استخراج کنم
و در آرایه های جدا جدا ذخیره کنم!
ایا کلاسی پیشفرض در داخل c# برای این کار تعریف شده است؟
اگر آری چگونه این کار رو انجام دهم!
با تشکر
سلام دوست من.
اگر ممکنه یه مثال بزنید از فایلتون و اطلاعاتی که میخواید ازش استخراج کنید.
بسته به پیچیدگی کارتون میشه راه حلهای مختلفی ارایه داد... (استفاده از عبارات با قائده، تبدیل فایل html به xml و جستجو در آن بکمک کلاسهای موجود در خود کتابخانه دات نت و ...)

alimooghashang

جمعه 19 آذر 1389, 20:44 عصر

مثال؟
یه سری فایل دارم که درونشون یه سری فرم هست که اطلاعاتی در اونها ذخیره شده!
من میخوام کلیه عناصر INPUT در صفحه رو در یک آرایه استخراج کنم و اطلاعاتی که مورد نیازم هست یکی محتوی input ها و نام هر شیئ input هست!
ممنون

epsi1on

دوشنبه 22 آذر 1389, 21:50 عصر

سلام دوست من.
بابت تاخیر عذر خواهی میکنم، به نظر بهترین راه حل (حالا باز بسته به نیاز شما) استفاده از عبارات با قاعده (Regular Expression) هست.
من به حدی که بخوام قطعی نظر بدم با HTML آشنا نیستم، ولی فکر میکنم از چیزی شبیه این باید بعنوان Pattern استفاده کنید:

<input ([^<]*) type="([^"]*)" ([^<]*) name="([^"]*)" ([^<]*) />