PDA

View Full Version : سوال: برنامه پیدا کردن دامین در سورس فایل html



saeid1346
جمعه 09 مهر 1395, 14:42 عصر
سلام خسته نباشید
میخوام یک برنامه ای بنویسم که سورس فایل Html رو بهش بدیم یا خود فایل رو (فایل ممکنه از ادرس سایت هم ارسال بشه ) سپس در فایل سرچ کنه تمامی دامین ها یا متن هایی که اخرش پسوند دامین داره برای مثل test.ir رو از فایل خارج کنه و در یک لیست خروجی بگیره

ب نظرتون این کار امکان پذیره ؟ با چه ابزار هایی میشه انجامش داد ؟

و سوال اخر با vb بهتره این برنامه انجام بشه یا سایر زبان ها ؟

باسپاس

nerset
جمعه 09 مهر 1395, 19:42 عصر
با سلام
برای انجام این کار ابتدا به سایت http://www.vb-helper.com که به نظر من بهترین منبع برای توابع وی بی 6 است بروید
من قبلا در این سایت کدهای برنامه ای که می توانست تصاویر را از یک صفحه جدا کرده و در یک پوشه ذخیره کند را دیده بودم
و با تغییر کمی بر روی کدهای آن برنامه کوتاه توانستم مطالب موجود در یک صفحه وب را هم استخراج کنم
ولی متاسفانه در حال حاضر این برنامه را در اختیار ندارم و چگونگی تغییر کد آن را هم به خاطر ندارم.
به هر حال پس از استخراج مطالب از صفحه وب مورد نظر در صورتی که مشکلی برای ذخیره آن مطلب از نظر یونیکد بوجود نیاید
می توانید به راحتی در متون تکست ذخیره شده کلمات و حروف مورد نظر را جستجو کنید.

saeid1346
جمعه 09 مهر 1395, 19:56 عصر
با سلام
برای انجام این کار ابتدا به سایت http://www.vb-helper.com که به نظر من بهترین منبع برای توابع وی بی 6 است بروید
من قبلا در این سایت کدهای برنامه ای که می توانست تصاویر را از یک صفحه جدا کرده و در یک پوشه ذخیره کند را دیده بودم
و با تغییر کمی بر روی کدهای آن برنامه کوتاه توانستم مطالب موجود در یک صفحه وب را هم استخراج کنم
ولی متاسفانه در حال حاضر این برنامه را در اختیار ندارم و چگونگی تغییر کد آن را هم به خاطر ندارم.
به هر حال پس از استخراج مطالب از صفحه وب مورد نظر در صورتی که مشکلی برای ذخیره آن مطلب از نظر یونیکد بوجود نیاید
می توانید به راحتی در متون تکست ذخیره شده کلمات و حروف مورد نظر را جستجو کنید.

سلام مجدد
سپاس بابت پاسخ
تاجایی ک سرچ زدم متوجه شدم چطور این کارو انجام بدم
باید اول از ادرس صفحه رو بخونه بعد کل سورس رو داخل یه تکست باکس بریزه بعدش داخل تکست باکس اون متنی که مورد نظره رو سرچ کنه و محتوا رو استخراج کنه
نظرتون چیه؟

nerset
جمعه 09 مهر 1395, 20:44 عصر
خوشحالم از اینکه به جواب رسیدید
به نظر من این روش خوب است ولی به شرط اینکه صفحات شما مشکلاتی نظیر یونیکد بوجود نیاورد و یا در هنگام ذخیره کردن به چنین مشکلی بر نخورید چون به نظر من
بیشترین مشکل ارتباط صفحات و متون وب با vb مربوط به یونیکدها است.
اگر این مشکل حل شود کار جستجوی کلمه مورد نظر در متون بسیار ساده است.
با آرزوی موفقیت برای شما

saeid1346
شنبه 10 مهر 1395, 01:46 صبح
سلام مجدد
بله حل شد سورس پیج رو میریزه داخل تکست باکس یک سری متن خاصه ولی چطوری سرچ کنم و از تکست باکس خارجش کنم تمامی اون متن ها رو ؟ کسی میدونه دوستان ؟
چند سالیه با وی بی6 کار نکردم یادم رفته تمامی توابعش

isaac23
شنبه 10 مهر 1395, 07:09 صبح
کاش میذاشتی ما هم استفاده کنیم

meys34
شنبه 10 مهر 1395, 09:48 صبح
سلام مجدد
سپاس بابت پاسخ
تاجایی ک سرچ زدم متوجه شدم چطور این کارو انجام بدم
باید اول از ادرس صفحه رو بخونه بعد کل سورس رو داخل یه تکست باکس بریزه بعدش داخل تکست باکس اون متنی که مورد نظره رو سرچ کنه و محتوا رو استخراج کنه
نظرتون چیه؟

روش راحت تری هم هست:

http://www.vb-helper.com/howto_list_links_at_url.html

استفاده از Webbrowser که خودش لینک ها رو به صورت تابعی میده:
Webbrowser1.Document.links(i).href

توی تکست هم میشه سرچ کرد ولی دوباره کاری میشه...

در مورد یونیکد هم فکر نمیکنم مشکلی باشه چون یونیکد توی آدرس غیر قابل قبول هست و باید به صورت کاراکتر هایی مثل %2F تبدیل بشه که وی بی مشکلی نداره باهاش...

saeid1346
شنبه 10 مهر 1395, 11:26 صبح
روش راحت تری هم هست:

http://www.vb-helper.com/howto_list_links_at_url.html

استفاده از Webbrowser که خودش لینک ها رو به صورت تابعی میده:
Webbrowser1.Document.links(i).href

توی تکست هم میشه سرچ کرد ولی دوباره کاری میشه...

در مورد یونیکد هم فکر نمیکنم مشکلی باشه چون یونیکد توی آدرس غیر قابل قبول هست و باید به صورت کاراکتر هایی مثل %2F تبدیل بشه که وی بی مشکلی نداره باهاش...

سلام مجدد
بله با همین Webbrowser کار کردم ولی برای سرچ داخلش چه کاری باید انجام بدم ؟ امکانش هست شما برام اکی کنید ؟

nerset
شنبه 10 مهر 1395, 11:54 صبح
با سلام
اول به کمک دستورات باز کردن فایل ، فایل تکست را به صورت متنی (غیر باینری) باز کنید و هر کاراکتری را به ترتیب به صورت متنی بخوانید بعد در حلقه وایل تا رسیدن به پیغام انتهای فایل (می توانید با جستجو در اینترنت دستورات لازم برای باز کردن فایل به صورت متنی و تشخیص انتهای فایل را پیدا کنید) کاراکتری خاص و کمتر استفاده شده و در عین حال مهم
که در اینجا به نظر من (.) است را به ترتیب با دستور شرطی مقایسه کنید که در صورت وجود داشتن باید از طریق پرچم گذاری و بررسی کارکتر بعدی (مثلا حرف i) توسط شرط دوم و در صورتی که به انتهای فایل نرسیده باشیم و در صورت وجود داشتن پرچم گذاری دوم و همچنین به ترتیب برای شرط سوم (مثلا حرف r) و در صورت وجود داشتن تایید پیدا کردن دامین و پرچم گذاری برای شروع عملیات استخراج دامین را آغاز کنید.
جهت استخراج دامین باید توجه داشته باسید که دامین مورد نظر قبل از پسوند آمده پس باید به کلمات قبل از آن دسترسی داشته باشید و آنها را تا رسیدن به کاراکتر فاصله (اسپیس) و یا (.www) در لیست قرار دهید که البته من چون فقط با دستورات دسترسی به فایل ها به صورت باینری کار کرده ام و در این نوع دسترسی می توان در هر لحظه به هر قسمت از فایل دسترسی پیدا کرد ولی در مورد دسترسی متنی به فایل اطلاعی ندارم که البته در صورت عدم دسترسی به کاراکترهای قبلی هم می توان قبلا آنها را به طور پیوسته مثلا در 10 متغیر جداگانه به طور تعویض شونده ذخیره کرد که البته راه حل های بیشتر و بهتری هم برای این کار وجود دارد که برای شروع کار این فقط یکی از آنها است.
من در مورد دستورات وی بی 6 اطلاعات زیادی ندارم و بیشتر توسط چند دستور کلیدی تمام توابع مورد نظرم را می سازم
به هر حال برای شما آرزوی موفقیت می کنم.

saeid1346
شنبه 10 مهر 1395, 13:20 عصر
از دوستان کسی میتونه این برنامه رو برام بنویسه ممنون میشم