PDA

View Full Version : استخراج توضیحات از نتایج جستجوی گوگل



m_h_2007
شنبه 03 خرداد 1399, 11:28 صبح
سلام خدمت اساتید گرامی.
بنده با مطالعه تاپیک های مربوطه کدی نوشتم که کلمه کلیدی را در توسط سایت گوگل جستجو نموده و نتایج را که حاوی کدهای HTML است مانند یک Text معمولی برمیگرداند.
حال خواسته ی من این است که از داخل این متن فقط توضیحات هر لینک یا بعبارتی عنوان لینک ها را استخراج نموده و لیست کنم. بهیچ وجه خود لینک یعنی URL مد نظر من نیست و فقط عنوان آنها برای بنده مرود نیاز است.
چون آشنایی زیادی با عبارات با قاعده و Regex ندارم لطفا بنده را راهنمایی کنید

ژیار رحیمی
پنج شنبه 08 خرداد 1399, 05:02 صبح
سلام اینکه بتونی محتوی رو از صفحه Html جدا کنی کار دشواری هست نه که امکان پذیر نباشه ولی امروزه از ابزار های مرسوم برای testing automation برای crawling استفاده میکنن کار رو به مراتب ساده کرده با استفاده از یک browser جانبی کار میکنن.من خودم چند سال پیش یه برنامه crawling نوشتم که تو سایت املاک میچرخید و دیتا جمع میکرد.تو گوگل جستجو web crawling رو جستجو کنید من خودم selenium رو پیشنهاد میکنم هم نمونه مثال و داکیومنت خوبی داره که استفاده کنی
https://www.makeuseof.com/tag/make-web-crawler-selenium/

مهدی کرامتی
پنج شنبه 08 خرداد 1399, 11:22 صبح
سلام خدمت اساتید گرامی.
بنده با مطالعه تاپیک های مربوطه کدی نوشتم که کلمه کلیدی را در توسط سایت گوگل جستجو نموده و نتایج را که حاوی کدهای HTML است مانند یک Text معمولی برمیگرداند.
حال خواسته ی من این است که از داخل این متن فقط توضیحات هر لینک یا بعبارتی عنوان لینک ها را استخراج نموده و لیست کنم. بهیچ وجه خود لینک یعنی URL مد نظر من نیست و فقط عنوان آنها برای بنده مرود نیاز است.
چون آشنایی زیادی با عبارات با قاعده و Regex ندارم لطفا بنده را راهنمایی کنید

یک نگاه به HtmlAgilityPack (https://html-agility-pack.net/) بیانداز. برای همین جور کارها ساخته شده.