PDA

View Full Version : جمع آوري متون سايتها



aminfarajian
سه شنبه 28 اردیبهشت 1389, 18:33 عصر
با سلام به دوستان عزيز
من براي يه كار پردازش متن نياز به حجم زيادي متن خام (Text) دارم. يه چيزي در حدود 10 ميليون جمله. طبيعتا جمع آوري اين حجم متن به صورت دستي تقريبا غير ممكنه.
تنها راهي كه به ذهنم رسيد اين بود كه از ابزاري مشابه خزنده ها (crawlers) براي اينكار استفاده كنم. به اين ترتيب كه آدرس يه سايت (ترجيحا سايت خبري) رو بهش بدم، اون هم بره و از تمام لينك هاي موجود در سايت متون اونها رو خارج كنه و توي يه سري فايل ذخيره كنه. يه چيزي توي مايه هاي offline explorer. اما من فقط متن خام سايت ها رو ميخوام.
اما با توجه به اين كه من خيلي توي زمينه وب سررشته ندارم، نميدونم دقيقا واسه نوشتن چنين ابزاري چي كار بايد بكنم. ضمنا خيلي هم وقت ندارم چون بايد زودتر اين متون رو جمع آوري كنم و برم سر اصل پروژه.
كسي ميتونه در اين زمينه كمك كنه؟

aminfarajian
سه شنبه 04 خرداد 1389, 10:20 صبح
سلام به همه

بالاخره راهش رو پيدا كردم.
واقعا ممنونم از همه دوستاني كه اين تاپيك رو خوندن و ....

اين كار يه راه بسيار ساده و عملي داره:
استفاده از دستور wget در commandline.
اون جوري كه توي سايتها ديدم، اين دستور هم توي ويندوز كار ميكنه و هم توي لينوكس. البته من توي ويندوز تستش نكردم.
در هر صورت الان به راحتي دارم با اين دستور كار ميكنم و سايتهاي مورد نظرم رو دارم دانلود ميكنم. تنها گيري كه دارم اينه كه بايد يه تيكه كد بنويسم كه تك تك فايلهاي دايركتوري مورد نظرم رو بخونه و تگهاي html اون pageها رو برام حذف كنه و متن خالي رو save كنه.

در هر صورت باز هم از همگي ممنونم.
باي.