نمایش نتایج 1 تا 2 از 2

نام تاپیک: جمع آوري متون سايتها

  1. #1

    جمع آوري متون سايتها

    با سلام به دوستان عزيز
    من براي يه كار پردازش متن نياز به حجم زيادي متن خام (Text) دارم. يه چيزي در حدود 10 ميليون جمله. طبيعتا جمع آوري اين حجم متن به صورت دستي تقريبا غير ممكنه.
    تنها راهي كه به ذهنم رسيد اين بود كه از ابزاري مشابه خزنده ها (crawlers) براي اينكار استفاده كنم. به اين ترتيب كه آدرس يه سايت (ترجيحا سايت خبري) رو بهش بدم، اون هم بره و از تمام لينك هاي موجود در سايت متون اونها رو خارج كنه و توي يه سري فايل ذخيره كنه. يه چيزي توي مايه هاي offline explorer. اما من فقط متن خام سايت ها رو ميخوام.
    اما با توجه به اين كه من خيلي توي زمينه وب سررشته ندارم، نميدونم دقيقا واسه نوشتن چنين ابزاري چي كار بايد بكنم. ضمنا خيلي هم وقت ندارم چون بايد زودتر اين متون رو جمع آوري كنم و برم سر اصل پروژه.
    كسي ميتونه در اين زمينه كمك كنه؟

  2. #2

    نقل قول: جمع آوري متون سايتها

    سلام به همه

    بالاخره راهش رو پيدا كردم.
    واقعا ممنونم از همه دوستاني كه اين تاپيك رو خوندن و ....

    اين كار يه راه بسيار ساده و عملي داره:
    استفاده از دستور wget در commandline.
    اون جوري كه توي سايتها ديدم، اين دستور هم توي ويندوز كار ميكنه و هم توي لينوكس. البته من توي ويندوز تستش نكردم.
    در هر صورت الان به راحتي دارم با اين دستور كار ميكنم و سايتهاي مورد نظرم رو دارم دانلود ميكنم. تنها گيري كه دارم اينه كه بايد يه تيكه كد بنويسم كه تك تك فايلهاي دايركتوري مورد نظرم رو بخونه و تگهاي html اون pageها رو برام حذف كنه و متن خالي رو save كنه.

    در هر صورت باز هم از همگي ممنونم.
    باي.

قوانین ایجاد تاپیک در تالار

  • شما نمی توانید تاپیک جدید ایجاد کنید
  • شما نمی توانید به تاپیک ها پاسخ دهید
  • شما نمی توانید ضمیمه ارسال کنید
  • شما نمی توانید پاسخ هایتان را ویرایش کنید
  •