PDA

View Full Version : پشتیبانی فارسی در SCIKIT LEARN جهت استفاده از ماشین لرنینگ برای دسته بندی متون فارسی



n.nowroozi
چهارشنبه 06 آبان 1394, 10:15 صبح
سلام

یه دستی توی کد scikit learn بردم که بشه متن فارسی رو هم با دقت بیشتری دسته بندی کرد اگه کسی خواست میتونی اینجا (http://www.niman.ir/?p=71) ببینه.

n.nowroozi
دوشنبه 11 آبان 1394, 13:58 عصر
در ادامه پست قبل یه مطلب هم نوشتم واسه آموزش machine learning که میتونید اینجا (http://www.niman.ir/?p=79)ببینید.

amsjavan
پنج شنبه 26 آذر 1394, 07:17 صبح
سلام آقا نیما


نیازی به این کار نبود، پارامتر stop_words میتونه یک لیستی از کلمات رو هم دریافت کنه و اونها رو به عنوان ایست واژه درنظر بگیره.
درضمن ترجمه ایست واژه های انگلیسی و قرار دادن آن به عنوان ایست واژه های فارسی خیلی کار درستی نیست چون کاربردشون فرق میکنه. ایست واژه ها کلمات متدوال هر زبانی هستند که خیلی به بار معنایی سند مورد نظر کمکی نمی کنند مثل حروف ربط و معمولا حذف آنها در اکثر مسائل باعث افزایش دقت مدل و کاهش فضای ذخیره سازی و بار محساباتی می شود اما همیشه هم حذف این ها باعث افزایش دقت مدل نمیشه و در بعضی مسئله ها مثل عقیده کاوی، نباید حذف بشوند.

n.nowroozi
پنج شنبه 26 آذر 1394, 11:20 صبح
سلام آقا نیما


نیازی به این کار نبود، پارامتر stop_words میتونه یک لیستی از کلمات رو هم دریافت کنه و اونها رو به عنوان ایست واژه درنظر بگیره.
درضمن ترجمه ایست واژه های انگلیسی و قرار دادن آن به عنوان ایست واژه های فارسی خیلی کار درستی نیست چون کاربردشون فرق میکنه. ایست واژه ها کلمات متدوال هر زبانی هستند که خیلی به بار معنایی سند مورد نظر کمکی نمی کنند مثل حروف ربط و معمولا حذف آنها در اکثر مسائل باعث افزایش دقت مدل و کاهش فضای ذخیره سازی و بار محساباتی می شود اما همیشه هم حذف این ها باعث افزایش دقت مدل نمیشه و در بعضی مسئله ها مثل عقیده کاوی، نباید حذف بشوند.
سلام
اره میتونی ولی توی کد به نظر من قشنگ نیست که قرار بگیره، حالا نظر شخصیمه شما میتونی قرار بدی.
برای حذف حروف اضافه هم توی پروژه من نیاز بود قطعا توی پروژه ای که نیاز به انجامش نباشه مثل موردی که ذکر کردید این گزینه غیر فعال میشه .