forogh68
چهارشنبه 29 مهر 1394, 19:56 عصر
سلام دوستان. وقت بخیر.
دوستان در درس داده کاوی یک سری داده دارم که با نرم افزارهایی مثل وکا باید روی اون کار کنم!
خب این سری داده هایی که گذاشتم اسپم sms هست و من باید بتونم اسپم و غیر اسپم بودن این جملاتی که در این دادها هست رو بیرون بیارم! خودم تصمیم گرفتم با زبان C++ اون رو انجام بدم! حالا احتیاج به کمک دارم! میشه کمی راهنمایی بفرمایید:
این داده ها رو دانلود کنید و با نوت پد ++ یا وردپد یا نوت پد ویندوز اون رو باز کنید. هر سطر نشون دهنده یک پیام هست که ماباید بگیم این سطر اسپم هست یا خیر؟
http://s3.picofile.com/file/8218462000/smsSpamCollection.arff.html
استنباط من از موضوع به ان شکل هست که بازم اگر دوستان چیزی به نظرشون می رسه ممنون میشم کمک کنند:
1 - استخراج کلمات
ابتدا تک تک ایمیل ها رو در هر قالبی که هست(مثلا .txt) باید از ورودی بخونید و تک تک کلمات اون رو استخراج کنید.مثلا اگر داخل یکی از فایل ها جمله if you would prefer to stay in a hotel , we recommend the arcade hotel وجود داشت باید تک تک کلمات و تعداد دفعات تکرارش رو استخراج کنید که می تونید به هر صورتی(در داخل پایگاه داده، استفاده از ساختار درختی، آرایه یا ...) ذخیره کنید.یعنی داریم
http://s3.picofile.com/file/8218463350/%D9%84%DB%8C%D8%B3%D9%84%D8%B5%D9%8256.PNG
تا این مرحله هر ایمیل تبدیل به برداری از کلمات میشه(مجموعه train و test) که به عنوان ویژگی(feature) شناخته میشن
۳-۲-حذف stop-words
کلماتی که مربوط مفهوم ایمیل نیستن و در همه ایمیل ها تکرار میشن، باید حذف بشن. مثل if.
نمی دونم چقدر درست باشه این کارم! اگر کسی چیزی می تونه بهم کمک کنه!
با تشکر
دوستان در درس داده کاوی یک سری داده دارم که با نرم افزارهایی مثل وکا باید روی اون کار کنم!
خب این سری داده هایی که گذاشتم اسپم sms هست و من باید بتونم اسپم و غیر اسپم بودن این جملاتی که در این دادها هست رو بیرون بیارم! خودم تصمیم گرفتم با زبان C++ اون رو انجام بدم! حالا احتیاج به کمک دارم! میشه کمی راهنمایی بفرمایید:
این داده ها رو دانلود کنید و با نوت پد ++ یا وردپد یا نوت پد ویندوز اون رو باز کنید. هر سطر نشون دهنده یک پیام هست که ماباید بگیم این سطر اسپم هست یا خیر؟
http://s3.picofile.com/file/8218462000/smsSpamCollection.arff.html
استنباط من از موضوع به ان شکل هست که بازم اگر دوستان چیزی به نظرشون می رسه ممنون میشم کمک کنند:
1 - استخراج کلمات
ابتدا تک تک ایمیل ها رو در هر قالبی که هست(مثلا .txt) باید از ورودی بخونید و تک تک کلمات اون رو استخراج کنید.مثلا اگر داخل یکی از فایل ها جمله if you would prefer to stay in a hotel , we recommend the arcade hotel وجود داشت باید تک تک کلمات و تعداد دفعات تکرارش رو استخراج کنید که می تونید به هر صورتی(در داخل پایگاه داده، استفاده از ساختار درختی، آرایه یا ...) ذخیره کنید.یعنی داریم
http://s3.picofile.com/file/8218463350/%D9%84%DB%8C%D8%B3%D9%84%D8%B5%D9%8256.PNG
تا این مرحله هر ایمیل تبدیل به برداری از کلمات میشه(مجموعه train و test) که به عنوان ویژگی(feature) شناخته میشن
۳-۲-حذف stop-words
کلماتی که مربوط مفهوم ایمیل نیستن و در همه ایمیل ها تکرار میشن، باید حذف بشن. مثل if.
نمی دونم چقدر درست باشه این کارم! اگر کسی چیزی می تونه بهم کمک کنه!
با تشکر