پیش پردازش داده ها : نکات تکمیلی در مورد داده های ناقص، ناسازگار و غیر دقیق

در این قسمت آخرین بخش مربوط به این حوزه پیش پردازش داده ها را ارائه خواهیم دارد
•داده‌های که با سایر داده‌های ناسازگاری دارند باید از مجموعه داده هاحذف شوند.
•در بعضی از مواقع پیشینه (تاریخچه) مربوط به داده‌ها و یا اطلاعات مربوط به زمان تغییرات داده‌ها نیز نگهداری می شود. در صورت عدم نیاز به آنها ، این اطلاعات را حذف کنیم.
•داده‌های که مقادیر گم شده دارند یا به عبارت دیگر برای آنها مقادیری وجود ندارد باید بر اساس سایر ویژگی‌های مرتبط با آنها استنتاج شوند و مقادیر مناسب برای آنها تولید گردد.

اهمیت کاربر استفاده کننده از داده ها : نکته دیگر در مورد داده‌های این است که کیفیت داده های تولید شده بسیار به کسی که می خواهد از آن استفاده کند وابسته است. به عنوان مثال فرض کنید ما اطلاعات مربوط به آدرس مشتریان را در اختیار داریم. فرض کنیددر داده های موجود، اطلاعات آدرس 80 مشتریان وجود دارد و 20 درصد از آدرس مربوط به مشتریان یا دیگر معتبر نیست (مثلا مشتری نقل مکان کرده است) و یا اشتباه ثبت شده است. میزان کیفیت این اطلاعات را می اوانیم از دیدگاه دو دسته متقاضی بررسی کنیم
•تحلیل‌گر بازار: این حجم داده (80 درصد آدرس مشتریان) برای تحلیل گران می تواند حجم مناسبی از داده ها باشد و از لحاظ آنها، این مقدار داده هم کافی است و هم دقیق
•مدیر فروش: از دید مدیر فروش این داده ولی ممکن است ناقص و غیر کاربردی باشد.
در نتیجه در نظر گرفته کسی که به دادها نیاز دارد یک اصل مهم در تعیین داده ها ناقص، ناسازگار و غیر دقیق است.

دوتا معیار دیگر که بسیار به کاربر واسته است به شرح زیر است
1- Believability : به معنای این است که کاربر چقدر باور دارد که داده‌های موجود درست است.
2- Interpretability : اینکه داده های موجود از دید کاربر چقدر قابل فهم است.
از آنجایی که این دو معیار چندان به تکنیک های داده کاوی ارتباطی ندارد در این بخش تنها به آنها اشاره داشتیم.


منبع (اطلاعات بیشتر)

http://mrmining.ir/2016/11/22/%D9%BE...8%D8%B1%D8%AF/