گام اول داده کاوی : شناخت داده ها

هر چه شناخت ما از داده‌ها بیشتری باشه، خروجی داده کاوی مفیدتر و کاربردی‌تر خواهد بود.توی این مطلب و چند مطلب بعدی می‌خواهیم یکم در مورد داده‌ها و ویژگی‌های اونا صحبت کنیم.
ابتدا لازمه تا انواع داده‌های که ممکنه باهاش سروکار داشته باشید رو معرفی می‌کنیم
داده‌های Nominal : مقادیری که این داده‌های می گیرن شامل یک رنج میشه. مثلاً شغل فرد. مقادیری که داده میگیره میتونه معلم، پزشک، برنامه نویس، کشاورز و … باشه
داده‌های Binary: این داده‌ها رو میشه یک زیر مجموعه از Nominal دونیت که مقداریش شامل دو حالت بیشتر نیست. مثلاً جنسیت می تونه مرد یا زن باشه. یا مثلاً سیگاری بودن فرد که می تونه بله/خیر باشه.
داده‌های Ordinal: این داده‌های هم یک حالت خاص از داده‌های Nominal هستند. مهم‌ترین تفاوت این دسته با Nominal اینکه، مقادیری که قبول میکنه دارای یک ترتیب هستند. یک نمونه از این موارد سطح تحصیلات فرد است (دیپلم، فوق دیپلم، کارشناسی، کارشناسی ارشد و دکتری)
بقیه انواع داده‌های رو توی مطالب بعدی معرفی می‌کنیم.
یک سؤال مهم خوب دونستن اینکه داده‌های توی این سه دسته قرار مگیرین چه مزیتی داره. قصد ندارم وارد بحث‌های تخصصی بشم ولی وقتی ما بدونیم داده ما یکی از سه مورد بالا هست، باید حواسمونن باشه تعریف ویژگی‌های مانند میانگین، میانه، مقدار کمینه (minimum)، مقدار بیشینه (maximum)، برای اونا بدون معنا است.
خوب این کجا به درد می خوره. بعضی از الگوریتم‌ها داده کاوی نوع داده رو محدود میکنن به انواعی که بشه از اونا مثلاً میانگین و میانه و … گرفت. خوب اگر از یکی از داده های فوق توی اون الگوریتم ها استفاده کنیم ممکنه نتایج مطلوبی به همراه نداشته باشه
http://mrmining.ir/2016/10/18/%DA%AF...-%D9%87%D8%A7/