مقاله فارسی در خصوص Data warehouse [بایگانی]

View Full Version : مقاله فارسی در خصوص Data warehouse

Kamyar.Kimiyabeigi

سه شنبه 05 تیر 1386, 07:51 صبح

این مقاله در پایان به صورت pdf نیز در اختیارتون قرار میگیره.
قسمت اول :
مقدمه ای بر انباره داده ها (Data warehouse)

تعریف:
می توان تعاریف مختلفی را برای Data warehouseداشته باشیم:
1- تعریف Ralph Kimball از انباره داده : یک DW نسخه ای از داده های تراکنشی است که به صورت اختصاصی برای پرس و جو ها و گزارش گیری ،سازمان دهی شده است.
A data warehouse is a copy of transaction data specifically structured for querying and reporting.
گرچه به این تعریف دو ایراد وارد است:که اولاً گاهی داده هایی که در یک DW ذخیره می شوند ،غیرتراکنشی هستند . اگرچه معمولاً 95 تا 99 درصد داده ها تراکنشی هستند . ثانیاً خروجی اصلی سیستم های DW ، لیست گیری های فهرست وار (queries) در حجم کم و یا گزارش های اداری در حجم زیاد هستند
2- اگر تعاریف زیر برقرار باشد:
داده : حقیقت قابل مشاهده ، فایل ضبط
اطلاع : مجموعه سازماندهی شده از حقیقت ها ؛ داده های با ارتباط و هدف
سیستم عملیاتی : محیطی از داده ها و برنامه های لازم برای ادامه فعالیتهای یک سازمان
انبار داده ی اطلاعی :مجموعه ای از داده و برنامه ها، برای "تحلیل " و "تصمیم گیری "، جدا از سیستم عملیاتی
یک انباره داده(DW) معماری جداگانه ای است برای نگهداری داده های حساس تاریخی که این داده ها از انبار داده های عملیاتی به دست آمده اند و به صورتی قابل درک برای عملیات تحلیل سازمان درآمده اند.
3- یک تعریف از W.H.INMON
یک DW مجموعه ای از اطلاعات یکپارچه که دارای قابلیت آنالیز کردن و استخراج داده ها (query)میباشد
"repository of integrated information, available for querying and analysis "

بعضی از خصوصیات Data warehouse ها از این قرارند :

1. یکپارچه بودن
2. متغیر با زمان
3. غیر فرار
4. موضوع گرا (Subject-oriented)

تاریخچه:

بعد از رشد استفاده از TPS ها به عنوان سیستمهای پردازش تراکنش در بخش های عملیاتی سازمان، نیاز جدی به سیستمهای اطلاعاتی که بتوانند عملیات گزارش گیری را علی الخصوص در رده گزارشهای مدیریتی ساماندهی کنند احساس می شد. علی الخصوص بوجود آمدن جزایر فنآوری، سیستمهایی که به صورت جدا از هم فعالیت می کرد و امکان تهیه گزارشات ترکیبی از اطلاعات سیستمهای مختلف و انجام پرس و جو ها را مشکل و یا غیر ممکن می نمود.
بنابراین حرکت به سمت سیستمهای اطلاعات مدیریت (Management Information System) و بویژه سیستمهای گزارشگیری مدیریتی (MRS:Management Reporting System) آغاز شد. اما مشکل آنجا بود که این سیستمها به شدت به TPS ها وابسته بودند و داده هاشان اغلب یکی بود. این باعث می شد که تغییر یکی باعث انتشار تغییرات در همه سیستمها شود. از سوی دیگر ساختار داده ای مشابه، امکان تهیه گزارشات زمانی و موضوعی را مشکل می ساخت. این شد که مدل جدیدی از تفکر ایجاد شد به نام انباره داده ها

دلایل استفاده از DW ها :

1- تهیه گزارشات (Reports) و انجام پرس و جو هایی (Query) که نیاز به عملیات ورودی/خروجی (IO) بسیاری هستند: از اهداف سیستمهای پردازش تراکنش (TPS:Transaction Processing System) آن است که گزارشات مورد نیاز بخش های عملیاتی و مدیریتی را تولید کنند. تهیه این گزارشات معمولا سخت و باحجم زیاد IO همراه است و باعث کند شدن خود سیستمها می گردد. بنابراین شرکت های تجاری به دنبال راهی هستند تا در کمترین زمان و با کمترین هزینه به سیستم هایی دست یابند که زمان پردازش تراکنش ها در آن ها قابل قبول باشد . بهترین راهکار استفاده از DW هایی بود که از منابع IO مجزایی برای گزارش گیری و انجام پرس و جو استفاده می کردند.
2- استفاده از مدل های داده ای و یا تکنولوژی های سرور به منظور بالا بردن سرعت عملیات گزارش گیری و پرس و جو ها که سیستم های عادی پردازش تراکنش ها(TPS) برای آن ها مناسب نیست.
3- ایجاد محیطی برای تسهیل و آسان نمودن به دست آوردن گزارش ها و پرس و جو ها و یا ایجاد وسیله ای برای سرعت بخشیدن به عملیات گزارش گیری: اغلب می توان DW ای ساخت که کاربرانی باسطح آگاهی کمتر بتوانند گزارش ها و پرس و جوهای ساده ای را تهیه کنند .
4- برای ایجاد انباری از داده های تصفیه شده ی سیستم های پردازش تراکنش ها (TPS)که می توانند به طور پیوسته گزارش از آن تهیه نمود. این انبار الزاماً احتیاجی به ثابت بودن TPS ها ندارد :DW ها این امکان را به شما می دهند که داده ها را بدون تغییر دادن سیستم های پردازش تراکنش ها ،تصفیه کنند. (clean up) توجه کنید که در برخی از پیاده سازی ها ، DW ها به گونه ای هستند که در آن ها امکان یافتن اصلاحات انجام شده بر روی داده های DW و فرستادن feedback به TPS ها برای اعلام این تغییرات ، وجود دارد. گاهی اوقات این گونه رفتار کردن با تغییرات داده ها بامعناتر از این است که تغییرات را به طور مستقیم بر روی خود TPS ها اعمال کنیم .
5- برای آن که بر اساس قواعد ، گزارش گیری و پژوهش را بر روی داده هایی که از چندین TPS مختلف می آیند و یا از یک منبع داده ای خارجی می آیند، یا اینکه داده هایی هستند که تنها برای گزارش گیری و انجام تحقیقات باید ذخیره شوند ، تسهیل بخشیم:برای مدت زمان مدیدی ، شرکت هایی که نیاز به گزارش هایی بر پایه ی داده های چندین TPS مختلف ، داشتند ؛ مجبور بودند داده های هر TPS را بیرون کشیده ، سپس آن ها را مرتب نموده و در هم ادغام نمایند تا به داده ی چکیده ای برسند که مناسب گزارش گیری است .در بسیاری از موارد این روش مناسب است.اما در شرکت هایی که با حجم عظیمی از داده هایی مواجه هستند که مرتباً نیاز به مرتب سازی و ادغام دارند ؛ در صورتی که نیاز به گزارش گیری از داده های تصفیه شده ی TPS ها داشته باشیم ؛ DW ها کارایی بیشتری دارند.
6-برای ایجاد مخزنی از داده های TPS ها ، که شامل داده های یک بازه ی زمانی بسیار طولانی هستند وبه همین دلیل کارایی کنترل آن ها توسط خود TPS پایین می آید . :داده های قدیمی تر غالباً از یک TPS خالی می شوند تا زمان پاسخ مورد انتظار دراین سیستم ها ، به راحتی کنترل شود .برای انجام تحقیقات و گزارش ها ممکن است داده های قدیمی و داده های جاری مورد نیاز باشند که در این موارد استفاده از DW به علت مهم نبودن زمان انتظار برای پاسخ ، موثر خواهد بود.

روش کار:

در DW فرایندی داریم به نام ETL: Extract, Transform, Load که در طی آن داده ها از سیستمهای پرادزش تراکنش استخراج می شود (E) تغییر فرمت های لازم در آن صورت می گیرد (T) و سپس در قالب داده ای جدید مناسب برای گزارشگیری آماده می شود (L) پس از آن از طریق داده کاوی (Data Mining ) و مکانیزم هایی مانند OLAP پرس و جو ها ایجاد و گزارشات مورد نیاز تهیه می شود.

Kamyar.Kimiyabeigi

چهارشنبه 06 تیر 1386, 07:41 صبح

قسمت دوم

آشنایی با مفاهیم انباره های داده (Data warehouse)
انباره داری / تحلیل زنده / داده کاوی

مقدمه

انباره های داده پایه گذار فن آوری لازم برای ساخت و بهره برداری از برنامه های هوشمندی هستند که بعضا در برخی فیلم های تخیلی با آنها آشنا شده ایم. برنامه هایی که اطلاعات را برای صاحبان خود جمع آوری نموده و پس از تجزیه و تحلیل با آنها به مشاوره می پردازند.

OLTP چیست؟

فقط در سال 2000 میزان ظرفیت نصب شده جهت ذخیره سازی اطلاعات از کل ظرفیت موجود در دهه 1990 بیشتر بوده است.
حیات بازرگانی نوین مبتنی بر داده هاست. در حال حاضر تقریبا حجم کل اطلاعات در کامپیوترها هر 5 سال دو برابر می شود و با توجه به سرعت ایجاد برنامه های چند رسانه ای و بانکهای اطلاعاتی پیش بینی می شود که شتاب رشد اطلاعات به دو برابر در سال برسد.
تولید کنندگان این اطلاعات موسسات و شرکت های جدیدی هستند که امور خود را توسط کامپیوترها هدایت می کنند. سیستم های تولید مکانیزه ای که داده ها را جمع آوری نموده و به مصرف می رسانند سیستم هایOLTP نامیده می شوند. این سیستم ها تولید کنندگان واقعی داده ها هستند.
برنامه های کاربردی خادم و مخدوم بدو دسته تقسیم می شوند:
" سیستم های پشتیبانی تصمیم گیری (DSS)
" سیستم های پردازش زنده (Online) اطلاعات

این دو دسته هر یک راه های کاملا متفاوتی را جهت حل مسائل تجاری ارائه می کنند. قبل از آنکه به ارزش انباره های داده پی ببریم لازم است تفاونهای این دو را بشناسیم.
سیستم های OLTP در کلیه خدمات بازرگانی دیده می شوند از جمله سیستم های رزرواسیون، دستگاه های فروش ، کنترل انبار، سهام و فروش و ... . این سیستم ها غالبا به زمان پاسخی بین 1 تا 3 ثانیه در 100 در صد اوقات نیاز دارند. تعداد کاربران آنها در ساعات مختلف روز ، هفته و ماه می تواند بشدت متغیر باشد و درتمامی این اوقات به همان زمان پاسخ قبلی نیاز دارند. در این گونه سیستم ها معمولا مخدومین بجای ارتیاط با بانکهای اطلاعاتی(Database Servers) به خادمین تعاملی (Transaction Servers) متصل می شوند. البته این گونه ارتباط لازمه دستیابی به سرعت مورد نیاز مخدومین (Clients) است.
OLTP خود نیز به دو نوع عادی (Light) و قوی (Heavy) تقسیم می گردد. خادمین عادی قادرند تعامل را در غالب پردازش های ثبت شده در بانک اطلاعاتی (Stored Procedures) به اجرا بگذارند و خادمین قوی از (TP Monitor) برای اجرای دستورات استفاده میکنند.در OLTP برای دستیابی به سرعت، سربار ارتباطی شبکه ها در حداقل ممکن نگاه داشته می شود و غالبا ارتباطات در حد انتقال یک دستور (SQL) سیکوئل هستند.
امروزه حتی کوچکترین تجارتها هم قادرند بسرعت پایگاه های اطلاعاتی بزرگی با جمع آوری اطلاعات صندوق های فروش ایجاد کنند چه رسد به وب سرور ها که می توانند ظرف مدت بسیار کوتاهی چندین گیگا بایت اطلاعات جمع آوری نمایند.
زمانی برای هر کار مکانیزه ای نیاز به میلیونها پول و ده ها متخصص بود . اما امروزه هر کسی بسادگی با خرید چند کامپیوتر شخصی و استخدام یک برنامه نویس می تواند از امکانات رایانه ای بهره مند گردد. بعبارت دیگر دسترسی به خدمات رایانه ای برای ایجاد پایگاه های خصوصی از داده ها برای همگان آسانتر شده است.

در مجموع داده هایی که توسط سیستم های OLTP جمع آوری می شود مستقیما مورد استفاده افراد ایجاد کننده آن قرار دارد. آنها دقیقا می دانند این داده ها چیستند و همچنین می دانند چگونه نیاز های اطلاعاتی لحظه ای خود را که بطور روزمره بوجود می آید حل کنند.
سوالی که مطرح است اینست که اگر کسی خارج از مجموعه OLTP به این اطلاعات نیاز داشته باشد چه باید کرد. این افراد از کجا می دانند چه داده ای موجود است؟ کجا بایستی آنرا پیدا کرد و چگونه به آن دسترسی پیدا کنند؟ داده ها به چه شکلی (Format) است ؟ چه معنایی دارد؟ آخرین چیزی که افراد OLTP به آن رضایت خواهند داد آنست که اجازه دهند دیگران به اطلاعات گرانبهای آنان دسترسی داشته باشند. کسانی که حتی نمی دانند چه می خواهند، درخواستهای سیکوئل زمانگیری را بر روی بانکهای اطلاعاتی اجرا می کنند که سرعت و قابلیت سیستم تولید کننده داده ها را پایین می آورد.
در گذشته افراد بیرون از سیستم ، از همکاران MIS خود می خواستند با همکاران مشابه خود در سیستم مربوطه تعامل داشته و نهایتا اطلاعات مورد نظر را از سیستم استخراج نمایند. اما امروزه حتی مجموعهMIS خود هم بدرستی نمی داند چه اطلاعاتی در سازمان موجود است. اطلاعات بشدت توزیع شده و پراکنده است و تقریبا روی هر کامپیوتری بخشی از اطلاعات سازمان وجود دارد.
یکی از ویژگیهای کامپیوتر های شخصی و همچنین معماری خادم/مخدوم موجب شده است که افراد اکثرا به اطلاعات سازمانی و کاربرد اطلاعات در سازمان علاقه ای نداشته و ترجیح می دهند اطلاعات را تحت مالکیت شخصی اداره کنند به این ترتیب بین اطلاعات سازمان و شخصی (یا واحد های متشکله) شکاف وجود خواهد داشت. از طرف دیگر بین داده های سیستمی و اطلاعات استخراج شده نیز شکاف دیگری مشاهده می شود. کسانی که از بیرون به این اطلاعات نگاه می کنند افرادی هستند که بدنبال یافتن طرحها، روالها و تمایلات در داده ها هستند بطوریکه بتوانند تصمیمات بهتری بگیرند. تنیدن حصار بدور اطلاعات بمعنی تنیدن حصار در برابر تجارت دیگران است و خیلی زود همگان بازنده جنگ این حصارها خواهند بود.

چگونه اطلاعات را در اختیار داریم اگر بدیگران اجازه دسترسی به آنرا بدهیم.
سوالات زیادی مطرح هستند که بایستی پاسخ داده شوند و از آن جمله اند:
چگونه مطمئن شویم که عملکرد بیرونی ها (غریبه ها) عملکرد سیستم ما را کند نمی کند؟
چه اطلاعاتی را بایستی در اختیار بیرونی ها قرار دهیم؟
چه اطلاعاتی درونی و شخصی (فقط مربوط به سیستم تولید کننده داده) است؟
چه کسی مالک اطلاعات به اشتراک گذاشته شده است؟
چه کسی این اطلاعات را بروز میکند؟
آیا بایستی بگذاریم دسترسی به اطلاعات مستقیم باشد یا آنرا در بانک دیگری کپی کنیم؟
اطلاعات استخراج شده چگونه نگهداری شده و چگونه بروز می شود؟

برای پاسخ به سوالات فوق بایستی نیاز های استفاده کنندگان از این اطلاعات را بشناسیم و تفاوتهای میان سیستمهای پشتیبان تصمیم گیری و OLTP را درک کنیم.

چه کسانی از این داده ها استفاده میکنند؟

بیایید نامی برای این دسته از افراد انتخاب کنیم. این افراد مصرف کنندگان اطلاعات هستند( کسانی هستند که تصمیمات استراتژیک می گیرند) فعلا نام این افراد را شکارچی اطلاعات می گذاریم چون این نام معرف هر کسیست که به یکPC دسترسی دارد و نیازمند اطلاعات است. البته بازرگانان و صنعتگران اولین دسته از این افراد هستند

سیستم پشتیبانی تصمیم گیری چیست؟

یک سیستم کارآمد، ابزاریست برای تحلیل داده ها ، یافتن ارتباط بین داده ها، تولید گزارش های کارآمد، دسترسی منعطف به داده ها، راهکار های نمایش اطلاعات در انواع ممکن، قابلیت پاسخ به سوالات اگر ... چه ، چاپ اطلاعات،انتقال داده ها به صفحات گسترده .
در مقایسه با سیستم های تولید داده، این ابزارها از انعطاف بیشتری در زمان پاسخگویی برخوردار هستند. معمولا کنترل یکپارچگی در آنها رعایت نشده است و قابلیت دسترسی همزمان کاربران به آن غالبا محدود است. جستجوی اطلاعات و یا بروز رسانی اطلاعات غالبا بمعنی پردازش روی تمامی اطلاعات خواهد بود. این برنامه ها برای غیر برنامه نویسان تهیه شده و بیشتر فعالیت ها در آن از طریق نشان بده و کلیک کن (Point and Click) انجام می شود.

Kamyar.Kimiyabeigi

شنبه 09 تیر 1386, 07:57 صبح

قسمت سوم

سیستم های اطلاعات مدیران اجرایی (Executive Information Systems)

این دسته از برنامه ها از ابزارهای DSS قوی تر، ساده تر و کار آمدتر هستند. همچنین به یک زمینه تجاری خاص نزدیکتر و طبیعتا گرانتر هم هستند. البته اختلاف بین DSS و EIS بتدریج کم رنگ شده است. ابزارهای EIS بتازگی دامنه عمل خو.د را گسترش داده و در سطح سازمان (Enterprise) خود را مطرح کرده اند بطوریکه مدیران و تحلیلگران نیز از این ابزار ها استفاده می کنند
.ابزارهای DSS/ESS بطور خلاصه ابزارهای ((OLAP Online Analytical Processing یا ابزارهای ((MDA Multidimensional Analysis نامیده می شوند و در لایه های بالاتر به آنها ابزارهای داده کاوی (Data Mining) و کارآگاهان شخصی (Intelligent Agent) گفته می شود.

مقایسه سیستم های DSS و OLTP

در جدول زیر تفاوت های دو نوع سیستم DSS و OLTP را می بینیم:
قابلیت نیاز بانک اطلاعاتی OLTP نیاز بانک اطلاعاتی DSS
چه کسی از آن استفاده می کند کارکنان سیستم تولید کننده اطلاعات شکارچی اطلاعات
ارزش زمانی اطلاعات به مقدار فعلی اطلاعات نیاز دارد و گزارش ها قابل باز سازی نیستند به اطلاعات پایدار نیاز دارد . اطلاعات هر از گاه به وقت می شوند. گزارش ها قابل بازسازی هستند
تعداد دسترسی ها به اطلاعات پیوسته در طول روز کاری با نقاط پیک کاری هر از گاه شکل داده خام است. استخراج و تبدیلی صورت نگرفته در چندین لایه تبدیل صورت گرفته است. استخراج و فشرده سازی داده ها انجام شده و جمع آوری داده ها از یک برنامه از چندین محل داخلی و خارجی
آیا محل تولید داده مشخص است بلی: بیشتر داده توسط یک برنامه تولید می شود خیر: از برنامه های مختلف و بانک های اطلاعات و وب می آید
آیا اطلاعات نگارش بندی شده هستند خیر: داده ها پیوسته و در یک نگارش هستند بلی: هر مجموعه از داده دارای تاریخ برداشت است
نوع دسترسی به داده چندین کاربر اطلاعات را به وقت می کنند بیشتر اوقات یک کاربر
آیا داده قابل به وقت رسانی است مقدار کنونی مدام در حال تغییر است فقط خواندنیست
انعطاف در دسترسی انعطاف ندارد. فقط از طریق برنامه ها ممکن است. منعطف از طریق یک تولید کننده درخواست و OLAP
راندمان سرعت پاسخ بالا مورد نیاز است. فعالیت ها همگی مکانیزه و سریع نسبتا کند
نیازهای اطلاعاتی بخوبی فهمیده شده اند ناپایدار و نسبی. به مقدار زیادی کار کشف و تحقیق و جستجوی موضوعی نیاز است.
دامنه اطلاعات محدود. آن چیزی که در بانک موجود است داده ها ممکن است از هر جایی بیایند
رکورد های پردازش شده کمتر از 10 رکورد صدها / هزاران و میلیونها رکورد

انباره داده (Data warehouse)

در محیط خادم/مخدوم انباره داده یعنی انباره (Repository) اطلاعات برای مصرف سیستم های پشتیبانی تصمیم گیری.انباره داده بک مخزن فعال و هوشمند از اطلاعات است که قادر است اطلاعات را از محیط های گوناگون جمع آوری و مدیریت کرده و نهایتا پخش نماید و در صورت لزوم نیز سیاست های تجاری را روی آنها اجرا نماید.

عناصر انباره داری

انباره یک محل است و انباره داری یک فرآیند. این فرآیند از عناصر زیر تشکیل شده است :
1. مدیریت انتشار اطلاعات انباره که وظیفه نسخه برداری و توزیع اطلاعات را بر روی بانک های مختلف (آنگونه که شکارچی اطلاعات تعریف می کند) به عهده دارد. شکارچی اطلاعاتی را که بایستی کپی شود، مبدا و مقصد اطلاعات، تعداد بوقت رسانی ها و تبدیلات لازم روی اطلاعات را تعریف می کند. اصطلاح تازه سازی (Refresh) بمفهوم کپی کامل آخرین وضعیت اطلاعات و اصطلاح بوقت رسانی (Update) بمفهوم اعمال آخرین تغییرات بکار گرفته شده اند. همه کارها می تواند بصورت خودکار و یا دستی انجام پذیرد. اطلاعات ممکن است از بانکهای رابطه ای و غیر رابطه ای تهیه شود. توجه کنید که کلیه اطلاعات خارجی قبل از ورود به سیستم، تبدیل شده و پاک سازی می شوند.

2. بانک اطلاع رسانی یک بانک اطلاعاتی رابطه ایست که وظیفه سازماندهی و ذخیره نمودن یک نسخه از اطلاعات و همچنین تبدیلات و جمع بندی و افزودن ارزش به اطلاعات حاصله از منابع مختلف و با فرمت های مورد نظر بعهده دارد. نگهداری فراداده (اطلاعات در مورد اطلاعات) نیز به عهده این بانک است . فراداده های سیستمی روابط بین جداول و ایندکس ها و غیره را بیان می کنند و فراداده های محتوایی (semantic) ارزش اطلاعات را برای یک شکارچی اطلاعات روشن می سازند.
3. راهنمای اطلاعات (Informational Directory) ترکیبی از یک راهنمای فنی و راهنمای تجاری و یک پویشگر اطلاعات است. هدف اصلی این راهنما کمک به شکارچی برای دانستن محل وجود اطلاعات ،شکل آن و روش دسترسی به آن است
4. پشتیبانی ابزارهای DSS/EIS از طریق انواع دستورات SQL انجام می گیرد. بسیاری از فروشندگان پروتکل ODBC و سایرین انواع دیگر پروتکل ها را سرویس می دهند.

(سلسله مراتب انباره ها )غرفه های داده (Data Marts)

انواع کوچکتری از انباره های داده هستند. در عمل غرفه های داده دپارتمانی و غرفه های داده همراه (mobile) از ابتدا برنامه ریزی نمی شوند بلکه ابتدا بوجود آمده و در صورت موفقیت تکثیر شده و در نهایت مدیر بانک اطلاعاتی سازمان ممکن است بتواند یک فدراسیون آزاد از این غرفه ها تشکیل دهد و نهایتا یک انباره داده را پایه گذاری نماید.
ابزارهای DSS/EIS از خواسته ها (Queries) تا تحلیل زنده (OLAP) و تا داده کاوی (Data Mining)

ابزارهای گزارش گیری

ابزارهای تحلیل داده و خواسته پردازها بما اجازه ساختن یک دستور سیکوئل را می دهند بدون آنکه مجبور باشیم برنامه ای بنویسیم یا سیکوئل یاد بگیریم. با چند نشانه و کلیک عبارت های سیکوئل مناسب برای گرد آوری اطلاعات و نمایش آن بشکل یک گراف / جدول و یا گزارش آماده می شود. ابزارهای برجسته تر در این زمینه امکان کنترل میزان نتایج برگشته از یک خواسته را می دهند و به این ترتیب می توان جلوی درخواستهایی را که ممکن است میلیونها رکورد را برگردانند گرفت. در سال 1998 بیش از 150 نوع از این ابزارها در بازار وجود داشته است که Microsoft Access, Oracle Reports, Business Objects از آن جمله اند.

Kamyar.Kimiyabeigi

یک شنبه 10 تیر 1386, 08:18 صبح

قسمت چهارم (قسمت آخر)

OLAP و اطلاعات چند بعدی

به ساختار OLAP مثل یک مکعب روبیک از داده ها نگاه کنید که می توانید آنرا در جهات مختلف بچرخانید تا بتوانید سناریو های "قبلا چه شده" و "چه می شد اگر ..." را بررسی کنید.
این ابزارها دیدگاههای چند بعدی از داده ها را توسط بانکهای اطلاعاتی دو بعدی (و یا بانکهای خاص چند بعدی) تولید کرده و در اختیارمان می گذارند. توان دسترسی چند بعدی به داده ها در OLAP قدرت فرموله کردن خواسته های پیچیده تر را بما می دهد.
برای سادگی فرض کنید OLAP یک صفحه گسترده با چند محور است (در صفحات گسترده متعارف فقط دو محور افقی با اختصار A, B, C, … و عمودی با ایندکس های 1و2و3,… داریم) در این صورت مثلا می توانیم اطلاعات فروش یک سازمان را از دیدگاه های منطقه فروش، تاریخ، مشتری، فروشگاه، قیمت و میزان فروش بررسی کنیم. و پاسخ سوالاتی نظیر میزان فروش به ازای یک محصول و فروشگاه در یک ماه مشخص را خواهیم داشت.
مدل چند بعدی OLAP طریقه نمایش دادن داده ها را در مقایسه با بانک های اطلاعاتی رابطه ای تسهیل می کند.ROLAP با ایجاد یک لایه محافظ روی یک بانک اطلاعاتی رابطه ای سرویس فوق را ارائه میدهد. از دیدگاه فنی OLAP فقط راهی برای ذخیره سازی و محاسبه اطلاعات چند بعدی برای پاسخوگویی به سناریوهای کاربر است. یک خادم OLAP، داده ها را از پیش روی چندین محور جمع می زند. توجه کنید که اطلاعات قبل از وارد شدن به OLAP بایستی پاک سازی شوند . غالبا OLAP داده ها را از یک انباره داده استخراج می کند.

ابزارهای OLAP را به چند دسته تقسیم می کنند:

OLAP رو میزی:

ابزارهای ساده و مستقل که روی کامپیوتر های شخصی نصب شده و مکعب های کوچکی می سازند و آنها را نیز بر روی سیستم به شکل فایل ذخیره می کنند. بیشتر این ابزارها با صفحات گسترده ای نظیر Excel کار می کنند.به این ترتیب کسانی که در سفر هستند قادر به استفاده از این دسته از محصولات هستند.(در حال حاضر Web OLAP در حال جایگزین کردن این محصولات است)

MOLAP چند بعدی

بجای ذخیره کردن اطلاعات در رکورد های کلید دار، این دسته از ابزارهای بانکهای اطلاعاتی خاصی را برای خود طراحی کرده اند بطوریکه داده ها را به شکل آرایه های مرتب شده بر اساس ابعاد داده ذخیره می کنند (Hypercube) در حال حاضر نیز دو استاندارد برای این تیپ ابزار وجود دارد. سرعت این ابزار بالا ولی سایز بانک اطلاعاتی آن نسبتا کوچک است.

OLAP رابطه ای (ROLAP)

این ابزارها با ایجاد یک بستر روی بانکهای رابطه ای اطلاعات را ذخیره و بازیابی می کنند. بطوریکه اساس بهینه سازی برخی بانکهای اطلاعاتی رابطه ای مانند Red Brick, Micro Strategyبر همین اساس استوار است.
اندازه بانک اطلاعاتی این ابزار قابل توجه می باشد.

Hybrid OLAP (HOLAP)

در اینجا منظور از hybrid ترکیبی از ROLAP و MDBMS (طرح شده در MOLAP) است
ابزار دارای بانک اطلاعاتی بزرگ و رادمان بالاتر نسبت به ROLAP می باشد.

استانداردهای OLAP

جامعه OLAP با دو استاندارد مواجه است، از یک طرف گروه OLAP با استاندارد MD-API و از طرف دیگر Microsoft با استاندارد OLE DB for OLAP Tensor)) اولی از حمایت Oracle و دومی از حمایت فروشندگان کوچکتری برخوردار است که امیدوارند فروش MS-SQL7 برنامه های آنان را در ابعاد فروش ویندوز مطرح کند.

داده کاوی(Data Mining)

ابزارهای داده کاوی با جستجوی حجم عظیم داده های ما می توانند تکه طلای کوچکی را که در گوشه ای پنهان شده بیابند.
بازگشت هزینه صرف شده در این ابزارها غالبا بسیار سریع است. مثلا در بررسی داده های یک واحد از یک فروشگاه متوجه شدند که میزان سرقت حین فروش از باتریها و فیلمها و قلم های با قیمت متوسط ماهانه حدود 60000 دلار برای فروشگاه هزینه داشته است که به این ترتیب با جابجاکردن اقلام و قرار دادن در قسمتهای با دید بهتر سالانه حدود 700000 دلار صرفه جویی بدنبال داشته است.
ابزارهای داده کاوی بدنبال طرحها و گروه بندی هایی در داده ها می گردد که ممکن است از دید ما پنهان مانده باشد. ابزار تقریبا از کاربر هیچ کمکی نمی گیرد. بر خلاف ابزارهای OLAP که استفاده کنندگان راهنما و سازمان دهنده اطلاعات هستند در داده کاوی این ابزار است که استفاده کننده را هدایت می کند. ابزار فرض می کند که شما خود نیز دقیقا نمی دانید که چه می خواهید. بیشتر این ابزار ها از روش های جستجوی زیر استفاده میکنند:
1- ارتباطات که اصطلاحا تحلیل سبد بازار خوانده می شود. ابزار بدنبال اثبات این موضوع است که وجود چیزی بمعنی وجود چیز دیگریست. مثلا بیشتر خریداران لوازم غواصی به تعطیلات تابستانی در استرالیا می روند. یا مصرف کننده یک کالای مشخص مصرف کرده خریدار کالای دیگری نیز هست.
2- ارتباطات متوالی ابزار بدنبال روابط متوالی بین موضوعات می گردد مثلا وقتی قیمت طلا 10 درصد بالا می رود یک هفته بعد قیمت سهام 15 درصد پایین می آید.

3- دسته بندی بدنبال دسته بندی و طبقه بندی سطح بالای اطلاعات هستند. مثلا 70 درصد رای دهندگانی که تصمیم نگرفته اند به که رای دهند درآمدی بالای 60000 دلار دارند بین 40 تا 50 سال سن دارند و در منطقه X اقامت دارند.
اگر اطلاعات جدول زیر در یک گراف دو بعدی به تصویر در آید متوجه می شویم که بنظر می رسید افراد بین 23 تا 29 به مکزیک و بین 30 تا 51 به کانادا سفر می کنند
سن مشتری کشوری که به آن سفر کرده
23 مکزیک
45 کانادا
32 کانادا
47 کانادا
46 کانادا
34 کانادا
51 کانادا
28 مکزیک
49 کانادا
29 مکزیک
26 مکزیک
31 کانادا
یک نکته جالب دیگر که بسادگی قابل دیدن نیست آنست که افراد بین 35 تا 44 اصلا سفر نمی کنند بعبارت دیگر دو دسته آدم به کانادا سفر می کنند آنها که بین 30 تا 34 و آنها که بین 45 تا 51 سال سن دارند. گروه بندی در این مجموعه اطلاعات کوچک و دو بعدی بسادگی قابل رویت است . چنانچه ابعاد اطلاعات و حجم آن افزایش یابد موضوع به سادگی گذشته نخواهد بود. گفتنی است تعداد نمونه ها، تعداد ستونهای اطلاعاتی و مقادیری که هر یک از ستونها می گیرند در سرعت پردازش داده کاوی موثر هستند. مثلا برای پردازش 1000000 نمونه با 200 ستون اطلاعاتی که هر یک می توانند 25 مقدار مختلف به خود بگیرند به حدود 2 ساعت وقت نیازاست .
این ابزار ها در زمینه های مختلف کاربرد یافته اند.از جمله محققین بهداشت برای کشف میزان موفقیت جراحیها . بانکها برای ارزیابی اعتبار مشتریان، بورس بازان برای تشخیص جابجایی قیمتهای سهام و تشخیص طرحهای تجاری ، شرکتهای بیمه برای تشخیص ریسک مشتریان و رفتارهایشان و هتل ها برای تشخیص مشتریان بازگشتی خود از آن استفاده میکنند. همانطوریکه بنظر می آید ابزارهای داده کاوی از مجموعه ابزارهای یک رده بالاتر هستند که استفاده های قابل توجهی برای آنها در صنعت قابل تصور است.

برخی از انواع تجاری این ابزار عبارتند از :
Intelligent Miner, Darwin, Mindset, Knowledge Studio, Data Mind, Clementine
, …

کارآگاهان شخصی

این مامورین برنامه های قابل حملی هستند که با اتصال به انباره های داده اطلاعات مورد نیاز را استخراح کرده و به کارفرمایان خود اطلاع می دهند. در حال حاضر این ابزارها بر اساس قوانین تعریف شده از طرف کارفرمای خود به جستجوی تغییرات در اطلاعات رفته و در صورت مشاهده تغییر پیغام مناسب را می دهند.
هنوز کار های زیادی در این قسمت بایستی صورت پذیرد که از آن جمله اند :
درک داده ها بر اساس دانش درون ابزار (هوشمند شدن)، درک علائق کارفرما و جستجو دربانکهای اطلاعاتی مختلف برای اعلام تغییرات به کارفرما.
برنامه های کاریابی روی اینترنت با توجه به رزومه کاربر و یا برنامه های همسر یابی با توجه به مشخصات. برنامه هایی که تغییرات را در سایتهای Microsoft و سایر شرکتها اعلام می کنند و .... مثالهای ساده ای از این نوع برنامه ها هستند.

Kamyar.Kimiyabeigi

یک شنبه 10 تیر 1386, 09:12 صبح

اینم فایل pdf مربوط به این مقاله