داده کاوی
در دنیای کسب و کار ، داده های شرکت ها و مشتریان به عنوان یکی از سرمایه های استراتژیک آنها مطرح هستند. توانایی استخراج دانش واطلاعات مفیدموجود در این داده ها و امکان استفاده از این دانش در جهان رقابتی امروز ، بسیار حائز اهمیت است. به کل فرآیند به کارگیری یک متدولوژی برمبنای کامپیوتر ، که شامل تکنیک های جدید برای کشف دانش از داده ها می باشد ، داده کاوی گفته می شود.
دو هدف اصلی داده کاوی ، پیشگویی و توصیف هستند. پیشگویی شامل بکارگیری بعضی از متغیرها یا فیلدها در مجموعه داده ها برای پیشگویی مقادیر ناشناخته یامقادیر آینده متغیرهای دیگرمی باشد. از سوی دیگر ، توصیف ، برروی یافتن الگوهای توصیف داده هاکه توسط انسان قابل تفسیر باشند، تاکیددارد. بنابراین ، می توان فعالیت هایداده کاوی را در دو گروه زیر طبقه بندی نمود :
در انتهای طیف پیشگویی، هدف داده کاوی ایجاد مدلی است که به صورت یک برنامه و کداجرایی می باشد و می تواند برای دسته بندی ، پیشگویی ، برآورد و دیگر اعمال مشابه مورد استفاده قرارگیرد. از طرف دیگر در انتهای طیف توصیف ، هدف ، بدست آوردن یک درک و شناخت از سیستم تحلیل شده از طریق کشف الگوها و روابط آشکار در مجموعه داده های بزرگ می باشد. اهمیت نسبی پیشگویی و توصیف برای کاربردهای خاص داده کاوی ، می تواند به طور قابل ملاحظه ای متفاوت باشد. در بخش های آینده راجع به تکنیک ها و روشهای داده کاوی توضیحات کاملتری ارائه خواهد شد :
دسته بندی : کشف یک تابع یادگیری پیشگویانه که بتواند یک آیتم داده ای را در یکی از دسته های از قبل تعیین شده قرار بدهد.
رگرسیون : کشف یک تابع یادگیری پیشگویانه که بتواند یک آیتم داده ای را به یک متغیر پیشگو با مقدار حقیقی نگاشت کند.
خوشه بندی : یک وظیفه توصیفی که طی یک جستجو ، مجموعه متناهی از خوشه ها را برای توصیف مجموعه داده ها تعیین می کند.
خلاصه سازی : یک وظیفه توصیفی که شامل روشهایی برای یافتن یک توصیف فشرده از داده ها یا زیرمجموعه ای از داده ها می باشد.
مدلسازی وابستگی : یافتن یک مدل محلی که وابستگی های مهم بین متغیرها یا بین مقادیر یک ویژگی در مجموعه داده ها یا بخشی از مجموعه داده ها را توصیف نماید.
تشخیص تغییر و انحراف : یافتن تغییرات مهم در مجموعه داده ها.
موفقیت عملیات داده کاوی به میزان تلاش ، دانش و خلاقیتی که طراح به کار می برد بستگی دارد. در حقیقت داده کاوی شبیه حل یک معما یا پازل است. قطعات پیچیده پازل به تنهایی ساختار پیچیده ای ندارند ، در عین حال به عنوان یک مجموعه می توانند سیستم های بسیار پیچیده ای را ایجاد کنند.
خوشه بندی : یک وظیفه توصیفی که طی یک جستجو ، مجموعه متناهی از خوشه ها را برای توصیف مجموعه داده ها تعیین می کند.
خلاصه سازی : یک وظیفه توصیفی که شامل روشهایی برای یافتن یک توصیف فشرده از داده ها یا زیرمجموعه ای از داده ها می باشد.
مدلسازی وابستگی : یافتن یک مدل محلی که وابستگی های مهم بین متغیرها یا بین مقادیر یک ویژگی در مجموعه داده ها یا بخشی از مجموعه داده ها را توصیف نماید.
تشخیص تغییر و انحراف : یافتن تغییرات مهم در مجموعه داده ها.
موفقیت عملیات داده کاوی به میزان تلاش ، دانش و خلاقیتی که طراح به کار می برد بستگی دارد. در حقیقت داده کاوی شبیه حل یک معما یا پازل است. قطعات پیچیده پازل به تنهایی ساختار پیچیده ای ندارند ، در عین حال به عنوان یک مجموعه می توانند سیستم های بسیار پیچیده ای را ایجاد کنند.
داده کاوی یکی از سریعترین فیلد های در حال رشد در صنعت کامپیوتر است. زمانی که یک زمینه کوچک و موردعلاقه در رشته کامپیوتر یا آمارگشوده می شود ، به سرعت پیشرفت نموده و به یک فیلد کاری گسترش می یابد. یکی از مهمترین توانایی های داده کاوی ، تاثیرگذاری آن بر روی دامنه وسیع متدولوژی ها و تکنیک هایی می باشد که می توانند برای مجموعه مسائل متفاوتی مورد استفاده قرار گیرند.
با توجه به اینکه داده کاوی شامل همه فعالیت های انبارسازی داده ها ، مراکز داده اختصاصی و پشتیبانی تصمیم می شود ، صنایعی مانند خرده فروشی ، ساخت ، ارتباطات، بهداشت عمومی ، بیمه و حمل و نقل را به صورت حرفه ای دربر می گیرد. است. در بحث کسب وکار از داده کاوی می توان برای کشف روشهای جدید خرید ، استراتژی های سرمایه گذاری و تشخیص هزینه های غیرمجاز در سیستم حسابداری استفاده نمود.داده کاوی می تواند رقابت را در عرصه بازاریابی بهبود بدهد و موجبات حمایت و رضایت مشتریان را فراهم نماید.
پایه های اصلی داده کاوی بر دو اصل آمار و یادگیری ماشین استوار است. آمار نیز ریشه در ریاضیات و منطق داشته و بنابراین داده کاوی نیز علاوه بر آمار ریشه در این دو علم دارد. در مقابل یادگیری ماشین نیز علمی کامپیوتری است که اصول آن را در هوش مصنوعی می توان یافت. تضادی که در اینجا رخ می نماید این است که آمار به دلیل طبیعت ریاضی خود متمایل به فرموله کردن مسائل و مدلسازی است، درحالیکه یادگیری ماشین مسائل را با استفاده از الگوریتم ها حل می کند. اینجاست که بطور ظریفی باید نسبت به ترکیب این دو علم برای استفاده آنها در داده کاوی اقدام کرد. داده کاوی رویه های تحلیلی را درزمینه های آمار، ریاضیات و تئوری اقتصاد پیوند می زند.
با وجود ارتباط میان داده کاوی و آمار، تفاوتهای اساسی میان این دو علم وجود دارد. آمار یک علم تاییدی است؛ یعنی کوشش دارد مفروضاتی را با استفاده از تکنیک های مختلف تصدیق یا رد کند، درحالیکه داده کاوی یک علم اکتشافی است، بدین معنی که سعی در کشف الگوهای دانشی از داده های موجود دارد.
از سوی دیگر آمار استنتاجی از نمونه های کوچک و بسط آنها به جامعه استفاده می کند و ماهیتا توان پردازش نمونه های بزرگ را ندارد در حالیکه در داده کاوی از نمونه های بسیار بزرگ و حتی خود جامعه استفاده می شود ، زیرا این تکنولوژی از روش های پیشرفته کامپیوتری استفاده کرده که به آن توان پردازش بالایی را می دهد ، و نهایتا آمار فقط می تواند نمونه را به جامعه ای که از آن انتخاب شده بسط دهد در حالیکه در داده کاوی نمونه ها به دسته ای از جوامع بسط داده می شوند.
داده کاوی علاوه بر علوم فوق به خاطر استفاده از اصول اساسی مدلسازی از تئوری کنترل نیز استفاده می کند. این تئوری عموما در سیستم های مهندسی و فرآیندهای صنعتی مورد استفاده قرار می گیرد. بنابراین داده کاوی یک تکنولوژی چندشاخه ای است و برای استفاده موثر از آن باید از علوم تشکیل دهنده آن شناخت کافی داشت. البته زمانی که بخواهیم از داده کاوی برای مقاصد نوآورانه و خلاقانه تر استفاده کنیم، نیاز به این شناخت به مراتب عمیق تر می شود.
همانگونه كه واضح و مشخص است با گذشت زمان علم نیز پیشرفت می كند، هر چه به جلوتر می رویم روشهای جدیدتر و بهتر مورد استفاده قرار می گیرند، علم امروز نسبت به دیروز جدیدتر است .روشهای جدید علمی در پی كشف محدودیتهای روشهای قدیمی ایجاد می شوند و از آنجایی كه روش های آماری جزء روشهای قدیمی محسوب می شوند، در بعضی از موارد دارای محدودیت می باشند.
داده كاوی به صورت یك محصول قابل خریداری نمی باشد، بلكه یك رشته علمی و فرآیندی است كه بایستی به صورت یك پروژه پیاده سازی شود. داده ها اغلب حجیم می باشند و به تنهایی قابل استفاده نیستند، بلكه دانش نهفته در داده ها قابل استفاده می باشد. بنابراین بهره گیری از قدرت فرآیند داده كاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت كشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود .
همانگونه كه واضح و مشخص است با گذشت زمان علم نیز پیشرفت می كند، هر چه به جلوتر می رویم روشهای جدیدتر و بهتر مورد استفاده قرار می گیرند، علم امروز نسبت به دیروز جدیدتر است .روشهای جدید علمی در پی كشف محدودیتهای روشهای قدیمی ایجاد می شوند و از آنجایی كه روش های آماری جزء روشهای قدیمی محسوب می شوند، در بعضی از موارد دارای محدودیت می باشند.
داده كاوی به صورت یك محصول قابل خریداری نمی باشد، بلكه یك رشته علمی و فرآیندی است كه بایستی به صورت یك پروژه پیاده سازی شود. داده ها اغلب حجیم می باشند و به تنهایی قابل استفاده نیستند، بلكه دانش نهفته در داده ها قابل استفاده می باشد. بنابراین بهره گیری از قدرت فرآیند داده كاوی جهت شناسایی الگوها و مدلها و نیز ارتباط عناصر مختلف در پایگاه داده جهت كشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود .
پایه و اساس داده كاوی به دو مقوله آمار و هوش مصنوعی مربوط است، كه روشهای مصنوعی به عنوان روشهای یادگیری ماشین در نظر گرفته می شوند. فرق اساسی بین روشهای آماری و روشهای یادگیری ماشین بر اساس فرضها و یا طبیعت داده هایی كه پردازش می شوند، است. بعنوان یك قانون كلی فرض تکنیک های آماری بر این اساس است كه توزیع داده ها مشخص است كه بیشتر موارد فرض بر این است كه توزیع نرمال است و در نهایت درستی یا نادرستی نتایج نهایی به درست بودن فرض اولیه وابسته است. در مقابل روشهای یادگیری ماشین از هیچ فرضی در مورد داده ها استفاده نمی كنند و همین مورد باعث تفاوتهایی بین این دو روش می شود.
با توجه به این امر که داده کاوی فرآیند اکتشاف مدل های گوناگون، خلاصه ها و ارزش های نشات گرفته از مجموعه خاصی از داده هاست ، برای پیاده سازی چنین فرآیندی باید از متدولوژی خاصی استفاده کرد.دراین راستا متدولوژی فرآینداستاندارد میان صنعتی داده کاوی ایجاد شد. این متدولوژی روشی توانمند و منعطف جهت ارتقای شایستگی داده کاوی در حل مسائل سازمانی می باشد. با توجه به این روش، یک پروژه داده کاوی چرخه عمری متشکل از شش گام دارد.این گام ها بصورت تکراری در تمام فرآیند داده کاوی بکار گرفته می شوند. گام های متدولوژی داده کاوی crisp عبارتند از :
1- گام درك موقعیت کسب و کار
2- گام درك داده ها
3- گام پیش پردازش داده ها
4- گام مدلسازی
5- گام ارزیابی مدل و استنتاج مدل
6- گام به کارگیری
گام اول : درك موقعیت کسب و کار
این گام که در ادبیات داده کاوی به گام «درک مساله» نیز معروف است شامل مراحل زیر می باشد:
1- تعیین اهداف و نیازمندی های پروژه در قالب مفاهیم و واژگان کسب و کار.
2- ترجمه اهداف، محدودیتها ونیازمندیهای ذکر شده درقالب فرمولها وتعاریف داده کاوی.
3- تعیین یک استراتژی اولیه برای دستیابی به اهداف فوق.
به منظور داشتن درکی موفق از مساله، معمولا تجربه و توانمندی در حیطه یک دانش خاص لازم است. متاسفانه بسیاری از مطالعات کاربردی به جای تمرکز بر مساله، تمایل دارند بر تکنیک های داده کاوی تاکید کنند.در این گام، باید متخصص داده کاوی ، از توان و تجربه متخصص کسب و کار بهره مند گردد. البته در یک پروژه موفق داده کاوی این مشارکت در گام اولیه متوقف نخواهد شد، بلکه در سراسر فرآیند داده کاوی ادامه خواهد داشت.
گام دوم : درک داده ها
این گام بامراحل تولید وگردآوری داده ها در ارتباط است و خود شامل سه بخش به شرح ذیل می باشد:
2-1- جمع آوری داده ها
2-2- بکارگیری تحلیل اکتشافی داده ها برای دستیابی به یک دید اولیه
در بسیاری از موارد تحلیلگر، خصوصا زمانیکه با پایگاه های داده بزرگ و ناشناخته روبرو می شود، یک دید اولیه در خصوص روابط مورد انتظار بین متغیرها ندارد. در این موارد بیشتر تمایل به استفاده از تحلیل اکتشافی داده ها یا تحلیل گرافیکی داده ها می باشد
2-3- ارزیابی کیفیت داده ها
از آنجا که وجود دانش اولیه بر نوع مدلسازی و به تبع آن بر تعبیر نتایج حاصله تاثیر می گذارد، باید از صحت داده های مورد استفاده که از توزیعی نامشخص برخوردارند ، اطمینان حاصل کرد. اگر این امر صورت نگیرد، مدل تخمینی نمی تواند بطور موفقیت آمیز در یک برنامه کاربردی مورد استفاده قرار بگیرد.
گام سوم : پیش پردازش داده ها
پس از گردآوری داده ها باید خطاهای احتمالی موجود در آنها را از بین برده و تمیز نمود. چرا به پیش پردازش داده ها نیازمندیم؟ اکثر داده هایی که در پایگاه های داده ای وجود دارند و پیش پردازش نشده اند، ناقص و نویزدار هستند. و دارای مشکلات احتمالی زیر می باشند: مقادیر دور افتاده یا حدی، ارزش های گم شده ، صفات تکراری ، داده هایی که در فرم مناسب برای مدلسازی نیستند و داده هایی که با عقل سلیم جور در نمی آیند. برای این منظور در داده کاوی روش های مختلف تمیز کردن و تغییر شکل دادن داده ها ارائه گردیده است. از سوی دیگر در پروژه های داده کاوی که عموما بر داده های تاریخی تکیه دارند، داده ها شامل ارزشهای تاریخ گذشته ای هستند که دیگر ربط به موضوع اصلی ندارند.بنابراین هدف اصلی می تواند از میان بردن این مقادیر باشد. بطوریكه پایل در كتابش تخمین زده است پیش پردازش داده ها به تنهایی در 60 درصد از موارد نیاز است.
گام چهارم: مدلسازی
انتخاب و پیاده سازی تکنیک مناسب داده کاوی وظیفه اصلی این مرحله است. در عمل، چندین مدل بطور همزمان پیاده سازی شده و سپس بهترین آنها انتخاب می شود. در این گام است که از تکنیک های مختلف داده کاوی برای استخراج مدل ها استفاده می گردد و به تناسب حجم، طبیعت و رفتار هر داده یکی از این تکنیک ها می تواند بکار گرفته شود. شاید بتوان بطور خلاصه گفت که ماموریت اصلی کاوش داده ها به عهده این گام بوده و خروجی این گام الگوهای کاوش شده داده ای است. این گام شامل بخش های زیر است :
1- انتخاب و استفاده از تکنیک مدلسازی مناسب
2- دستکاری و تنظیم مدل برای دستیابی به نتایج بهینه
3- در صورت نیاز برگشت به گام پیش پردازش
گام پنجم: ارزیابی و استنتاج مدل
در این گام مدل یا مدل هایی که در گام مدلسازی مورد استفاده قرار گرفته اند از نظر کیفیت و اثربخشی مورد آزمون قرار می گیرند .در تمام موارد، مدل های داده کاوی باید به فرآیند تصمیم گیری کمک کنند. پس مدل زمانی مفید است که تفسیرپذیر باشد زیرا انسان ها مایل نیستند از اصول پیچیده در فرآیند تصمیم گیری جعبه سیاه مانند خود استفاده کنند. این گام نیز به بخش های زیر تقسیم می شود:
1- پاسخ های داده شده توسط مدل های گام قبل از نظر کیفیت و اثربخشی مورد آزمون قرار گیرند.
2- تخمین مجموعه خروجی های مدل و ارزیابی آن با اهداف اولیه.
3- مشخص نمودن جنبه هایی از مساله که تاکنون مورد توجه قرار نگرفته اند.
4- تصمیم گیری بر اساس نتایج حاصل از مدل های داده کاوی.
گام ششم : به کارگیری
یک مدل تا زمانی که در شرایط تجاری قرار نگیرد قدرت و ضعف خویش را نمایان نمی سازد. بنابراین باید مدل حاصله را در شرایط واقعی به کار برد. این گام نیز شامل بخش های زیر است :
1- استفاده از مدل خلق شده.
2- اخذ یک گزارش ساده.
3- اخذ گزارشات پیچیده تر.
: آماده سازی داده ها
كیفیت داده ها یكی از مفاهیم پیچیده و ساختار نیافته است. مساله مهم در كیفیت داده ها این است كه حل مسائل كیفیت داده ها نیاز به اطلاعات وابسته زیاد درحوزه مشخص دارد كه این اطلاعات حاصل تجربه كارشناسی است. تنها كارشناسان می توانند قوانین و جریان داده ها را به درستی تعیین كنند و تهیه چنین قواعدی یك مرحله اساسی در اعتبار سنجی داده می باشد. كیفیت داده ها فعالیتی پیوسته است كه از شروع جمع آوری داده ها تا آخرین مرحله تحلیل آنها ادامه دارد. نیاز به گسترش تعاریف متداول و معیارهای كیفیت داده ها، روزبه روز بیشتر احساس می شود و به این دلیل است كه فرآیند كیفیت داده ها و شاخص های مورد نیاز برای اندازه گیری موثر و نظارت بر كیفیت داده ها به طور مستمر مورد بررسی قرار می گیرد.
داده های اولیه و خام همیشه بهترین مجموعه داده های آماده شده برای کاوش داده ها نیستند. تغییر شکل ها یا در حقیقت تبدیلات بسیاری ممکن است برای تولید جنبه های مفیدتر برای روش های انتخابی داده کاوی ضروری باشد.
امروزه پایگاه های داده به علت حجم زیاد داده و ارتباط با منابع اطلاعاتی مختلف، در معرض وجود داده های ناهمگون ، مفقود و مغشوش می باشند. صاحب نظران علم داده کاوی، یکی از علل عمده کیفیت پایین نتایج حاصل از داده کاوی را، کیفیت پایین داده های ورودی و عدم توجه به مراحل آماده سازی داده ها می دانند. به وسیله تکنیک های آماده سازی داده، می توان کیفیت داده ها و در نتیجه کیفیت نتایج خروجی را افزایش داد. آماده سازی داده ها، یکی از مراحل مشکل و با اهمیت در کشف دانش و داده کاوی است.
مرحله آماده سازی داده ها در داده کاوی، فرآیند زمان بر و با اهمیتی است که حدوداً 60 تا 70 درصد زمان انجام کل فرآیند داده کاوی را به خود اختصاص می دهد. آماده سازی داده ها شامل پاکسازی داده ها ، تبدیل و یکپارچه کردن داده ها و تلخیص داده ها می باشد.
پا كسازی داده ها
داده های خام معمولا به صورت ناقص، مغشوش و متناقص هستند. فعالیت پاکسازی داده ها ، شامل تکمیل مقادیر مفقود، هموارسازی داده های مغشوش، شناسایی و حذف نقاط دور افتاده و برطرف کردن تناقضات موجود بین داده ها می باشد.
مقادیر مفقود شده ، داده هایی هستند كه به هر دلیلی در هنگام تحلیل در اختیار تحلیلگر قرار ندارند. وجود چنین داده هایی می تواند تحلیل داده ها را بسیار دشوار سازد. در صورت وجود مقادیر مفقود شده در داده ها باید به گونه ای مناسب در مورد آنها تصمیم گیری كرد. برخی از راهبردهای برخورد با داده های مفقود، عبارتند از :
1- پرکردن مقدار مفقوده بصورت دستی .این روش زمان بر است و برای پایگاه داده های بزرگ قابل استفاده نیست.
2- حذف رکورد مربوطه
3- استفاده از مقدار ثابت جهت پرکردن داده های مفقود
داده های مغشوش ، انحرافی تصادفی یا غیر تصادفی در یك متغیر اندازه گیری شده هستند كه به عنوان مثال می توانند نتیجه خطای اندازه گیری یا یك اثر پنهان باشند و باید علت وجود داده مزاحم به خوبی بررسی و در مورد آن تصمیم گیری شود. خوشه بندی و برازش یك تابع رگرسیونی بر داده ها از جمله روشهای هموارسازی داده ها هستند. توجه كنید كه بسیاری از روشهای هموارسازی داده ها، روشهایی برای تلخیص داده ها نیز محسوب می شوند.
داده های ناهمگون ، شامل تغییراتی بی قاعده هستند كه تحلیل ، آنها را دچار مشكل می سازد. برخی از انواع آنها را می توان با تبدیل مناسب اصلاح كرد یا برای تحلیل آنها روشهای خاصی را به كار گرفت.
تلخیص داده ها
در بسیاری از برنامه های کاربردی کشف، مانند تحلیل داده های بازاریابی و مدیریت ارتباط با مشتری، یافتن زیرمجموعه هایی از جمعیت که به اندازه کافی رفتار مشابهی را از خود نشان می دهند به گونه ای که از ارزش تحلیل متمرکز برخوردارند، فعالیتی کلیدی محسوب می شود. این نوع وظیفه در بسیاری از کاربردهای داده کاوی در دنیای واقعی، با توجه به اینکه داده ها به ندرت به منظور داده کاوی جمع آوری می شوند، از اهمیت بالایی برخوردار است. در این موارد معمولا با مجموعه زیادی از داده ها مواجه شده و به دنبال استفاده از آنها برای کاربردی خاص می باشیم. بنابراین کاهش داده ها معمولا یکی از اقدامات مورد نیاز است. برای كاهش داده ها از تكنیك هایی مانند كاهش بعد و فشرده سازی و مجزا سازی داده ها استفاده می شود.
انبارهای داده
اگر چه وجود یک انبار داده ، پیش نیاز داده کاوی نیست ولی در عمل کار داده کاوی بخصوص برای بعضی از شرکت های بزرگ با داشتن دسترسی به یک انبار داده بسیار آسان تر می شود. هدف اصلی یک انبار داده افزایش هوشمندی در یک فرآیند تصمیم گیری و افزایش دانش افراد درگیر در این فرآیند می باشد. به عنوان مثال توانایی ، انجام بازاریابی محصول با نگاهی چند بعدی ، کار فروش محصول بر حسب منطقه ، بر حسب نوع فروش ، بر حسب خصوصیات آماری مشتریان ، موجب تلاش های بهتر، افزایش تولید یا تصمیمات جدید در ساخت و توزیع محصول می شود. باید توجه کنیم که اکثر شرکتها با اطلاعات متوسط و کلی کار می کنند. شرکت های برتر و ممتاز با پرداختن به جزئیات خودشان را متمایز می کنند. آنها ممکن است نیاز داشته باشند تا داده ها را به راه های مختلف تقسیم و تجزیه نمایند تا درک عمیق تری را از سازمان خود بدست آورند و موجب پیشرفت گردند. برای نیل به این اهداف و فرآیندهاکاربران باید بدانندکه چه داده هایی وجود دارند.
یک انبار داده برای افراد مختلف معانی متفاوتی دارد. بعضی از تعاریف محدود به داده ها هستند و بعضی از تعاریف نیز به افراد، فرآیند ها، نرم افزار، ابزارها و داده ها برمی گردد. یکی از تعاریف کلی به شکل زیر است:
یک انبار داده مجموعه ای از پایگاه داده های یکپارچه موضوع گرا می باشد که به منظور حمایت از رویکرد پشتیبانی تصمیم طراحی شده است ، به نحوی که هر واحد از داده ها به چند دقیقه از زمان وابسته هستند. بر اساس این تعریف یک انبار داده می تواند به عنوان مخزن داده های یک سازمان در نظر گرفته شود تا از تصمیم گیری های راهبردی حمایت کند. وظیفه انبار داده این است که داده های قدیمی یک سازمان را به روشی یکپارچه ذخیره نماید به نحوی که این امر نشان دهنده جنبه های مختلف یک سازمان یا یک کسب و کار باشد. داده ها در یک انبار هرگز به هنگام نمی شوند، اما فقط برای پاسخ به تقاضاهای کاربران نهایی که معمولاً تصمیم گیرنده نیز هستند، مورد استفاده قرار می گیرند. اغلب انبار داده ها حجیم و بزرگ می باشند و می توانند بیلیون ها رکورد را ذخیره کنند.
در بسیاری از موارد ، یک سازمان، ممکن است چندین انبار داده محلی یا شعبه ای داشته باشد که اغلب به آنها مراکز داده ها گفته می شود. یک مرکز داده در حقیقت یک انبار داده می باشد که برای برآورد کردن نیازهای یک گروه خاص از کاربران طراحی شده و بسته به نوع زمینه کاری ممکن است بزرگ یا کوچک باشد.
اکنون در مراحل اولیه تکامل انبار داده ها جای تعجب نیست اگر پروژه های زیادی را پیدا کنیم که به خاطر عدم درک اساسی در موارد این که یک انبار داده چیست، دچار اشتباه می شوند. آنچه که جای تعجب دارد اندازه و مقیاس این پروژه هاست. بسیاری از شرکت ها به این علت که تعریف دقیقی از یک انبار داده ندارند، دچار خطا می شوند.
دو جنبه از انبار داده ها برای درک بهتر از فرآیند طراحی آن بیشترین اهمیت را دارند : اولی شامل انواع مشخص (طبقه بندی) داده هایی که در انبار ذخیره می شوند و دومی ایجاد تغییر شکل هایی برای آماده سازی شکل نهایی داده ها به منظور تصمیم گیری می باشد.
یک انبار داده شامل گروه های داده زیر می باشد:
1- داده های مفصل قدیمی
2- داده های مفصل فعلی (جدید)
3- داده های تا اندازه ای خلاصه شده
4- داده های بسیار خلاصه
5- فراداده ها (راهنمای داده ها یا دفتر داده ها)
برای آماده کردن این پنج نوع داده اولیه یا داده های مشتق شده در انبار داده ها، انواع بنیادی تبدیل یا تغییر شکل داده ها استاندارد شده اند.
هر کدام از این تبدیل ها یا تغییر شکل ها دارای ویژگی های خاص خود هستند که در ادامه به آنها می پردازیم.
1- تغییر شکل ساده : این تغییر شکل یا تبدیل، بلوک های ساختاری همه تبدیل های پیچیده تر دیگر می باشند.این طبقه یا گروه شامل دستکاری داده هایی هستند که برای یک موضوع در یک زمان متمرکز می شوند (بدون در نظر گرفتن مقادیر آنها در فیلدهای مربوطه). مثال های این مورد شامل تغییر نوع داده های یک فیلد یا جایگزینی یک فیلد رمز گذاری شده با یک مقدار رمز گشایی شده می باشند.
2- تمیز کردن و پاکسازی : این تبدیل ها یا تغییر شکل ها، فرمت بندی سازگار وکاربرد یک فیلد یا یک گروه مرتبطی از فیلد ها را تضمین می کند. به عنوان مثال این نوع تبدیل همچنین شامل وارسی هایی برای مقادیر مجاز در یک فیلد خاص می باشد(معمولا وارسی و کنترل دامنه یا انتخاب از یک لیست شمارش شده).
2- یکپارچگی : این یک فرآیند استفاده از داده های عملیاتی از یک یا چند منبع و نگاشت آنها، فیلد به فیلد، به ساختار داده های جدید در انبار داده ها می باشد. مشکل شناسه عمومی ، یکی از مشکل ترین موضوعات یکپارچگی در ایجاد و ساخت یک انبار داده ها می باشد. اساسا ، این وضعیت زمانی اتفاق می افتد که چند منبع سیستمی برای نهاد های مشابه وجود دارند و هیچ گونه راه حل روشنی برای شناسایی این نهاد ها به عنوان نهاد واحد وجود ندارد.
4- تجمیع و خلاصه سازی : این ها روش هایی هستند که نمونه داده های موجود در محیط اجرایی را به نمونه داده های کوچکتر در محیط انبار داده ها تبدیل می کنند. خلاصه سازی، اضافه کردن ساده مقادیر در یک یا چند بعد از داده ها می باشد. به عنوان مثال، اضافه کردن فروش روزانه به فروش ماهانه یک محصول. تجمیع به اضافه کردن عناصر تجاری مختلف به یک مقدار کل اشاره دارد. این روش بسیار وابسته به دامنه می باشد. به عنوان مثال ، اضافه کردن فروش تولید روزانه و فروش مورد نظر به طور ماهانه برای بدست آوردن ترکیب کل ماهانه ، تجمیع می باشد.
اگر چه ایجاد یک انبار داده یک کار پیچیده است و در بسیاری از متون با جزئیات زیاد توضیح داده شده اما در اینجا فقط مشخصات اصلی آن ارائه می شود. فرآیند سه مرحله ای توسعه انبار داده ها در مراحل اساسی زیر خلاصه می شوند :
1- مدلسازی : به عبارت ساده، به صرف زمان لازم برای درک فرآیندهای تجاری، نیازمندی های اطلاعات این فرآیندها و تصمیماتی که اخیرا در طی فرآیندها اتخاذ می شود ، اطلاق می شود.
2- ساخت : به فراهم آوردن ابزار لازم جهت حمایت و انطباق بر انواع پشتیبانی های تصمیم برای فرآیند تجاری مورد هدف گفته می شود. ایجاد یک مدل داده برای تعیین نیاز های اطلاعاتی بیشتر، تجزیه مسائل مربوط به ویژگیها و مشخصه های داده و انبار داده های واقعی که در نهایت و در شکل نهایی خودبه ایجاد یک مرکز داده یا انبار داده جامع منتهی می شود.
3- به کارگیری : به منظور پیاده سازی نسبتا زودهنگام در کل فرآیند طبیعت و ماهیت داده هایی که باید انبار شوند و ابزار هوشمند تجاری مختلف بررسی و مورد استفاده قرار می گیرد. مرحله به کارگیری به طور مشخص شامل زمانی است که کاربران هم منبع (برای درک داده هایی که دردسترس بوده و یا باید در دسترس باشند) و هم انبار داده های فعلی را کاوش می کنند.
داده کاوی یکی از کاربرد های اصلی برنامه انبار سازی داده ها می باشد، زیرا وظیفه اصلی یک انبار داده فراهم کردن اطلاعات برای کاربران نهایی به منظور پشتیبانی تصمیم می باشد. بر خلاف دیگر ابزارهای تقاضا و سیستم های کاربردی، فرآیند داده کاوی برای یک کاربر نهایی ظرفیتی برای استخراج اطلاعات مخفی و غیربدیهی ایجاد می کند. اگر چه استخراج چنین اطلاعاتی سخت و دشوار می باشد، ولی می تواند مزیت های تجاری و علمی زیادی را فراهم کند. در حقیقت می توان انبارسازی داده ها و داده کاوی را به عنوان یک سرمایه گذاری مفید در نظر گرفت.
خلاصه مهارت
فرآیند به کارگیری یک متدولوژی برمبنای کامپیوتر ، که شامل تکنیک های جدید برای کشف دانش از داده ها می باشد ، داده کاوی نام دارد. دو هدف اصلی داده کاوی ، پیشگویی و توصیف هستند وبر اساس این دوهدف ، دو نوع داده کاوی پیشگویانه و توصیفی وجود دارد. پایه های اصلی داده کاوی بر دو اصل آمار و یادگیری ماشین استوار است. برای پیاده سازی فرآیند داده کاوی باید از متدولوژی خاصی استفاده کرد.دراین راستا متدولوژی فرآینداستاندارد میان صنعتی داده کاوی ایجاد شد. این متدولوژی روشی توانمند و منعطف جهت ارتقای شایستگی داده کاوی در حل مسائل سازمانی می باشد. داده های اولیه و خام معمولا مجموعه داده های مناسبی برای کاوش داده ها نیستند. تغییر شکل ها یا در حقیقت تبدیلات بسیاری ممکن است برای تولید جنبه های مفیدتر برای روش های انتخابی داده کاوی ضروری باشد. هدف اصلی یک انبار داده افزایش هوشمندی در یک فرآیند تصمیم گیری و افزایش دانش افراد درگیر در این فرآیند می باشد.