Data Mining با هدف کشف و استخراج الگوهای نهان در مجموعه داده ها به تجزیه و تحلیل داده ها میپردازد. وظایف اصلی داده کاوی بسته به نوع دادههایی که میباید مورد کاوش قرار گیرند و نوع پرسشهایی که بهدنبال پاسخ آنها هستیم، در دو بخش انجام میگیرد.
- توصیف
- کلاس بندی و پیش بینی
1- عملکرد توصیفی داده کاوی
این دسته از وظایف داده کاوی، بر توصیف ویژگیهای عمومی داده های موجود در پایگاه داده متمرکز است. فهرستی از جنبههای توصیفی data mining عبارتند از:
- توصیف کلاس/ مفهوم
- کاوش الگوهای مکرر
- کاوش قواعد انجمنی و وابستگیها
- کاوش همبستگی ها
- کاوش خوشه ها
1-1- توصیف کلاس / مفهوم
کلاس یا مفهوم (Concept) به داده هایی اطلاق میشود که با کلاسها یا مفاهیم خاصی مربوط شوند. بهطور مثال در یک شرکت، کلاس محصولات موجود برای فروش را کامپیوترها و چاپگرها تشکیل میدهند و مفاهیم مرتبط با مشتریان مواردی نظیر مصرف کنندگان و هزینهکنندگان را شامل میشود. چنین توصیفهایی از یک کلاس یا یک مفهوم، توصیفهای کلاس/ مفهوم نامیده میشود. این نوع توصیفات از طریق یکی از دو رویکرد زیر انجام میشوند:
- تعیین مشخصات داده ها:خلاصه سازی دادههای کلاس تحت مطالعه که کلاس هدف نیز نامیده میشود.
- تفکیک و جداسازی داده ها: خلاصه سازی دادههای کلاس تحت مطالعه که کلاس هدف نیز نامیده میشود.
1-2- کاوش الگوهای مکرر یا Frequent Patterns
الگوهای مکرر الگوهایی هستند که بهصورت تکراری در داده های تراکنشی اتفاق میافتد. از جمله الگوهای مکرر میتوان به موارد زیر اشاره کرد:
- مجموعه آیتمهای مکرر:این حوزه از داده کاوی به کشف مجموعه آیتمهایی میپردازد که در یک مجموعه داده به طور مکرر در کنار یکدیگر قرار گرفتهاند؛ مانند خرید شیر و نان در کنار هم توسط مشتری در یک زمان.
- توالی مکرر: این حوزه به کشف مجموعه آیتمهایی میپردازد که مکررا به دنبال هم رخ دادهاست؛ مانند خرید دوربین و به دنبال آن خرید کارت حافظه توسط مشتری پس از یک بازه زمانی.
- زیرساختارهای مکرر: این الگوهای توصیفی در data mining از فرمهای ساختاری متفاوتی همچون گرافها، درختها یا شبکهها تشکیل شدهاست که خود میتوانند از مجموعه آیتمها یا زیردنبالههای مکرر تشکیل شده باشند.
1-3- کاوش قواعد انجمنی و وابستگی ها یا Associations
وابستگیها و قواعد انجمنی معمولا در خرده فروشی ها برای شناسایی الگو های حاکم بر آیتمهایی که به شکل پرتکرار با هم خریداری میشوند استفاده میشود. این فرآیند data mining بر کشف ارتباطات بین داده ها و تعیین قواعد وابستگی بین آنها متمرکز است. به طور مثال یک خرده فروشی پس از اعمال تکنیک های کشف قواعد انجمنی به این نتیجه میرسد که در 70% تراکنشها، شیر با نان خریداری شده و تنها در 30% تراکنشها، بیسکوئیت همراه با نان به فروش رفته است.
1-4- کاوش همبستگی ها یا Correlations
این حوزه از روشهای داده کاوی شامل نوعی تحلیل تکمیلی است که همبستگی های آماری جالبی را بین جفتهای associated-attribute-value یا بین دو مجموعه داده کشف میکند تا تاثیر مثبت، منفی یا خنثای آنها بر یکدیگر تجزیه و تحلیل شود.
1-5- کاوش خوشه ها یا Clustering
واژهی خوشه، به گروهی از موضوعات مشابه هم اشاره دارد. تحلیل خوشه یا Cluster Analysis عبارت است از ایجاد گروههایی با شباهتهای درون-گروهی زیاد در هر یک از خوشه ها و تفاوتهای حداکثر بین اعضای خوشههای مختلف.
2- رده بندی و پیش بینی در data mining
کلاس بندی یا Classification که از آن تحت عنوان رده بندی نیز یاد میشود، عبارت است از یک فرآیند برای یافتن مدلی که به بهترین شکل، مفاهیم یا کلاس های داده ها را توصیف کند. هدف از انجام این مدلسازی استفاده از مدل ساخته شده در پیش بینی کلاس داده ها و موضوعاتی است که برچسب کلاس آنها مجهول است. مدل ساخته شده، بر اساس تحلیل مجموعه داده هایی به نام مجموعه داده های آموزش به دست میآید. در نهایت، مدل ساخته شده به فرمهای زیر ارائه میشود:
- قواعد کلاس بندی یا رده بندی به فرم قواعد اگر-آنگاه
- فرمولهای ریاضی
- شبکه های عصبی
توابعی که در این فرایندها مورد استفاده قرار میگیرند عبارت است از:
2-1- کلاس بندی یا Classification
کلاس بندی عبارت است از پیش بینی کلاس داده هایی که برچسب کلاس آنها مجهول است. هدف رده بندی یافتن مدلی است که به بهترین شکل، تفاوت کلاسهای داده یا مفاهیم داده را توضیح دهد. این مدل با استفاده از تحلیل مجموعههایی از داده های آموزشی که برچسب کلاس آنها مشخص است ساخته میشود.
2-2- پیش بینی یا Prediction
این عملکرد data mining به جای پیش بینی کلاس داده ها، به پیش بینی مقادیر دادهی عددی مجهول یا خارج از دسترس میپردازد. برای پیش بینی غالبا از واژه تحلیل رگرسیونی استفاده میشود. از پیش بینی همچنین در شناسایی روند توزیع داده ها بر اساس داده های در دسترس استفاده میشود.
2-3- تحلیل داده های پرت یا Outlier ها
داده های پرت عبارتند از داده هایی که رفتار آنها از رفتار عمومی و یا مدل حاکم بر داده های در دسترس تبعیت نمیکند.
2-4- تحلیل تغییرات یا Evolution Analysis
تحلیل تغییرات یا تحلیل تکامل، مواردی چون توصیف و کشف قوانین یا روندهای حاکم بر داده هایی را نشان میدهد که رفتار آنها در طول زمان تغییر میکند.
3- فعالیتهای پایه در داده کاوی
فرآیند داده کاوی را میتوان به شکل یک پرس و جو یا query تعریف کرد. این پرس و جو به عنوان ورودی به سیستم داده میشود. یک پرس و جو یا Query داده کاوی تحت عنوان فعالیتهای اولیهی داده کاوی تعریف میشود. فعالیتهای پایهی داده کاوی ما را قادر میسازند تا به شکل تعاملی با سیستم داده کاوی ارتباط برقرار کنیم.
در زیر، فهرستی از فعالیتهای پایه در داده کاوی ارایه شده است:
• کاوش مجموعه دادههای مربوط به کار داده کاوی
• کاوش دانش مرتبط با کار
• برخورداری و استفاده از دانش زمینه در فرایند کشف دانش
• معیارها و آستانههای مناسب برای ارزیابی الگو
• نمایش و مصورسازی الگوهای کشف شده
3-1- کاوش مجموعه داده های مرتبط با کار داده کاوی
داده های مورد استفاده در داده کاوی، بخشی از یک پایگاه داده مرتبط با موضوع مورد بررسی هستند که شامل موارد زیر میشوند:
- ویژگیها یا Attribute های پایگاه داده
- ابعاد مورد نیاز از انباره داده
3-2- کاوش دانش مرتبط با کار
این بخش شامل اجرای انواع عملگرهایی است که منجر به کسب دانش مرتبط با کار میشود. این توابع عبارتند از:
- توصیف داده ها
- تفکیک و جداسازی داده ها
- تحلیل وابستگی و همبستگی
- پیشبینی
- خوشه بندی
- تحلیل داده های پرت
- تحلیل تکامل
3-3- دانش زمینه
شناخت حوزهای که داده های آن را مورد کاوش قرار میدهیم اولین و مهمترین گام در فرآیند کشف و استخراج الگو از مجموعه داده است. در این مرحله، فیلدهای دادهای و مفاهیم مربوط، در سطوح مختلفی از جزئیات بررسی میشوند. تعیین سطحبندی مناسب برای فیلدها از گامهای این مرحله است.
بسیاری از کسب و کارها، اول مخازن داده را ایجاد میکنند و سپس ابزار BI را روی آن سوار میکنند و انتظار دارند که کاربران با استفاده از اپلیکیشن BI به سوالات مختلف خود پاسخ دهند.
اما آنچه مهم است، برخورداری از یک رویکرد از بالا به پایین در پیاده سازی هوش کسب وکار است.
با تمرکز بر خروجیها و نتایج، سیستم هوش کسب وکار را با سوال «داده ها کجا هستند» شروع نکنید!
به جای آن با این سوال شروع کنید: «مساله و سوال کسب و کار ما چیست و چگونه باید پاسخ آن را بیابم؟»
به عنوان مثال، بخش بازاریابی میخواهد مشکل ریزش مشتریان را حل کند و بداند چرا مشتریان سازمان را ترک میکنند.
برای پاسخ به چنین سوالاتی، میباید در درجهی اول با یک دید همه جانبه به کسب و کار بدانیم که کدامین معیارها باید اندازهگیری شوند سپس ببینیم چه اطلاعاتی برای محاسبه این متریکها مورد نیاز است و بعد از آن به دنبال جمع آوری و تولید دادههایی برویم که در محاسبهی این متریک به ما کمک میکنند.
3-4- تعیین معیارها و آستانههای مناسب برای ارزیابی الگوهای حاصل از data mining
در این مرحله، بسته به نوع تابع یا الگوریتم استفاده شده در فاز مدلسازی، یک معیار منحصربهفرد برای ارزیابی مدلِ ایجاد شده یا الگوی کشف شده در نظر گرفته میشود. به طور مثال در کاوش قواعد انجمنی و وابستگیها از معیارهای support و confidence استفاده میشود. مدلهایی که مقدار این دو معیار در آنها، از یک حد آستانة از پیش تعیین شده کمتر باشد، کنار گذاشته میشوند.
3-5- نمایش و مصورسازی نتایج و الگوهای کشف شده
در این مرحله، چگونگی مصورسازی و نحوهی نمایش نتایج حاصل از مدلهای ساخته شده تعیین میشود. به طور مثال نتایج حاصل از data mining را میتوان در قالبهای زیر مصورسازی کرده و نمایش داد:
- مجموعهای از قواعد و دستورات اگر – آنگاه
- جداول
- نمودارها
- گراف ها
- درخت تصمیم
- مکعب داده ها
درباره این سایت