Data Mining با هدف کشف و استخراج الگوهای نهان در مجموعه داده ها به تجزیه و تحلیل داده ها می‌پردازد. وظایف اصلی داده کاوی بسته به نوع داده‌هایی که می‌باید مورد کاوش قرار گیرند و نوع پرسش‌هایی که به‌دنبال پاسخ آن‌ها هستیم، در دو بخش انجام می‌گیرد.

- توصیف

- کلاس بندی و پیش بینی

1- عملکرد توصیفی داده کاوی

این دسته از وظایف داده کاوی، بر توصیف ویژگی‌های عمومی داده های موجود در پایگاه داده متمرکز است. فهرستی از جنبه‌های توصیفی data mining عبارتند از:

- توصیف کلاس/ مفهوم

- کاوش الگوهای مکرر

- کاوش قواعد انجمنی و وابستگی‌ها

- کاوش همبستگی ها

- کاوش خوشه ها

1-1- توصیف کلاس / مفهوم

کلاس یا مفهوم (Concept) به داده هایی اطلاق می‌شود که با کلاس‌ها یا مفاهیم خاصی مربوط شوند. به‌طور مثال در یک شرکت، کلاس محصولات موجود برای فروش را کامپیوترها و چاپگرها تشکیل می‌دهند و مفاهیم مرتبط با مشتریان مواردی نظیر مصرف کنندگان و هزینه‌کنندگان را شامل می‌شود. چنین توصیف‌هایی از یک کلاس یا یک مفهوم، توصیف‌های کلاس/ مفهوم نامیده می‌شود. این نوع توصیفات از طریق یکی از دو رویکرد زیر انجام می‌شوند:

- تعیین مشخصات داده ها:خلاصه سازی داده‌های کلاس تحت مطالعه که کلاس هدف نیز نامیده می‌شود.

- تفکیک و جداسازی داده ها: خلاصه سازی داده‌های کلاس تحت مطالعه که کلاس هدف نیز نامیده می‌شود.

1-2- کاوش الگوهای مکرر یا Frequent Patterns

الگوهای مکرر الگوهایی هستند که به‌صورت تکراری در داده های تراکنشی اتفاق می‌افتد. از جمله الگوهای مکرر می‌توان به موارد زیر اشاره کرد:

- مجموعه آیتم‌های مکرر:این حوزه از داده کاوی به کشف مجموعه آیتم‌هایی می‌پردازد که در یک مجموعه داده به طور مکرر در کنار یکدیگر قرار گرفته‌اند؛ مانند خرید شیر و نان در کنار هم توسط مشتری در یک زمان.

- توالی مکرر: این حوزه به کشف مجموعه آیتم‌هایی می‌پردازد که مکررا به دنبال هم رخ داده‌است؛ مانند خرید دوربین و به دنبال آن خرید کارت حافظه توسط مشتری پس از یک بازه زمانی.

- زیرساختارهای مکرر: این الگوهای توصیفی در data mining از فرم‌های ساختاری متفاوتی همچون گراف‌ها، درخت‌ها یا شبکه‌ها تشکیل شده‌است که خود می‌توانند از مجموعه آیتم‌ها یا زیردنباله‌های مکرر تشکیل شده باشند.

1-3- کاوش قواعد انجمنی و وابستگی ها یا Associations

وابستگی‌ها و قواعد انجمنی معمولا در خرده فروشی ها برای شناسایی الگو های حاکم بر آیتم‌هایی که به شکل پرتکرار با هم خریداری می‌شوند استفاده می‌شود. این فرآیند data mining بر کشف ارتباطات بین داده ها و تعیین قواعد وابستگی بین آن‌ها متمرکز است. به طور مثال یک خرده فروشی پس از اعمال تکنیک های کشف قواعد انجمنی به این نتیجه می‌رسد که در 70% تراکنش‌ها، شیر با نان خریداری شده و تنها در 30% تراکنش‌ها، بیسکوئیت همراه با نان به فروش رفته است.

1-4- کاوش همبستگی ها یا Correlations

این حوزه از روش‌های داده کاوی شامل نوعی تحلیل تکمیلی است که همبستگی های آماری جالبی را بین جفت‌های associated-attribute-value یا بین دو مجموعه داده کشف می‌کند تا تاثیر مثبت، منفی یا خنثای آن‌ها بر یکدیگر تجزیه و تحلیل شود.

1-5- کاوش خوشه ها یا Clustering

واژه‌ی خوشه، به گروهی از موضوعات مشابه هم اشاره دارد. تحلیل خوشه یا Cluster Analysis عبارت است از ایجاد گروه‌هایی با شباهت‌های درون-گروهی زیاد در هر یک از خوشه ‌ها و تفاوت‌های حداکثر بین اعضای خوشه‌های مختلف.

2- رده بندی و پیش ‌بینی در data mining

کلاس ‌بندی یا Classification که از آن تحت عنوان رده بندی نیز یاد می‌شود، عبارت است از یک فرآیند برای یافتن مدلی که به بهترین شکل، مفاهیم یا کلاس های داده ها را توصیف کند. هدف از انجام این مدلسازی استفاده از مدل ساخته شده در پیش ‌بینی کلاس داده‌ ها و موضوعاتی است که برچسب کلاس آن‌ها مجهول است. مدل ساخته شده، بر اساس تحلیل مجموعه داده هایی به نام مجموعه داده های آموزش به دست می‌آید. در نهایت، مدل ساخته شده به فرم‌های زیر ارائه می‌شود:

- قواعد کلاس بندی یا رده بندی به فرم قواعد اگر-آنگاه

- فرمول‌های ریاضی

- شبکه های عصبی

توابعی که در این فرایندها مورد استفاده قرار می‌گیرند عبارت است از:

2-1- کلاس ‌بندی یا Classification

کلاس‌ بندی عبارت است از پیش ‌بینی کلاس داده هایی که برچسب کلاس آن‌ها مجهول است. هدف رده بندی یافتن مدلی است که به بهترین شکل، تفاوت کلاس‌های داده یا مفاهیم داده را توضیح دهد. این مدل با استفاده از تحلیل مجموعه‌هایی از داده های آموزشی که برچسب کلاس آن‌ها مشخص است ساخته می‌شود.

2-2- پیش ‌بینی یا Prediction

این عملکرد data mining به جای پیش بینی کلاس داده ها، به پیش‌ بینی مقادیر داده‌ی عددی مجهول یا خارج از دسترس می‌پردازد. برای پیش ‌بینی غالبا از واژه تحلیل رگرسیونی استفاده می‌شود. از پیش ‌بینی همچنین در شناسایی روند توزیع داده ها بر اساس داده های در دسترس استفاده می‌شود.

2-3- تحلیل داده های پرت یا Outlier ها

داده های پرت عبارتند از داده هایی که رفتار آنها از رفتار عمومی و یا مدل حاکم بر داده های در دسترس تبعیت نمی‌کند.

2-4- تحلیل تغییرات یا Evolution Analysis

تحلیل تغییرات یا تحلیل تکامل، مواردی چون توصیف و کشف قوانین یا روندهای حاکم بر داده هایی را نشان می‌دهد که رفتار آن‌ها در طول زمان تغییر می‌کند.

3- فعالیت‌های پایه در داده کاوی

فرآیند داده کاوی را می‌توان به شکل یک پرس و جو یا query تعریف کرد. این پرس و جو به عنوان ورودی به سیستم داده می‌شود. یک پرس و جو یا Query داده کاوی تحت عنوان فعالیت‌های اولیه‌ی داده کاوی تعریف می‌شود. فعالیت‌های پایه‌ی داده کاوی ما را قادر می‌سازند تا به شکل تعاملی با سیستم داده کاوی ارتباط برقرار کنیم.

در زیر، فهرستی از فعالیت‌های پایه در داده کاوی ارایه شده است:

• کاوش مجموعه داده‌های مربوط به کار داده کاوی

• کاوش دانش مرتبط با کار

• برخورداری و استفاده از دانش زمینه در فرایند کشف دانش

• معیارها و آستانه‌های مناسب برای ارزیابی الگو

• نمایش و مصورسازی الگوهای کشف شده

3-1- کاوش مجموعه داده های مرتبط با کار داده کاوی

داده های مورد استفاده در داده کاوی، بخشی از یک پایگاه داده مرتبط با موضوع مورد بررسی هستند که شامل موارد زیر می‌شوند:

- ویژگی‌ها یا Attribute های پایگاه داده

- ابعاد مورد نیاز از انباره داده

3-2- کاوش دانش مرتبط با کار

این بخش شامل اجرای انواع عملگرهایی است که منجر به کسب دانش مرتبط با کار می‌شود. این توابع عبارتند از:

- توصیف داده ها

- تفکیک و جداسازی داده ها

- تحلیل وابستگی و همبستگی

- پیش‌بینی

- خوشه بندی

- تحلیل داده های پرت

- تحلیل تکامل

3-3- دانش زمینه

شناخت حوزه‌ای که داده های آن را مورد کاوش قرار می‌دهیم اولین و مهم‌ترین گام در فرآیند کشف و استخراج الگو از مجموعه داده است. در این مرحله، فیلدهای داده‌ای و مفاهیم مربوط، در سطوح مختلفی از جزئیات بررسی می‌شوند. تعیین سطح‌بندی مناسب برای فیلدها از گام‌های این مرحله است.

 بسیاری از کسب و کارها، اول مخازن داده را ایجاد می‌کنند و سپس ابزار BI را روی آن سوار می‌کنند و انتظار دارند که کاربران با استفاده از اپلیکیشن BI به سوالات مختلف خود پاسخ دهند.

اما آنچه مهم است، برخورداری از یک رویکرد از بالا به پایین در پیاده سازی هوش کسب وکار است.

با تمرکز بر خروجی‌ها و نتایج، سیستم هوش کسب وکار را با سوال «داده ها کجا هستند» شروع نکنید!

به جای آن با این سوال شروع کنید: «مساله و سوال کسب و کار ما چیست و چگونه باید پاسخ آن را بیابم؟»

به عنوان مثال، بخش بازاریابی می‌خواهد مشکل ریزش مشتریان را حل کند و بداند چرا مشتریان سازمان را ترک می‌کنند.

برای پاسخ به چنین سوالاتی، می‌باید در درجه‌ی اول با یک دید همه جانبه به کسب و کار بدانیم که کدامین معیارها باید اندازه‌گیری شوند سپس ببینیم چه اطلاعاتی برای محاسبه این متریک‌ها مورد نیاز است و بعد از آن به دنبال جمع آوری و تولید داده‌هایی برویم که در محاسبه‌ی این متریک به ما کمک می‌کنند.

3-4- تعیین معیارها و آستانه‌های مناسب برای ارزیابی الگوهای حاصل از data mining

در این مرحله، بسته به نوع تابع یا الگوریتم استفاده شده در فاز مدلسازی، یک معیار منحصربه‌فرد برای ارزیابی مدلِ ایجاد شده یا الگوی کشف شده در نظر گرفته می‌شود. به طور مثال در کاوش قواعد انجمنی و وابستگی‌ها از معیارهای support و confidence استفاده می‌شود. مدل‌هایی که مقدار این دو معیار در آن‌ها، از یک حد آستانة از پیش تعیین شده کمتر باشد، کنار گذاشته می‌شوند.

3-5- نمایش و مصورسازی نتایج و الگوهای کشف شده

در این مرحله، چگونگی مصورسازی و نحوه‌ی نمایش نتایج حاصل از مدل‌های ساخته شده تعیین می‌شود. به طور مثال نتایج حاصل از data mining را می‌توان در قالب‌های زیر مصورسازی کرده و نمایش داد:

- مجموعه‌ای از قواعد و دستورات اگر – آنگاه

- جداول

- نمودارها

- گراف ها

- درخت تصمیم

- مکعب داده ها


مشخصات

  • جهت مشاهده منبع اصلی این مطلب کلیک کنید
  • کلمات کلیدی منبع : داده ,کلاس ,می‌شود ,کاوش ,تحلیل ,کاوی ,داده کاوی ,data mining ,مجموعه داده ,قواعد انجمنی ,داده هایی ,کاوش قواعد انجمنی ,کلاس آن‌ها مجهول ,مجموعه آیتم‌هایی می‌پردازد
  • در صورتی که این صفحه دارای محتوای مجرمانه است یا درخواست حذف آن را دارید لطفا گزارش دهید.

تبلیغات

محل تبلیغات شما
محل تبلیغات شما محل تبلیغات شما

آخرین وبلاگ ها

برترین جستجو ها

آخرین جستجو ها

Kristina نمایندگی فروش عمده وخدمات تعمیر کولر گازی اسپلیت در شیراز - عظیمی دلツ فاطریون Michael فیلم سریال98 Greg Danielle Carlos Ghorbani