Data Mining با هدف کشف و استخراج الگوهای نهان در مجموعه داده ها به تجزیه و تحلیل داده ها میپردازد. وظایف اصلی داده کاوی بسته به نوع دادههایی که میباید مورد کاوش قرار گیرند و نوع پرسشهایی که بهدنبال پاسخ آنها هستیم، در دو بخش انجام میگیرد.
- توصیف
- کلاس بندی و پیش بینی
1- عملکرد توصیفی داده کاوی
این دسته از وظایف داده کاوی، بر توصیف ویژگیهای عمومی داده های موجود در پایگاه داده متمرکز است. فهرستی از جنبههای توصیفی data mining عبارتند از:
- توصیف کلاس/ مفهوم
- کاوش الگوهای مکرر
- کاوش قواعد انجمنی و وابستگیها
- کاوش همبستگی ها
- کاوش خوشه ها
1-1- توصیف کلاس / مفهوم
کلاس یا مفهوم (Concept) به داده هایی اطلاق میشود که با کلاسها یا مفاهیم خاصی مربوط شوند. بهطور مثال در یک شرکت، کلاس محصولات موجود برای فروش را کامپیوترها و چاپگرها تشکیل میدهند و مفاهیم مرتبط با مشتریان مواردی نظیر مصرف کنندگان و هزینهکنندگان را شامل میشود. چنین توصیفهایی از یک کلاس یا یک مفهوم، توصیفهای کلاس/ مفهوم نامیده میشود. این نوع توصیفات از طریق یکی از دو رویکرد زیر انجام میشوند:
- تعیین مشخصات داده ها:خلاصه سازی دادههای کلاس تحت مطالعه که کلاس هدف نیز نامیده میشود.
- تفکیک و جداسازی داده ها: خلاصه سازی دادههای کلاس تحت مطالعه که کلاس هدف نیز نامیده میشود.
1-2- کاوش الگوهای مکرر یا Frequent Patterns
الگوهای مکرر الگوهایی هستند که بهصورت تکراری در داده های تراکنشی اتفاق میافتد. از جمله الگوهای مکرر میتوان به موارد زیر اشاره کرد:
- مجموعه آیتمهای مکرر:این حوزه از داده کاوی به کشف مجموعه آیتمهایی میپردازد که در یک مجموعه داده به طور مکرر در کنار یکدیگر قرار گرفتهاند؛ مانند خرید شیر و نان در کنار هم توسط مشتری در یک زمان.
- توالی مکرر: این حوزه به کشف مجموعه آیتمهایی میپردازد که مکررا به دنبال هم رخ دادهاست؛ مانند خرید دوربین و به دنبال آن خرید کارت حافظه توسط مشتری پس از یک بازه زمانی.
- زیرساختارهای مکرر: این الگوهای توصیفی در data mining از فرمهای ساختاری متفاوتی همچون گرافها، درختها یا شبکهها تشکیل شدهاست که خود میتوانند از مجموعه آیتمها یا زیردنبالههای مکرر تشکیل شده باشند.
1-3- کاوش قواعد انجمنی و وابستگی ها یا Associations
وابستگیها و قواعد انجمنی معمولا در خرده فروشی ها برای شناسایی الگو های حاکم بر آیتمهایی که به شکل پرتکرار با هم خریداری میشوند استفاده میشود. این فرآیند data mining بر کشف ارتباطات بین داده ها و تعیین قواعد وابستگی بین آنها متمرکز است. به طور مثال یک خرده فروشی پس از اعمال تکنیک های کشف قواعد انجمنی به این نتیجه میرسد که در 70% تراکنشها، شیر با نان خریداری شده و تنها در 30% تراکنشها، بیسکوئیت همراه با نان به فروش رفته است.
1-4- کاوش همبستگی ها یا Correlations
این حوزه از روشهای داده کاوی شامل نوعی تحلیل تکمیلی است که همبستگی های آماری جالبی را بین جفتهای associated-attribute-value یا بین دو مجموعه داده کشف میکند تا تاثیر مثبت، منفی یا خنثای آنها بر یکدیگر تجزیه و تحلیل شود.
1-5- کاوش خوشه ها یا Clustering
واژهی خوشه، به گروهی از موضوعات مشابه هم اشاره دارد. تحلیل خوشه یا Cluster Analysis عبارت است از ایجاد گروههایی با شباهتهای درون-گروهی زیاد در هر یک از خوشه ها و تفاوتهای حداکثر بین اعضای خوشههای مختلف.
2- رده بندی و پیش بینی در data mining
کلاس بندی یا Classification که از آن تحت عنوان رده بندی نیز یاد میشود، عبارت است از یک فرآیند برای یافتن مدلی که به بهترین شکل، مفاهیم یا کلاس های داده ها را توصیف کند. هدف از انجام این مدلسازی استفاده از مدل ساخته شده در پیش بینی کلاس داده ها و موضوعاتی است که برچسب کلاس آنها مجهول است. مدل ساخته شده، بر اساس تحلیل مجموعه داده هایی به نام مجموعه داده های آموزش به دست میآید. در نهایت، مدل ساخته شده به فرمهای زیر ارائه میشود:
- قواعد کلاس بندی یا رده بندی به فرم قواعد اگر-آنگاه
- فرمولهای ریاضی
- شبکه های عصبی
توابعی که در این فرایندها مورد استفاده قرار میگیرند عبارت است از:
2-1- کلاس بندی یا Classification
کلاس بندی عبارت است از پیش بینی کلاس داده هایی که برچسب کلاس آنها مجهول است. هدف رده بندی یافتن مدلی است که به بهترین شکل، تفاوت کلاسهای داده یا مفاهیم داده را توضیح دهد. این مدل با استفاده از تحلیل مجموعههایی از داده های آموزشی که برچسب کلاس آنها مشخص است ساخته میشود.
2-2- پیش بینی یا Prediction
این عملکرد data mining به جای پیش بینی کلاس داده ها، به پیش بینی مقادیر دادهی عددی مجهول یا خارج از دسترس میپردازد. برای پیش بینی غالبا از واژه تحلیل رگرسیونی استفاده میشود. از پیش بینی همچنین در شناسایی روند توزیع داده ها بر اساس داده های در دسترس استفاده میشود.
2-3- تحلیل داده های پرت یا Outlier ها
داده های پرت عبارتند از داده هایی که رفتار آنها از رفتار عمومی و یا مدل حاکم بر داده های در دسترس تبعیت نمیکند.
2-4- تحلیل تغییرات یا Evolution Analysis
تحلیل تغییرات یا تحلیل تکامل، مواردی چون توصیف و کشف قوانین یا روندهای حاکم بر داده هایی را نشان میدهد که رفتار آنها در طول زمان تغییر میکند.
3- فعالیتهای پایه در داده کاوی
فرآیند داده کاوی را میتوان به شکل یک پرس و جو یا query تعریف کرد. این پرس و جو به عنوان ورودی به سیستم داده میشود. یک پرس و جو یا Query داده کاوی تحت عنوان فعالیتهای اولیهی داده کاوی تعریف میشود. فعالیتهای پایهی داده کاوی ما را قادر میسازند تا به شکل تعاملی با سیستم داده کاوی ارتباط برقرار کنیم.
در زیر، فهرستی از فعالیتهای پایه در داده کاوی ارایه شده است:
• کاوش مجموعه دادههای مربوط به کار داده کاوی
• کاوش دانش مرتبط با کار
• برخورداری و استفاده از دانش زمینه در فرایند کشف دانش
• معیارها و آستانههای مناسب برای ارزیابی الگو
• نمایش و مصورسازی الگوهای کشف شده
3-1- کاوش مجموعه داده های مرتبط با کار داده کاوی
داده های مورد استفاده در داده کاوی، بخشی از یک پایگاه داده مرتبط با موضوع مورد بررسی هستند که شامل موارد زیر میشوند:
- ویژگیها یا Attribute های پایگاه داده
- ابعاد مورد نیاز از انباره داده
3-2- کاوش دانش مرتبط با کار
این بخش شامل اجرای انواع عملگرهایی است که منجر به کسب دانش مرتبط با کار میشود. این توابع عبارتند از:
- توصیف داده ها
- تفکیک و جداسازی داده ها
- تحلیل وابستگی و همبستگی
- پیشبینی
- خوشه بندی
- تحلیل داده های پرت
- تحلیل تکامل
3-3- دانش زمینه
شناخت حوزهای که داده های آن را مورد کاوش قرار میدهیم اولین و مهمترین گام در فرآیند کشف و استخراج الگو از مجموعه داده است. در این مرحله، فیلدهای دادهای و مفاهیم مربوط، در سطوح مختلفی از جزئیات بررسی میشوند. تعیین سطحبندی مناسب برای فیلدها از گامهای این مرحله است.
بسیاری از کسب و کارها، اول مخازن داده را ایجاد میکنند و سپس ابزار BI را روی آن سوار میکنند و انتظار دارند که کاربران با استفاده از اپلیکیشن BI به سوالات مختلف خود پاسخ دهند.
اما آنچه مهم است، برخورداری از یک رویکرد از بالا به پایین در پیاده سازی هوش کسب وکار است.
با تمرکز بر خروجیها و نتایج، سیستم هوش کسب وکار را با سوال «داده ها کجا هستند» شروع نکنید!
به جای آن با این سوال شروع کنید: «مساله و سوال کسب و کار ما چیست و چگونه باید پاسخ آن را بیابم؟»
به عنوان مثال، بخش بازاریابی میخواهد مشکل ریزش مشتریان را حل کند و بداند چرا مشتریان سازمان را ترک میکنند.
برای پاسخ به چنین سوالاتی، میباید در درجهی اول با یک دید همه جانبه به کسب و کار بدانیم که کدامین معیارها باید اندازهگیری شوند سپس ببینیم چه اطلاعاتی برای محاسبه این متریکها مورد نیاز است و بعد از آن به دنبال جمع آوری و تولید دادههایی برویم که در محاسبهی این متریک به ما کمک میکنند.
3-4- تعیین معیارها و آستانههای مناسب برای ارزیابی الگوهای حاصل از data mining
در این مرحله، بسته به نوع تابع یا الگوریتم استفاده شده در فاز مدلسازی، یک معیار منحصربهفرد برای ارزیابی مدلِ ایجاد شده یا الگوی کشف شده در نظر گرفته میشود. به طور مثال در کاوش قواعد انجمنی و وابستگیها از معیارهای support و confidence استفاده میشود. مدلهایی که مقدار این دو معیار در آنها، از یک حد آستانة از پیش تعیین شده کمتر باشد، کنار گذاشته میشوند.
3-5- نمایش و مصورسازی نتایج و الگوهای کشف شده
در این مرحله، چگونگی مصورسازی و نحوهی نمایش نتایج حاصل از مدلهای ساخته شده تعیین میشود. به طور مثال نتایج حاصل از data mining را میتوان در قالبهای زیر مصورسازی کرده و نمایش داد:
- مجموعهای از قواعد و دستورات اگر – آنگاه
- جداول
- نمودارها
- گراف ها
- درخت تصمیم
- مکعب داده ها
Microsoft Power BI:
استفاده از نسخه دسکتاپ Power BI، کاربران می توانند داده های خود از منابع محلی یا در بستر ابری را فراخوانی کرده و در قالب نمودارهای و داشبردهای متنوعی مصور سازی کنند. قابلیت انتشار گزارش و به اشتراک گذاری آنها نیز از امکانات جذاب دیگر این نرم افزار است. گرچه در نسخه رایگان امکان به اشتراک گزارش ها تا حد زیادی محدود شده است اما در نسخه حرفه ای و با پرداخت اشتراک ماهیانه می توان به صورت همزمان چند کاربر بر روی یک گزارش کار کرده و آنها را بر روی پلتفرم های مختلف مایکروسافت همچون شیرپوینت به نمایش درآورد. امکان اتصال به منابع اطلاعاتی همچون Microsoft Dynamics 365، Azure SQL Data Warehouse و حتی Salesforce از دیگر جذابیت های این نرم افزار است.
Board:
شرکت Board International سه ابزار را در یک نرم افزار جمع کرده است؛ شامل: BIهوش تجاری تحلیل های پیشگویانه و مدیریت عملکرد. در واقع این شرکت قصد داشته نرم افزاری برای تمام افراد با ماژول های مالی، منابع انسانی، بازاریابی، مدیریت زنجیره تامین، فروش و فناوری اطلاعات ارائه کند.
Dundas BI:
پر استفاده ترین نرم افزار ارائه شده توسط شرکت Dundas است که برای ساخت نمودار و داشبردهای مدیریتی است مورد استفاده قرار می گیرد. سابقه فعالیت این کمپانی در زمینه ساخت نرم افزارهای هوش تجاری با قابلیت ساخت چنین داشبردهایی بسیار درخشان بوده است. البته در کنار چنین قابلیتی، امکان اتصال به Google Analytics، Snowflake، Salesforce Pardot می تواند به جذابیت های آن اضافه کند. این نرم افزار در قالب یک پلتفرم تحت وب به شما امکان می دهد تا داشبردهایی منعطف را طراحی کنید که کاربران بر اساس میزان مهارت و سطح دسترسی از آنها استفاده نمایند.
: Google Data Studio
در ابتدا به عنوان ابزاری برای ساخت داشبرد و ساخت گزارش وب سایت و از طریق Google Analytics معرفی گردید. اما اکنون به قابلیت های جذابی از جمله اتصال به منابع اطلاعاتی همچون Criteo، LinkedIn، MailChimp، PayPal، Salesforce، Stripe، Twitter و هر گونه داده ای بر روی spreadsheet )مثل اکسل) و دیتابیس SQL قرار دارد، مجهز شده است که این نرم افزار را به گزینه ای جذاب بدل کرده است. همچنین لازم به ذکر است که این نرم افزار در قالب پلتفرم و رابط کاربری تحت وب ارائه شده است
Looker:
رویکردی دو وجهی را برای ارائه خدمات هوش تجاری در پیش گرفته است. در ابتدای امر به کاربران اجازه می دهد هر طور که می خواهند در داده ها و ابزارهای این نرم افزار غرق شوند. هر آنچه می خواهند بسازند و به هر نتیجه ای که دنبال می کنند دست پیدا کنند. همچنین این کمپانی با شرکت های تحلیل داده و کارشناسان این حوزه به صورت موازی برای کمک به کاربرانی که صرفا به دنبال نتایج خروجی و گزارش های مدیریتی هستند کار می کند. از این نرم افزار به عنوان یکی از جذابترین نرم افزارهای هوش تجاری می توان یاد کرد.
از ابتدای سال آینده نرم افزار Looker امکان اتصال به سرویس Google’s BigQuery Machine Learning را نیز فراهم خواهد ساخت که جذابیت فراوانی برای شرکت های تحلیل داده و کسب و کار خواهد داشت. با استفاده این سرویس می توان مدل های پیشگویانه بسیار قدرتمندی ساخت و در اختیار تحلیگران قرار داد.
Domo:
Domo یک پلتفرم ابری است که دنباله ای از نرم افزارهای هوش تجاری را برای صنایع مختلف (همچون سرویس های مالی، بهداشت و درمان، تولید و آموزش) ارائه می کند. این ابزار به نقش های مختلف سازمانی مثل مدیریت، کارشناس هوش تجاری و کارشناسان فناوری اطلاعات فکر کرده است و ابزارهای مختلفی در اختیار آنها می گذارد. از نکات قابل توجه این نرم افزار ابزارهای یکپارچه سازی با اکثر پلتفرم ها بازار است که شرکت های بزرگ فناوری اطلاعات با آنها سر و کار دارند.
داشبورد و چارت: در سیستمهای اطلاعات مدیریت، داشبورد و چارت ارائه گرافیکی مهمترین اطلاعات موردنیاز برای رسیدن به یک یا چند هدف مشخص است؛ که در یک صفحه با دقت و نظم چیده شدهاند، تا مدیران بتوانند با یک نگاه وضعیت موجود را نظارت کنند.
آلارم: یکی دیگر از نتایج استفاده از سیستم BI آلارم است که در مواقع بحرانی آلارمهای لازم را به مدیران داده میشود.
گزارش: گزارش نیز یکی از خروجیهای سیستم BI میباشد. که به استفاده کننده این اجازه را میدهد که گزارشهای دلخواه و مختلف را از سیستم اطلاعات بگیرد.
ورود دیتا: پس از دریافت نتایج پردازش دادهها از قبیل داشبورد و چارت، آلارمها و گزارشها جهت تصمیمگیری، پس از بررسی گزارشها خود موجب ایجاد دیتاهای جدید میکند که میبایست به سیستم وارد شود.
این متن دومین مطلب آزمایشی من است که به زودی آن را حذف خواهم کرد.
زکات علم، نشر آن است. هر وبلاگ می تواند پایگاهی برای نشر علم و دانش باشد. بهره برداری علمی از وبلاگ ها نقش بسزایی در تولید محتوای مفید فارسی در اینترنت خواهد داشت. انتشار جزوات و متون درسی، یافته های تحقیقی و مقالات علمی از جمله کاربردهای علمی قابل تصور برای ,بلاگ ها است.
همچنین وبلاگ نویسی یکی از موثرترین شیوه های نوین اطلاع رسانی است و در جهان کم نیستند وبلاگ هایی که با رسانه های رسمی خبری رقابت می کنند. در بعد کسب و کار نیز، روز به روز بر تعداد شرکت هایی که اطلاع رسانی محصولات، خدمات و رویدادهای خود را از طریق بلاگ انجام می دهند افزوده می شود.
این متن اولین مطلب آزمایشی من است که به زودی آن را حذف خواهم کرد.
مرد خردمند هنر پیشه را، عمر دو بایست در این روزگار، تا به یکی تجربه اندوختن، با دگری تجربه بردن به کار!
اگر همه ما تجربیات مفید خود را در اختیار دیگران قرار دهیم همه خواهند توانست با انتخاب ها و تصمیم های درست تر، استفاده بهتری از وقت و عمر خود داشته باشند.
همچنین گاهی هدف از نوشتن ترویج نظرات و دیدگاه های شخصی نویسنده یا ابراز احساسات و عواطف اوست. برخی هم انتشار نظرات خود را فرصتی برای نقد و ارزیابی آن می دانند. البته بدیهی است کسانی که دیدگاه های خود را در قالب هنر بیان می کنند، تاثیر بیشتری بر محیط پیرامون خود می گذارند.
آینده نگری در داده کاوی را شرح دهید؟
داده کاوی فرآیند استخراج اطلاعات مفید در داده ها است. داده کاوی استخراج اطلاعات پیشگویانه از پایگاه داده بزرگ ، یک روش جدید قدرتمند با انرژی عظیم . ابزارهای داده کاوی رفتارها و گرایش های آینده را پیش بینی می کنند و این امکان را به تجارت ها می دهد تا بر اساس دانش تصمیم گیری کنند. تحلیل های اتوماتیک و آینده نگر که توسط داده کاوی پیشنهاد می شود فراتر از تحلیل هایی قرار می گیرند که طبق رویدادهای گذشته توسط ابزارهای قبلی سیستم های تصمیم گیری انجام شده اند. داده و اطلاعات یا دانش نقش اساسی را در فعالیت های بشر ایفا می کنند. داده کاوی یک پروسه کشف دانش از طریق تحلیل حجم عظیمی از داده از چشم اندازهای گوناگون و خلاصه سازی آن به اطلاعات مفید و سودمند می باشد. به دلیل اهمیت استخراج اطلاعات از منابع عظیم داده، داده کاوی به یک جز ضروری و مهم در بخش های مختلف زندگی بشری تبدیل شده است . پیشرفت هایی در زمینه های آمار، فراگیری ماشین، هوش مصنوعی،الگوشناسی و محاسبات باعث ترقی برنامه های داده کاوی امروزی شده و این برنامه ها باعث توانمندی و بهبود زمینه های مختلف زندگی بشری شامل تجارت، تحصیل و پزشکی شده اند.
مراحل انجام ETL را نام برده و توضیح دهید؟
فرآیند ETL که در واقع عملیات اصلی در درست کردن انبارداده است، خود از سه قسمت تشکیل شده است. استخراج (Extract)، تبدیل (تغییرات) (Transformation) و بارگزاری (Load).
در مرحله اولی، دادهها از منابع مختلف، توسط فرآیند استخراج (Extract)، استخراج شده و در مخزنی به نام محل استقرار (Staging Area) قرار میگیرد. در واقع در مرحله استخراج داده، که مرحله اول ETL است، دادهها از منابع دادهای استخراج شده و در Staging Area ذخیره میشوند. مرحله استخراج باعث میشود دادههایی که در منابع مختلف بوده و دارای سیستم عاملهای متفاوت و ساختار بازیابی گوناگون هستند جمعآوری شوند تا بتوان بر روی آنها عملیات پردازشی را انجام داد.
مرحله دوم تبدیل (Transformation) است. این مرحله که قلب اصلی فرآیند ETL به شمار میرود در Staging Area انجام میشود تا انجام عملیات (بعضا سنگین) مزاحم انبارداده و یا منابع دادهای منبع نباشد. حتما توجه دارید که دادههایی که در منابع دادهای مختلف هستند به صورت خام ذخیره شدهاند و قبل از اینکه در انبارداده ذخیره شوند نیاز به تغییراتی دارند. با این تغییرات و تبدیلها، دادهها آماده انبار کردن میشوند. مثلا اگر بخواهید نام و نام خانوادگی یک شخص را همراه با پسوند این شخص در یک فیلد انبار کنید و هر کدام از اینها در مخزن جدایی باشد، در این مرحله (مرحله تبدیل) بایستی این تغییرات را انجام دهید.
مرحله سوم بارگزار (Load) است که دادههای تغییریافته و آماده شده توسط مرحله قبل (مرحله تبدیل-Transformation) در انبارداده بارگزاری میگردد.
CRM: مدیریت ارتباط با مشتریان : (مدیریت ارتباط مشتری، استفاده از ابزارها، تکنولوژی و فرایندها برای گردآوری و تحلیل دادههای مشتری و استفاده از این اطلاعات برای بهبود تجربه مشتری است)
ERP: یک علم و فن برای مدیریت منابع است.
• یک راه حل نرم افزاری است که تمام فعالیتهای واحدهای مختلف سازمان را به طور یکپارچه در یک سیستم نرمافزاری واحد تعریف و ایجاد میکند.
• یک بسته نرم افزاری تجاری است که هدف آن یکپارچگی اطلاعاتی و برقراری جریان اطلاعات بین تمامی بخشهای سازمان از جمله مالی، حسابداری، منابع انسانی، زنجیره عرضه و مدیریت مشتریان است.
MES: مجوز MES(سیستم اجرای تولید) به کاربر این اجازه را می دهد که به تراکنشهایی نظیر دریافت سفارش خرید یا زمان و مقدار (کمیت) تکمیل شده در یک کار تولیدی وارد شود اما اجازۀ به روزآوری هایی نظیر سفارش یک فروش جدید را نمی دهد .
WMS: به زبان ساده، سیستم مدیریت انبار (WMS) یک نرم افزار کاربردی است که به کنترل و مدیریت عملیات روزانه در یک انبار کمک میکند. سیستم مدیریت انبار (WMS) یا مکانیزاسیون انبار به یک کسب و کار، در مدیریت و بهره برداری از انبار یا مرکز توزیع، توانایی کنترل می دهد.
درباره این سایت