الگوریتم‌های داده‌کاوی

نویسنده: 
دکتر ایمان رئیسی - ستاد مدیریت محصول همکاران سیستم

براساس ارتباط‌هایی که داده‌کاوی با علوم مختلف برقرار کرده است، از الگوریتم‌ها و روش‌های بسیار متنوعی بهره می‌برد. طبقه‌بندی‌های مختلفی برای الگوریتم‌ها ارائه شده است. بر اساس مشهورترین طبقه‌بندی‌ها، این الگوریتم‌ها را می‌توان به دو دسته الگوریتم‌های توصیفی و الگوریتم‌های پیش‌بینی‌کننده تفکیک کرد. بر این اساس، برخی از مهم‌ترین الگوریتم‌های توصیفی به شرح زیر هستند:

خوشه‌بندی داده‌ها (Clustering)

یکی از روش‌های بدون ناظر برای اکتشاف دانش از داده‌ها است که بدون پیش‌فرض، داده‌ها را براساس فاصله معنی‌دار تفکیک و دسته‌بندی می‌کند. اعضای درون یک خوشه شباهت‌های زیادی به یکدیگر دارند ولی اعضای هر خوشه با اعضای موجود در خوشه های دیگر شباهت کمتری دارند. الگوریتم‌هایی مانند K-Means، K-Medoids، AGNES، DIANA، DBSCAN و OPTICS از جمله الگوریتم‌های خوشه‌بندی به شمار می‌آیند. نمونه‌هایی از خوشه‌بندی داده‌ها به شرح زیر هستند:

  • بخش‌بندی بازار بر مبنای روند مراجعات و تماس مشتریان با سازمان
  • تعیین راهبردهای بازاریابی بر مبنای رفتار خرید مشتریان در خوشه‌های مختلف
  • تعیین انواع قراردادهای پیمانکاری بر اساس روند پرداخت وجه از سوی مشتریان
  • تقسیم‌بندی مشتریان بر اساس هزینه‌ها و درآمدهایی که برای سازمان ایجاد می‌کنند.

الگوریتم قواعد وابستگی (Association Rules)

قواعد وابستگی، یک روش مناسب و توانمند برای یافتن روابط جذاب بین متغیرهای موجود در پایگاه‌های داده بزرگ است. بر اساس این روش، میزان وابستگی بین مشخصه‌ها یا فیلدهای داده به شکل یک مجموعه از قواعد شناسایی می‌شوند و به کمک این قواعد، امکان رخ دادن دو یا چند مشخصه در کنار یکدیگر تعیین می‌شود. برخی از الگوریتم‌های محاسبه قواعد وابستگی عبارتند از Apriori و FP-Growth. برای نمونه در تحلیل موارد زیر از قواعد وابستگی استفاده می‌شود:

  • تحلیل روند خرید مشتریان در سبدهای خرید جدید بر اساس خریدهای قبلی
  • یافتن رابطه بین خرابی ماشین‌آلات و قطعات و دلایل خرابی آن‌ها
  • تحلیل ارتباط فعالیت‌های بازاریابی و برندینگ شرکت با افزایش یا کاهش سرعت عکس‌العمل بازار نسبت به محصولات شرکت
  • هم‌گروهی یا Bundling محصولات یا خدمات بر اساس میزان علاقه مشتریان به خرید گروهی آن‌ها.
  • برقراری ارتباط میان کیفیت پاسخ‌گویی کارشناسان خدمات پس از فروش سازمان با نیاز مشتری بر اساس تخصص کارشناسان، نوع مشکلات محصول، بلوغ محصول مورد نظر و ویژگی‌های مشابه

مهم‌ترین الگوریتم‌های پیش‌بینی‌کننده را به شرح زیر می‌توان تفکیک کرد:

طبقه‌بندی داده‌ها (Classification) 

یکی از روش‌های یادگیری نظارت‌شده برای پیش‌بینی طبقه داده‌ها است که بر مبنای طبقات پیش‌فرض و از قبل مشخص‌شده، اقدام به شناسایی طبقه داده‌های جدید می‌کند. برخی از الگوریتم‌های طبقه‌بندی داده‌ها عبارتند از: Decision Tree, Navie Bayes و K-Nearest Neighbors. چند نمونه از کاربردهای طبقه‌بندی به شرح زیر است:

  • دسته‌بندی نمایندگی‌های فروش بر اساس قابلیت‌ها و توانمندی‌های فروش و بازاریابی 
  • درخت تصمیم برای تصمیم‌گیری درباره فرآیند و نحوه فروش به مشتریان بزرگ یا خاص
  • یادگیری انواع گروه‌بندی مشتریان بر اساس سوابق قراردادی، گارانتی یا پشتیبانی و تعیین رویکرد و نگرش سازمان نسبت مشتریان جدید پیش از آغاز دوره پشتیبانی یا گارانتی
  • تفکیک مشتریان جدید بر اساس مدت زمان و نوع خدمات یا محصول دریافتی با توجه به سوابق یادگرفته شده از مشتریان فعلی و مشتریان جداشده از سازمان

رگرسیون و سری‌های زمانی (Regression and Time Series Analysis)

در صورتی که داده‌های سازمان با گذشت زمان و بر اساس روند مشخصی ثبت شده باشند، امکان پیش‌بینی روند آینده سازمان بر اساس سری‌های زمانی و توابع رگرسیونی داده‌ها وجود خواهد داشت. رگرسیون یکی از ساده‌ترین روش‌های داده‌کاوی است که بر اساس روند گذشته، تخمینی از مقادیر آینده ارائه می‌کند. چند نمونه از کاربردهای رگرسیون به شرح زیر است:

  • تحلیل تاثیر شاخص‌های اقتصادی بر روند افزایش یا کاهش قیمت سهام در بورس 
  • مقایسه عملکرد مالی شرکت در مقایسه با شرکت‌های مشابه در همان صنعت
  • تحلیل روند رشد درآمد‌ها بر مبنای سیاست‌های بازاریابی و فروش سازمان 
  • شناسایی عوامل و بازه‌های زمانی موثر بر نوسانات قیمتی سهام 
  • مقایسه میزان انطباق عملکرد خط تولید با سیاست‌ها و اهداف سازمان در سال‌های گذشته

شبکه های عصبی (Neural Networks)

شبکه‌های عصبی مصنوعی، مدل پیشرفته‌ای از رگرسیون‌های پیوسته قابل‌آموزش هستند که می‌توانند آینده را بر مبنای رویدادهای گذشته پیش‌بینی کنند. پیش‌بینی داده‌ها در این الگوریتم مشابه الگوریتم‌های طبقه بندی است با این تفاوت که در این روش، هدف پیش‌بینی مقادیر داده پیوسته (مانند مبلغ فروش، درآمد، سود یا قیمت سهام) است ولی در طبقه‌بندی، نتایج پیش‌بینی بر اساس طبقات فعلی که الگوریتم آن‌ها را آموزش دیده است، ارائه می شوند و خروجی دارای طیف گسسته است. (در حقیقت تعداد طبقات محدود به چند طبقه یا گروه خاص است و تنوع کمی دارد). برخی از انواع شبکه‌های عصبی عبارتند از شبکه‌های MLP، RBF، SVM، SOM و LVQ. نمونه‌هایی از کاربرد شبکه‌های عصبی به شرح زیر است:

  • یادگیری و پیش‌بینی رفتار مشتریان فعلی و آتی بر اساس بازخوردهای دریافتی از سیستم پیشنهادها
  • بهینه‌سازی ارسال و دریافت محصولات و قراردادهای پشتیبانی بر مبنای روندهای گذشته
  • تنظیم رویکرد فروشندگان نسبت به مشتریان بالقوه و جدید بر اساس یادگیری از رفتار مشتریان فعلی
  • درک نحوه و کیفیت کار کارکنان ممتاز در پاسخگویی به درخواست مشتریان و شناسایی علل عدم تبعیت رفتار آنها از الگوی نرمال و روزمره سازمان.
  • پیش‌بینی قیمت در پورتفوی سهام بر اساس شاخص‌های اقتصادی کشور و شاخص‌های مالی بورس و ارائه پیشنهاد برای خرید یا فروش سهام پورتفو به منظور بهینه‌سازی مجموع سود سهام.

در کنار الگوریتم‌های توصیفی و پیش‌بینی، مجموعه‌ای از الگوریتم های فراابتکاری (Meta-Heuristics) نیز ارائه شده‌اند که هدف آن‌ها دستیابی به پاسخ بهینه‌ی سوالات و مسائل مدیریتی و عملیاتی است. برخی از مهم‌ترین الگوریتم های فراابتکاری یا اصطلاحا تکاملی (Evolutionary) عبارتند از:

  • الگوریتم ژنتیک (Genetic Algorithm) 
  • بهینه‌سازی ازدحام ذرات (Particle Swarm Optimization)
  • بهینه‌سازی کلونی مورچگان (Ant Colony Optimization)
  • بهینه‌سازی کلونی زنبورهای عسل (Bees Colony Optimization)
  • الگوریتم کرم شب تاب (Firefly Algorithm)
  • جستجوی متوازن (Harmony Search)

در تمامی این الگوریتم‌ها، سعی در یافتن پاسخ بهینه از بین تعداد زیادی پاسخ، در کمترین زمان و با بیشترین دقت و کیفیت است. این الگوریتم‌ها زمانی به کار می‌روند که تعداد پاسخ‌های مساله بسیار زیاد و متنوع بوده و حل مساله با روش‌های معمول برای دستیابی به نتیجه قابل‌قبول، نیازمند صرف هزینه و زمان فوق العاده‌ای باشد که از توان اغلب کسب‌و‌کارها خارج است. برای حل مسائل کسب‌و‌کار، گاهی اوقات از الگوریتم‌های تکاملی در ترکیب با الگوریتم‌های توصیفی و پیش‌بینی‌کننده استفاده می‌شود تا کیفیت و دقت پاسخ‌ها افزایش یابد، هرچند که این نکته منجر به افزایش مدت زمان یادگیری و ساخت مدل‌های حل مساله خواهد شد.

در بسیاری از پروژه‌های داده‌کاوی، از ترکیب متنوعی از الگوریتم‌های اشاره شده  برای تحلیل داده و ساخت مدل‌های حل مساله استفاده می‌شود. این رویکرد باعث شده است تا میزان اعتبار و کیفیت تحلیل‌ها و تصمیم‌های اتخاذ شده بر مبنای خروجی داده‌کاوی بهبود یابد و به تدریج، به مدل‌های آموزش‌دیده و مبتنی بر واقعیت دست یابیم که با اهداف و فرآیندهای کسب‌و‌کار متناظر بوده و قادر به پیش‌بینی دقیق آینده کسب‌و‌کار هستند. 

در مقاله‌های بعد، به شناسایی روندها در متون بر مبنای الگوریتم‌های متن‌کاوی می‌پردازیم.

در مورد این مطلب نظری دارید؟ لطفا آن را مطرح نمایید.

محتوای این فیلد به صورت کاملا خصوصی ذخیره شده و هیچگاه در معرض دید عموم قرار نخواهد گرفت.
لطفا //:http را در ابتدای آدرس وب سایت خود قرار دهید. (این فیلد اختیاری است)
Image CAPTCHA
Enter the characters shown in the image.