شکل ۴‑۳: تاثیر روش انتخاب نخبه در الگوریتم ژنتیک بر دقت MCS 93
فهرست جدولها:
عنوان صفحه
جدول ۲‑۱: علل پیادهسازی مدیریت ارتباط با مشتری (اکبری ۱۳۸۹) ۱۲
جدول ۲‑۲ : گامهای تکامل دادهکاوی ۱۷
جدول ۲‑۳ : انواع فاصلهها ۳۹
جدول ۲‑۴ :خلاصه سابقه تحقیق ۶۸
جدول ۳‑۱ :ماتریس آشفتگی ۸۰
جدول ۴‑۱ :میانگین دقت دستهبندهای استفاده شده در MCS 89
جدول ۴‑۲ : ماتریس آشفتگی برای دادههای تالیا ۹۱
جدول ۴‑۳ :ماتریس آشفتگی برای دادههای دانشگاه دوک ۹۲
جدول ۴‑۴ : مقادیر شاخص دیویس - بولدین به ازای تعداد خوشههای متفاوت ۹۴
جدول ۴‑۵ : مرکز خوشههای بدست آمده از SOM 94
جدول ۴‑۶ : تعداد اعضای خوشهها ۹۵
فصل اول:
کلیات تحقیق
مقدمه
در این فصل مسئله مورد بررسی در این تحقیق را بیان میکنیم و با اشاره به اهمیت و ضرورت انجام این تحقیق، اهدافی را که در این پژوهش به آنها نائل میشویم شرح میدهیم. در ادامه سوالاتی را که در این تحقیق به دنبال پاسخ آنها هستیم ذکر کردهایم. همچنین تعاریفی از کلمات کلیدی و نوآوری این تحقیق بیان شده است.
بیان مسئله
امروزه در سازمانها هزینهای که صرف جذب مشتری جدید میشود بسیار بیشتر از هزینهای است که برای نگهداری مشتریان موجود انجام میشود. بسیاری از شرکتها بر این باورند که هزینه جذب یک مشتری جدید بین ۶ تا ۸ برابر حفظ مشتری موجود است. از این جهت، سازمانها مبالغ بیشتری را صرف نگهداری مشتریان موجودشان میکنند(Ngai, Xiu et al. 2009). در مدیریت ارتباط با مشتری (CRM)، پیشبینی رفتار مشتری از جمله عواملی است که در حفظ مشتریان موجود بسیار موثر خواهد بود؛ دانستن این که مشتری چه زمان احتمال دارد سازمان را به نفع رقیبان ترک کند، میتواند مدیران را در تصمیمگیریها و انتخاب استراتژیهای بازاریابی مناسب کمک کند (Brown 2000).
سازمانها تلاش میکنند تا با ارزیابی میزان وفاداری مشتریانشان، مشتریانی که دارای ریسک بالایی برای قطع استفاده از محصولات هستند را شناسایی کنند و با تعیین استراتژیهای موثر وفادارسازی از میزان مشتریان از دست رفته بکاهند. همچنین، سازمان برای تعیین نحوه تخصیص منابع خود، مشتریان باارزش خود را هدفگذاری می کند تا منابع مالی محدود خود را صرف حفظ مشتریانی کند که سود بیشتری برای سازمان ایجاد میکنند (عباسیمهر ۱۳۹۰).
با بهره گرفتن از دادهکاوی میتوان با در اختیار داشتن دادههای پیشین مشتریان، مدلی را جهت شناسایی و پیشبینی مشتریانی که دارای احتمال بالای از دست رفتن هستند، ارائه کرد. همچنین، دادهکاوی ابزاری را جهت خوشهبندی مشتریان بر اساس ارزش آنها فراهم میآورد تا به وسیله آن، مشتریان با ارزشتر از میان مشتریانی که در خطر از دست رفتن هستند شناسایی شوند.
ضرورت و اهمیت تحقیق
مدیریت ارتباط با مشتری امروزه در صنعت جایگاه خود را تثبیت کرده است و شرکتهای تجاری برای پیشی گرفتن از رقبای خود در یک بازار رقابتی به سیستمهای مشتری محور روی آوردهاند. حفظ مشتری یکی از ابعاد مهم CRM است که به ارائه راهکارهایی میپردازد تا نرخ رویگردانی مشتریان از سازمان را کاهش دهد؛ استراتژیهایی نظیر بازاریابی یک به یک، برنامههای وفاداری و مدیریت شکایات از جمله استراتژیهای این فاز هستند. با پیشبینی رفتار مشتریان، میتوان مشتریانی که به احتمال زیاد از دست خواهند رفت را شناسایی کرد و نرخ رویگردانی در این بعد از CRM را کاهش داد.
پیشبینی رویگردانی مشتری موضوع مهمی برای همه شرکتها است، زیرا مشتری رویگردان باید با مشتری جدید جایگزین شود و جذب مشتری جدید نسبت به حفظ این مشتریان رویگردان هزینه بیشتری در بر خواهد داشت و همچنین در کوتاه مدت سود کمتری به شرکت میرساند. ریچهلد و ساسر[۳]، در پژوهشی نشان دادهاند که افزایش ۵ درصدی در نرخ حفظ مشتری به افزایش ۸۵ درصدی در سود بانکها و افزایش ۵۰ درصدی در حق واسطهگری شرکتهای بیمه را منجر میشود (Reichheld and Sasser 1990). دادهکاوی با تحلیل دادههای مشتری، مدلهای پیشگویی را ایجاد میکند که به کمک آنها مشتریانی که در خطر رویگردانی هستند، تشخیص داده میشوند.
از طرف دیگر، ارزش دوره عمر مشتری، معیاری برای ارزیابی مشتریان سازمان است که در سیستمهای CRM محاسبه میشود. روش های متنوعی برای محاسبه ارزش عمر مشتری وجود دارد که تمرکز بیشتر آنها بر سودهای دریافتی و هزینههای پرداختی بابت آن مشتری است (شهرابی ۱۳۹۰a). دادهکاوی با بهره گرفتن از ابزارهای خوشهبندی خود قادر به خوشهبندی مشتریان و شناسایی مشتریان با ارزش است. بنابراین، میتوان از میان مشتریان رویگردان، مشتریان کلیدی و با ارزش را شناسایی کرد. شناسایی مشتریان کلیدی مستعد رویگردانی میتواند برای تعیین استراتژیهای بازاریابی جهت جلوگیری از رویگردانی آنها و همچنین تخصیص منابع سازمانی کمک شایانی کند.
اهداف تحقیق
اهداف اصلی:
- پیشبینی رویگردانی مشتری در جهت حفظ مشتری در CRM با بهره گرفتن از تکنیکهای دادهکاوی در صنعت تلفن همراه.
- شناسایی مشتریان با ارزش از میان مشتریان مستعد رویگردانی با بهره گرفتن از دادهکاوی.
اهداف فرعی:
- استفاده از تکنیک سیستم چند دستهبند (MCS) برای افزایش دقت دستهبندی در پیشبینی رویگردانی مشتری.
- استفاده از الگوریتم ژنتیک چندبعدی برای بهینه کردن ساختار MCS و درنتیجه بالا بردن دقت دستهبندی.
- بکارگیری تکنیک خوشهبندی برای شناسایی مشتریان با ارزش به گونهای که خوشهها بیشترین فاصله و اعضای هر خوشه کمترین فاصله را نسبت به هم داشته باشند.
سوالات تحقیق
هدف از انجام این تحقیق یافتن پاسخهایی برای سوالات زیر است:
سوالات اصلی:
- مدلهای دادهکاوی چگونه میتوانند رویگردانی مشتریان را پیشبینی کنند؟
- چگونه میتوان با بهره گرفتن از تکنیکهای دادهکاوی مشتریان با ارزش را شناسایی کرد؟
سوالات فرعی:
- چگونه تکنیک پیشنهادی تحقیق دقت پیشبینی رویگردانی مشتری را در صنعت تلفن همراه مخابرات بالا میبرد؟
- بکارگیری الگوریتم ژنتیک در ساختار سیستم چند دستهبند پیشنهادی چه تاثیری بر دقت پیشبینی دارد؟
نوآوری تحقیق
ما در این تحقیق، برای پیشبینی رویگردانی مشتریان ابتدا به طراحی یک MCS پرداختهایم. در طراحی MCS پیشنهادی سعی شده است تکنیکهایی در کنار یکدیگر به کار گرفته شوندکه در تحقیقات گذشته برای پیشبینی رویگردانی استفاده شدهاند ؛ همچنین از آنجایی که در حل یک مسئله دستهبندی با بهره گرفتن از MCS دارای پیچیدگی محاسباتی بالایی است (Gabrys and Ruta 2006)، در این تحقیق از الگوریتم ژنتیک چندبعدی برای بهینهسازی ساختار این سیستم پیشنهادی استفاده شده است. این مدل علاوه بر این که بر روی پایگاه داده اپراتور تلفن همراه تالیا پیادهسازی میشود، بر روی پایگاه داده مرتبط به دانشگاه دوک نیز پیادهسازی خواهد شد و نتایج به دست آمده با یکدیگر مقایسه خواهند شد.
پس از این که مشتریان مستعد رویگردانی شناسایی شدند، با بهره گرفتن از تکنیک خوشهبندی در دادهکاوی به شناسایی مشتریان با ارزش از میان آنها خواهیم پرداخت تا سازمان بتواند با تمرکز بیشتر بر روی مشتریان کلیدی، به اتخاذ رویکرد بازاریابی مناسب جهت جلوگیری از رویگردانی این مشتریان بپردازد.
روش تحقیق
روش تحقیق از نظر هدف، کاربردی است و به کاربرد دانش دادهکاوی در مدیریت ارتباط با مشتری در صنعت تلفن همراه میپردازد. به عبارت دیگر، در این تحقیق با بهره گرفتن از مدلهای دادهکاوی سعی در بهبود دقت پیشبینی رویگردانی مشتری و همچنین شناسایی مشتریان با ارزش از میان آنها داریم. از سوی دیگر با توجه به اینکه در این پژوهش به بررسی همبستگی بین متغیرهای پیشگو و متغیر هدف پرداخته میشود، میتوان بیان کرد که پژوهش حاضر بر اساس ماهیت و روش گردآوری دادهها، یک پژوهش توصیفی-همبستگی است.
ساختار کلی مدل پیشنهادی
شکل ۱-۱ شمایی از ساختار کلی مدل را نشان میدهد. چنانچه در شکل نیز مشخص است از دو پایگاه داده اپراتور تلفن همراه تالیا و دانشگاه دوک در این مدل استفاده شده است. فاز اول که شامل شناسایی مشتریان مستعد رویگردانی است بر روی هر دو پایگاه داده پیادهسازی میشود. از مشتریان شناسایی شده به عنوان مشتریان مستعد رویگردانی مربوط به پایگاه داده دانشگاه دوک برای پیادهسازی فاز دوم که شامل خوشهبندی مشتریان جهت شناسایی مشتریان با ارزش است استفاده میشود. به این منظور از این پایگاه داده متغیرهای موثر بر ارزش مشتری استخراج شده و مورد استفاده تکنیک خوشهبندی قرار میگیرد.
شکل ۱-۱: ساختار کلی مدل
تعریف کلمات کلیدی
ارزش عمر مشتری: یک بیان ساده از ارزش مشتری عبارت است از کل ارزش حاصله از وجود مشتری منهای کل هزینه مصرف شده برای حفظ مشتری (شهرابی ۱۳۹۰a).
الگوریتم ژنتیک: الگوریتم ژنتیک الگوریتمی از محاسبات تکاملی است که با تکیه بر نظریه داروین برای تولید جمعیت بعدی تکاملیافتهتر از فرایند تولید مثل الهام میگیرد (Karray and Silva 2004).
حفظ مشتری: فعالیتی است که یک سازمان فروش به منظور کاهش جدا شدن مشتری انجام میدهد. یک حفظ مشتری موفق با اولین تماس سازمان با مشتری شروع میشود و در سراسر طول عمر یک رابطه ادامه خواهد داشت (Ngai, Xiu et al. 2009).
دادهکاوی: دادهکاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از دادهها به منظور کشف الگوها و قوانین پنهان و معنیدار درون دادهها اطلاق میشود (شهرابی ۱۳۹۰a).
رویگردانی مشتری: رویگردانی مشتری که با عنوان فرار مشتری نیز شناخته شده است به عنوان تمایل مشتری برای متوقف نمودن تجارت خود با یک شرکت در یک دوره زمانی معین تعریف می شود (Neslin, Gupta et al. 2006).
سیستم چند دستهبند: سیستمهای چند دستهبند (MCSs) راه حل قدرتمندی برای مسائل تشخیص الگوی پیچیده هستند که اجازه استفاده همزمان از روشهای دستهبند متنوع برای حل یک مسئله خاص را میدهند (Ghosh 2002).
مدیریت ارتباط با مشتری: رویکردی یکپارچه برای درک و تاثیرگذاری بر رفتار مشتری از طریق ارتباطات معین با هدف بهبود کسب مشتری، حفظ مشتری، وفاداری مشتری و سودآوری مشتری یا استفاده استراتژیک از اطلاعات، فرایندها، تکنولوژی و افراد برای مدیریت ارتباط با مشتری با شرکت در طول چرخه عمر مشتری (Ngai, Xiu et al. 2009).
فصل دوم:
مروری بر ادبیات تحقیق
مقدمه
در این فصل سعی شده است مبانی نظری این تحقیق که شامل مفاهیم مدیریت ارتباط با مشتری (CRM) و دادهکاوی است به همراه پیشینه تحقیق به تفصیل معرفی شوند. در ابتدا مدیریت ارتباط با مشتری و ابعاد مختلف آن شرح داده شده است؛ در مبانی نظری CRM تلاش شده است تمرکز بیشتری بر روی مفهوم رویگردانی مشتری باشد. سپس، دادهکاوی به همراه توضیح کاملی از مفاهیم مرتبط به آن شرح داده میشود و به بررسی کابرد دادهکاوی در CRM میپردازیم. در ادامه، پیشینه تحقیق کاربرد دادهکاوی در رویگردانی مشتری در داخل و خارج کشور بررسی میشود. در پایان این فصل، شرکت اپراتور تلفن همراه تالیا که شرکت مورد مطالعه این تحقیق است معرفی میشود.
مدیریت ارتباط با مشتری (CRM)
امروزه در اکثر سازمانها، دیدگاه محصول محوری جای خود را به مشتری محوری داده است و این تغییر نتیجه بکارگیری سیستمهای مدیریت ارتباط با مشتری است. یک تعریف پذیرفته شده برای مدیریت ارتباط با مشتری عبارت است از: رویکردی یکپارچه برای درک و تاثیرگذاری بر رفتار مشتری از طریق ارتباطات معین با هدف بهبود کسب مشتری، حفظ مشتری، وفاداری مشتری و سودآوری مشتری یا استفاده استراتژیک از اطلاعات، فرایندها، تکنولوژی و افراد برای مدیریت ارتباط با مشتری با شرکت در طول چرخه عمر مشتری[۴] (Ngai, Xiu et al. 2009).
مدیریت ارتباط با مشتری برنامه پیچیدهای است که دادههای مشتری را از همه کانالهای ارتباط با مشتری بیرون میکشد و دید یکپارچهای را از مشتری در کل سازمان بوجود میآورد. تکنولوژی CRM رفتارهای مشتریان را پیگیری و تحلیل می کند و به سازمانها اجازه میدهد به راحتی مشتریان خود را بشناسند و بر روی فعالیتهای بازاریابی تمرکز کنند.
برآون به این نکته اشاره میکند که CRM به عنوان یک استراتژی رقابتی است که شما برای تمرکز روی نیازهای مشتریانتان و یکپارچهسازی رویکرد مواجهه با مشتری در کل سازمان به آن نیازمند هستید (Brown 2000).
گروه مشاورین گارتنر معتقد است که CRM بصورت راهبردی، فرایندی است که با سازماندهی دستهبندی مشتریان، ترویج رفتارهای رضایت بخش برای مشتری و پیادهسازی فرایندهای مشتری محور، سودآوری، درآمد و رضایت مشتری را به ارمغان میآورد.
مدیریت ارتباط با مشتری از سه بخش اصلی تشکیل شده است: مشتری، روابط و مدیریت. منظور از روابط، ایجاد مشتریان وفادارتر و سودمندتر از طریق ارتباطی یادگیرنده میباشد و مدیریت عبارت است از خلاقیت و هدایت یک فرایند کسب و کار مشتریمدار و قرار دادن مشتری در مرکز فرایندها و تجارب سازمان.
سازمانها با بهره گرفتن از CRM میتوانند چرخه فروش را کوتاهتر و وفاداری مشتری را با ایجاد روابط نزدیکتر افزایش دهند. سیستم CRM میتواند کمک کند تا مشتریان موجود حفظ و مشتریان جدید جذب شوند (Thompson 2002).
مدیریت ارتباط با مشتری، بر مبادله ارزش بین مشتری و سازمان بنا شده و بر ارزش ایجاد شده در این ارتباط تاکید میکند. بنابراین، تلاش سازمانها برای توسعه ارتباط بلند مدت با مشتریان، بر مبنای ایجاد ارزش برای هر دو طرف از اهداف اصلی CRM است. به عبارت دیگر، هدف از ارتباط با مشتری ارائه مزایایی از طریق مبادله دوجانبه و عمل به وعدهها است.
از سوی دیگر CRM یک راهبرد کسب و کار است که با پیشرفت فناوری تقویت میشود و از طریق آن، شرکتها به ایجاد ارتباطات سودمند بر پایه بهینهسازی ارزش دریافتی و ادراکی مشتریان میپردازند. در واقع CRM یک استراتژی است که برای کسب آگاهی بیشتر در مورد نیازها و رفتار مشتریان برای ارتباط بیشتر با آنان استفاده میشود. روابط خوب با مشتری رمز موفقیت در تجارت و کسب و کار میباشد.
تاریخچه CRM
سابقه مدیریت ارتباط با مشتری به دهه ۹۰ میلادی باز میگردد. اینکه سازمان چگونه به جذب مشتری بپردازد یا اینکه چگونه مشتری فعلی خود را حفظ نماید و به آنها خدمت بهتری ارائه نماید بحث جدیدی نیست، ولیکن مبحث فناوری اطلاعات و ابزار جدیدی که این فناوری فراهم ساخته موجب شده است که CRM به بحث جدیدی تبدیل شود. با بکارگیری فناوری اطلاعات در CRM روشهای جدیدی برای افزایش سوددهی سازمان و کاهش هزینههای آن در روابط با مشتری بوجود آمده است.
ضرورت بهرهگیری از CRM
در رقابت روزافزون برای کسب برتری در بازاریابی، بسیاری از شرکتها از سیستمهای CRM برای بهبود هوش تجاری، تصمیمگیری، تقویت ارتباط با مشتری و افزایش کیفیت خدمات و محصولات استفاده کردهاند. زیربنای مفهوم مدیریت مشتریمدار، شناخت و کسب رضایت مشتریان است که منجر به حفظ آنها میشود.
مدیریت ارتباط با مشتری یک دید و رویکرد وسیع برای یکپارچهسازی تعاملات سازمان و مشتریانش در حوزههای فروش، بازاریابی و نگهداری مشتری به منظور ایجاد و افزایش ارزش برای شرکت و مشتریانش ارائه میکند. برخی روندهای اخیر بر توانایی سازمانها برای ایجاد روابط پایدارتر با مشتریان اثرگذار بوده است؛ در این میان افزایش قدرت کامپیوترها و در دسترس قرار گرفتن ابزارهای فوق پیشرفته برای انجام فرایندهای دادهکاوی و تحلیل دادهها، ظهور تجارت الکترونیکی و توانایی هدفگیری مشتریان از طریق اینترنت با هزینه بسیار کمتر و افزایش توجه به اهمیت حفظ مشتریان و ارزش دوره عمر آنها، مهمترین عوامل موثر بودهاند.
بسیاری از مطالعات در بازاریابی نشان داده است که استفاده از ابزارهای دادهکاوی در CRM میتواند کارایی شرکتها را افزایش دهد. مدیران برای کاهش مشتریان از دست رفته نیاز به شناخت رفتار مشتریان و عوامل کسب رضایت آنها دارند. بکارگیری دادهکاوی در پایگاههای داده بزرگ کمک میکند تا با کشف روابط و روندهای ناشناخته در ارتباط با مشتریان، تصمیمهای پیچیده تجاری آسانتر و با دانش عمیقتر انجام پذیرد.
سازمانها باید منابع محدود خود را به مشتریان سودآور خود تخصیص دهند تا بیشترین سود را کسب کنند؛ از اینرو بخشبندی مشتریان بر اساس ویژگیهای آنها و ارزشی که برای سازمان ایجاد میکنند اهمیت پیدا میکند. همچنین بر اساس دستهبندی مشتریان سازمان میتواند استراتژیهای اختصاصی برای برخورد با هر دسته از مشتریان تعریف نماید.
علل پیادهسازی CRM
تحقیقی که توسط سوییت در سالهای ۲۰۰۱ تا ۲۰۰۴ در بین شرکتهای استفاده کننده از CRM در انگلیس صورت گرفته، نشان میدهد که عوامل مهم برای پیادهسازی CRM در سازمانها، بهبود رضایت مشتری، حفظ مشتریان موجود، بهبود ارزش طول عمر مشتری، کسب اطلاعات استراتژیک، جذب مشتریان و صرفهجویی در هزینهها میباشد (اکبری ۱۳۸۹).
بکارگیری سیستمهای CRM برای جذب مشتریان جدید اهمیت کمتری در این تحقیق داشته است. اکثر مدیران دریافتهاند که کسب مشتری جدید هزینه بیشتری نسبت به نگهداری مشتری موجود دارد.
در تحقیق دیگری نشان داده شده است که بدست آوردن مشتری مهم است اما نگهداری و رضایت آنها اهمیت بیشتری دارد و حفظ مشتری موجود هزینه کمتری دارد (Zineldin 1999).
جدول ۲‑۱: علل پیادهسازی مدیریت ارتباط با مشتری (اکبری ۱۳۸۹)
علل پیادهسازی | سال ۲۰۰۴ | سال ۲۰۰۳ | سال ۲۰۰۲ | سال ۲۰۰۱ |
بهبود سطح رضایت مشتری | ۴٫۱۹ | ۴٫۴۴ | ۴ | ۴٫۳۲ |
حفظ مشتریان موجود | ۳٫۹۵ | ۳٫۹ | ۴٫۱۶ | ۴٫۴۶ |
بهبود ارزش دوره عمر مشتری | ۳٫۴۸ | ۴٫۴۶ | ۴٫۲۲ | ۴٫۳۸ |
ایجاد اطلاعات استراتژیک بهتر جهت فروش، بازاریابی، مالی و غیره | ۴٫۰۸ | ۳٫۸۲ | ۳٫۸۸ | ۴٫۱۲ |
جذب مشتریان جدید | ۳٫۵ | ۳٫۴۸ | ۳٫۶۰ | ۳٫۹۸ |
صرفهجویی در هزینه | ۲٫۹۸ | ۲٫۹۸ | ۳٫۳۱ | ۳٫۸۱ |
- عدد ۱ به این معنی است که علت پیادهسازی مهم نمیباشد و عدد ۵ یعنی علت پیادهسازی بسیار مهم است
انواع مدیریت ارتباط با مشتری
در مجموع چهار نوع فناوری در CRM وجود داردکه عبارتند از:
- مدیریت ارتباط با مشتری عملیاتی: دادههای مشتری از نقاط تماس مانند مرکز تماس، سیستم مدیریت تماس، پست، فکس، پرسنل فروش، وب و غیره گرفته میشوند و دادهها در یک بانک اطلاعاتی مرکزی مشتری ذخیره و سازماندهی میشوند تا در دسترس همه کاربرانی که با مشتری در تعامل هستند قرار بگیرد. یک CRM عملیاتی شامل مرکز تماس و مدیریت تماس است. سیستم مدیریت تماس میتواند اطلاعات جامع و کاملی در ارتباط با هر تماس با مشتریان ایجاد نماید و به کاربردهایی از مدیریت ارتباط با مشتری میپردازد که در ارتباط رو در رو با مشتری است.
- مدیریت ارتباط با مشتری تحلیلی: دادههایی که در بانک اطلاعاتی مرکز تماس ذخیره شده است، از طریق ابزارهای تحلیلی برای شناسایی مشخصات مشتری، شناسایی الگوهای رفتاری، تعیین سطح رضایت مشتری و تقسیمبندی مشتریان تحلیل میشود. اطلاعات بدست آمده از CRM تحلیلی جهت توسعه بازاریابی و استراتژیهای تبلیغاتی کمک میکند. این نوع از CRM توسط کتورو به عنوان دید ۳۶۰ درجه مشتری نامیده شده است (Kotorov 2002).
- مدیریت ارتباط با مشتری مشارکتی: به معنای مشارکت تمامی کانالهای ارتباط با مشتری است. سیستمهای CRM با سیستمهای سازمانی جهت پاسخگویی بیشتر به مشتریان در کل زنجیره تامین، یکپارچه میباشند (Kracklauer and Mills 2004).
- مدیریت ارتباط با مشتری الکترونیکی: با بهره گرفتن از CRM الکترونیکی، اطلاعات مشتری در تمامی نقاط تماس سازمان از طریق اینترنت و اینترانت در دسترس سازمان و شرکای تجاری سازمان قرار میگیرد.
رویگردانی مشتری[۵]
رویگردانی مشتری که با عنوان فرار مشتری[۶] نیز شناخته شده است به عنوان تمایل مشتری برای متوقف نمودن تجارت خود با یک شرکت در یک دوره زمانی معین تعریف می شود (Neslin, Gupta et al. 2006). رویگردانی مشتری تقریبا مرتبط با حفظ مشتری، یکی از ابعاد اصلی CRM، و وفاداری مشتری است (ابعاد CRM در ادامه توضیح داده خواهند شد). رویگردانی مشتری تبدیل به یک نگرانی عمده برای شرکتها در تمامی صنایع شده است؛ چراکه این موضوع منجر به کاهش سطح سود شرکتها شده است. یک تحقیق انجام شده توسط ریچهلد و ساسر[۷] نشان میدهد که افزایش ۵ درصدی در نرخ حفظ مشتری به افزایش ۸۵ درصدی در سود بانکها و افزایش ۵۰ درصدی در حق واسطهگری شرکتهای بیمه منجر میشود (Reichheld and Sasser 1990).
بطور کلی سه نوع رویگردانی مشتری وجود دارد (شهرابی ۱۳۹۰a):
- رویگردانی اختیاری: مشتریان بر اساس تمایل خود و آزادانه تصمیم میگیرند که تجارت و خرید خود را در جای دیگری انجام دهند.
- رویگردانی اجباری: رویگردانی اجباری زمانی اتفاق میافتد که شرکت و نه مشتری ارتباط را قطع میکند؛ بیشتر این امر به دلیل عدم پرداخت صورتحسابها و بدهیها توسط مشتریان اتفاق میافتد.
- رویگردانی پیشبینی شده: زمانی که مشتری دیگر در بازار هدف یک محصول قرار نگیرد، رویگردانی پیشبینی شده اتفاق افتاده است. کودکانی که رشد کردهاند و دیگر به شیر خشک نیاز ندارند مثالی از این دسته مصرفکنندگان هستند.
بورز و ون دن پائل[۸] رویگردانی اختیاری را در سرویسهای مبتنی بر اشتراک، مانند سرویس Pay-TV به دو گروه تقسیم کردهاند: رویگردانهای تجاری[۹] و رویگردانهای مالی[۱۰] . بر طبق تحقیق آنها رویگردانان مالی مشتریانی هستند که به دلیل عدم استطاعت مالی شرکت را ترک میکنند، یعنی نمیتوانند حق اشتراک را بپردازند و رویگردانان تجاری آنهایی هستند که بعد از اتمام قراردادشان با شرکت ، اقدام به تمدید قرارداد نمیکنند. به عبارت دیگر، آگاهانه میخواهند شرکت دیگری را به عنوان سرویس دهنده انتخاب کنند. آنها در تحقیق خود همچنین به بررسی و آنالیز بقای مشتریان در شرکت پرداختهاند. بر طبق یافته آنها منحنی بقا برای مشتریانی که دارای رویگردانی مالی بودند با منحنی بقای مشتریانی که دارای رویگردانی تجاری بودند متفاوت است. این منحنیها نشان میداد که رویگردانهای تجاری در خاتمه قراردادشان شرکت را ترک میکنند ولی رویگردانهای مالی در میانه قراردادشان شرکت را ترک میکنند. آنها هم چنین به این نتیجه رسیدند که پیشبینی رویگردانهای مالی آسانتر از پیشبینی نوع تجاری است (Burez and Van den Poel 2007).
نباید انواع مختلف رویگردانی را بجای یکدیگر اشتباه گرفت؛ به خصوص آنکه تمایز بین آنها ساده است. این موضوع در مورد مشتریان رویگردان اختیاری و اجباری حیاتیتر است. شرکتهایی که رویگردانیهای اختیاری و اجباری را اشتباه میگیرند به واسطه دو عامل صرف هزینه برای حفظ مشتریان نامطلوب و همچنین افزایش بدهیهای معوقه مشتریان متضرر میشوند.
رویگردانی به عنوان درصدی از مشتریان که شرکت را ترک میکنند توصیف میشود. برای مثال یک شرکت که دارای نرخ رویگردانی سالیانه به میزان ۲۵ درصد است، متوسط طول عمر مشتری در این شرکت ۴ سال است و وفاداری مشتریان ۷۵ درصد است.
با در نظر گرفتن نرخ رویگردانی مشتریان در صنایع مختلف، میتوان به این موضوع پی برد که صنعت مخابرات یکی از صنایعی است که در خطر رویگردانی مشتری زیادی است، طوری که نرخ رویگردانی در این صنعت به طور سالانه ۲۰ تا ۴۰ درصد است (Berson, Smith et al. 1999). با توجه به رقابت شدید در بازار بخش مخابرات و بالا بودن نرخ رویگردانی در این بخش، بسیاری از تحقیقات انجام شده در زمینه پیشبینی رویگردانی مشتریان روی موارد مخابراتی صورت گرفته است.
دادهکاوی و مفاهیم آن
در مرور ادبیات تعاریف متعددی برای دادهکاوی ارائه شده است. برخی از این تعاریف عبارتند از:
دادهکاوی به بررسی و تجزیه و تحلیل مقادیر عظیمی از دادهها به منظور کشف الگوها و قوانین پنهان و معنیدار درون دادهها اطلاق میشود(شهرابی ۱۳۹۰a).
دادهکاوی عبارت است از فرایند استخراج اطلاعات معتبر، از پیش ناشناخته، قابل فهم و قابل اعتماد از پایگاههای داده بزرگ و استفاده از آن در تصمیمگیری در فعالیتهای تجاری مهم (Witten and Frank 2005).
دادهکاوی یعنی استخراج دانش کلان، قابل استناد و جدید از پایگاه دادههای بزرگ (Han, Kamber et al. 2011).
دادهکاوی به فرایند نیم خودکار تجزیه و تحلیل پایگاه دادههای بزرگ به منظور یافتن الگوهای مفید اطلاق میشود (Han, Kamber et al. 2011).
دادهکاوی یعنی تجزیه و تحلیل مجموعه دادههای قابل مشاهده برای یافتن روابط مطمئن بین دادهها (Edelstein 1998).
چنانچه مشخص است، آنچه در تمامی این تعاریف مشترک است وجود مفاهیمی چون استخراج دانش و کشف الگوهای پنهان از میان دادهها است.
کاربرد موفق دادهکاوی در زمینههای مختلف تجاری در دهه های اخیر، موجب افزایش روزافزون محبوبیت این علم شده است. برای دانش دادهکاوی هیچ محدودیتی را نمیتوان متصور بود. به عبارت دیگر، کاربرد دانش دادهکاوی در تمامی زمینههای برخوردار از داده بوده و تنها محدودیت آن فقدان داده است. هدف دادهکاوی ایجاد مدلهایی برای تصمیمگیری است. بیشتر تکنیکهای دادهکاوی ابزار مدلسازی هستند که اغلب از سالها یا دهه های قبل وجود داشتهاند و جزو زیرشاخههای علومی چون هوش مصنوعی[۱۱]، یادگیری ماشین[۱۲]، محاسبات نرم[۱۳] و آمار[۱۴] هستند.
تاریخچه دادهکاوی
حجم عظیم دادهها نتیجه تجارت نوین است. امروزه پایگاههای داده با نرخ افزایندهای در حال رشد هستند. بنابر تخمینهای ارائه شده، حجم دادهها در جهان هر ۲۰ ماه به حدود دو برابر میرسد؛ این در حالی است که سازمانها امروزه کمتر از یک درصد از دادههایشان را برای تحلیل استفاده میکنند(شهرابی ۱۳۹۰a). از طرف دیگر، قدرت و توانایی محاسباتی کامپیوترها نیز به سرعت در حال افزایش است. همه این موارد شرایطی را برای بکارگیری هرچه بیشتر و وسیعتر تکنیکهای دادهکاوی فراهم میآورند، بطوری که اخیرا دادهکاوی موضوع بسیاری از مقالات، کنفرانسها و تحقیقات کاربردی شده است.
واژه دادهکاوی تا اوایل دهه ۹۰ میلادی مفهومی نداشت و بکار برده نمیشد. در دهه ۶۰ میلادی و پیش از آن زمینههایی برای ایجاد سیستمهای جمع آوری و مدیریت دادهها ایجاد شد و تحقیقاتی در این زمینه انجام پذیرفت که منجر به معرفی و ایجاد سیستمهای مدیریت پایگاه داده[۱۵] (DBMS) شد. توسعه سیستمهای پایگاهی پیشرفته در دهه ۸۰ و ایجاد پایگاههای شیگرا[۱۶]، کاربردگرا[۱۷] و فعال[۱۸] باعث توسعه همه جانبه و کاربردی شدن این سیستمها در سراسر جهان گردید. بدین ترتیب DBMSهایی همچون DB2، Oracle، Sybase و غیره ایجاد شدند و حجم زیادی از دادهها توسط این سیستمها مورد پردازش قرار گرفت. شاید بتوان مهمترین عامل در معرفی دادهکاوی را مبحث کشف دانش از پایگاه داده[۱۹] (KDD) دانست بطوری که در بسیاری از موارد KDD و دادهکاوی بصورت مترادف بکار برده میشوند. الگوریتمهای دادهکاوی در دهه اخیر با سرعت بسیار زیاد در حال توسعه هستند. روند تکامل فرایندهای دادهای در کسب و کار در جدول ۲-۲ آمده است (اکبری ۱۳۸۹).
جدول ۲‑۲ : گامهای تکامل دادهکاوی
ویژگیها | تکنولوژیهای مورد استفاده | سوالات کسب و کار | گامهای تکامل |
تحلیل دادههای گذشته | تیپهای کامپیوتری – دیسکتها | درآمد کل ۵ سال گذشته چقدر بوده است؟ |
جمع آوری دادهها Data Collection دهه ۱۹۶۰ |
تحلیل پویای دادههای گذشته در یک سطح |
پایگاه دادههای ارتباطی ODBC، SQL |
در ماه گذشته چند واحد از یک محصول خاص بفروش رفته است؟ |
دسترسی به دادهها Data Access دهه ۱۹۸۰ |
تحلیل پویای دادههای گذشته در چند سطح | OLAP، DW | در ماه گذشته چند واحد از یک محصول خاص در مقایسه با مراکز دیگر بفروش رفته است؟ |
انبار دادهها Data warehouse DSS دهه۱۹۹۰ |
ارائه اطلاعات و دادههای مربوط به آینده |
کامپیوترهای چند پردازنده الگوریتمهای پیشرفته |
در ماه آینده چه اتفاقی خواهد افتاد؟ |
دادهکاوی Data Mining امروزه |
اگرچه عبارت دادهکاوی اغلب به عنوان کشف دانش مورد استفاده قرار میگیرد، ولی فرایند کشف دانش مفهومی گستردهتر دارد که در ادامه به توضیح آن خواهیم پرداخت.
فرایند کشف دانش
فرایند استخراج دانش در شکل ۲-۱ نشان داده شده است. همانطور که در شکل مشاهده میکنید، فرایند کشف دانش یک فرایند شش مرحلهای است که دادهکاوی فقط گامی از این فرایند است(Han, Kamber et al. 2011).
شکل ۲‑۱ : فرایند کشف دانش
مراحل فرایند استخراج دانش عبارت است از:
مرحله اول، انتخاب[۲۰] داده: ورودی این مرحله حجم عظیمی از داده است. دادهها عموما در شکلهای گوناگون و در مکانهای مختلف نگهداری میشوند. ابتدا باید دادهها یکپارچه و در یکجا ذخیره شوند. پس انباردادهای[۲۱] ایجاد میشود که مجموعهای از مارت دادهها[۲۲] است. انبارداده مجموعهای از اطلاعات درباره موضوعات مختلف در گستره یک سازمان است، اما مارت دادهها زیر مجموعهای از انبار داده است. انبارداده مخاطبش کل سازمان است درحالیکه مارت دادهها بر اساس موضوعی که جمع آوری شده است در همان بخش از سازمان مورد استفاده قرار میگیرد. انبار داده از طریق فرایند پاکسازی داده، یکپارچهسازی دادهها، انتقال دادهها، بارگیری دادهها و دادههای متناوب ساخته میشود. اما معمولاً انبار داده بهوسیله پایگاه دادههای چند بعدی مدل میشوند، که هر کدام از بعدهای انبار داده نشان دهنده یک یا مجموعهای از صفات[۲۳] است. حال با توجه به مسئله مورد بحث و کاربردی که هدف فرایند دادهکاوی است؛ از این انبار داده، مجموعهای از دادهها انتخاب میشود. پس خروجی مرحله انتخاب، یک مجموعه داده هدف[۲۴] است (Sumathi and Sivanandam 2006).
مرحله دوم، پیشپردازش[۲۵]: دادههای موجود در بانکهای اطلاعاتی بهخودی خود قابل استخراج شدن نیستند؛ زیرا کیفیت دادههای اصلی پایین است. در این مرحله یک سری پردازشهایی بر روی داده انجام میشود تا دادهها آمادهی فرایند دادهکاوی شوند. خروجی این مرحله، دادههای آمایش شده است. سه عامل بر روی کیفیت دادهها تاثیرگذار است که در ذیل به آنها اشاره میکنیم:
مقادیر مفقود شده[۲۶]: اگر مقادیر برخی از رکوردها در مجموعه داده مورد بررسی در بعضی از ویژگیها موجود نباشد در این صورت در آن ویژگی در رکورد مورد نظر با مشکل مقدار مفقود شده مواجه خواهیم بود (Larose 2005). برای برطرف کردن مقادیر مفقود شده، شش رویکرد توسط هان و همکاران ارائه شده است که عبارت است از (Han, Kamber et al. 2011):
- حذف کردن رکوردهایی که دارای مقادیر مفقود شده هستند.
- پر کردن دستی مقادیر مفقود شده.
- پر کردن مقادیر با یک مقدار ثابت یا نامشخص.
- پر کردن خودکار با بهره گرفتن از میانگین و یا مد در رکوردهای موجود.
- پر کردن خودکار با بهره گرفتن از میانگین و یا مد آن ویژگی در رکوردهای موجود در کلاس مشابه با کلاس رکورد با مقادیر مفقود شده.
- پر کردن خودکار با بهره گرفتن از استنتاج از روی سایر ویژگیهای موجود در مجموعه داده و استفاده از الگوریتمهای دادهکاوی.
- نویز : تغییراتی که در مقدار اصلی ویژگی ایجاد میشود را نویز گویند (Larose 2005). اگر مقادیر ویژگی در مقدار کوچکی مانند ε اضافه و یا از این مقدار کم شده باشد، در آن ویژگی نویز ایجاد شده است. مقادیر نویز در ویژگیها قابل رفع شدن هستند.
- مقادیر دور افتاده[۲۷] : به مقادیری واقعی از ویژگیها گفته میشود که با مقادیر دیگر ویژگی تفاوت معناداری داشته باشند. بهعبارت دیگر، مقادیری که متفاوت از اکثریت مقادیر موجود باشند؛ مقادیر دور افتاده هستند (Larose 2005). در شکل ۲-۲ نقاط دور افتاده مشخص شدهاند.
شکل ۲‑۲ : دادههای دور افتاده
تفاوت دادههای دور افتاده با نویز در این است که دادههای دور افتاده به مقادیر واقعی گفته میشود که هویت دارند و مقادیر ناخواسته نیستند، در حالیکه نویز مقادیر ناخواستهای هستند که مقادیر اصلی را تغییر دادهاند. مقادیر نویز هر ویژگی قابل رفع شدن است و باید این مقادیر رفع شوند. اما روش برخورد با دادههای دور افتاده بستگی به کاربرد مسئله دارد. در بعضی از کاربردها باید نقاط دور افتاده را از تحلیلها حذف کرد و در بعضی از کاربردها باید تحلیلی روی نقاط دور افتاده انجام داد (Han, Kamber et al. 2011).
پس از آن که هر یک از مشکلات ذکر شده در بالا از میان دادهها شناسایی و برطرف شدند، پردازشهایی در جهت آمادهسازی دادهها برای مدلسازی بر روی دادهها انجام میشود. نمونهای از این پردازشها عبارتند از:
- تجمیع:
در این مرحله بر اساس هدف مشخص شده چند ویژگی با هم ترکیب و یک ویژگی ایجاد میشود. به این نکته توجه داشته باشید زمانی که بعد یا مقیاس[۲۸] داده بالا باشد، باعث میشود دانشی از دست برود. به این منظور این مرحله قبل از اجرای الگوریتمهای دادهکاوی بر روی داده انجام میشود. اهداف فرایند تجمیع عبارتند از:
- کاهش ویژگیها و رکوردها،
- تغییر دادن مقیاس داده؛ بهعنوان مثال، میتوان بهجای ویژگیهایی مانند منطقه، ایالت و ناحیه، شهر را جایگزین کرد. این کار ممکن است دقت مسئله را کاهش دهد، اما باعث میشود فرایند دادهکاوی بر روی داده انجام شود.
- پایدار[۲۹] کردن داده؛ اگر یک ویژگی، ویژگی باشد که تعداد مقادیر زیادی را اختیار کنند؛ در این صورت این ویژگی نمیتواند ویژگی موثری در فرایند دادهکاوی باشد. چنین ویژگیای باعث میشود دقت الگوریتم به شدت کاهش یابد. حال اگر بتوان بازه تغییرات ویژگیها را کاهش داد، میتوان از ویژگیای که تأثیر منفی بر فرایند داده کاوی میگذارد، ویژگی ایجاد کرد که تأثیر مثبتی بر روی الگوریتمها داشته باشد.
- نمونهگیری[۳۰]:
فرایند نمونهگیری گاهی برای پردازش دادهها مورد استفاده قرار میگیرد. زمانیکه با مجموعه دادههای ناآشنا کار میشود، میتوان از این گام برای شناخت مجموعه داده استفاده کرد. نمونهگیری در دادهکاوی با مفهوم نمونهگیری آماری متفاوت است. در آمار نمونهگیری انجام میشود، به سبب آن که دسترسی به تمام رکوردها بسیار گران و هزینهبر است. اما در دادهکاوی نمونهگیری به دلیل در دسترس نبودن رکوردها نیست، بلکه به دلیل هزینهبر و زمانبر بودن اجرای الگوریتمهای دادهکاوی بر روی تمام رکوردها است. در این حالت اگر الگوریتمهای داده کاوی بر روی تمام رکوردهای موجود در پایگاه داده اجرا شود، الگوریتم مرتبه زمانی بسیار بالای خواهد داشت. پس گاهی به سبب زمانبر و هزینهبر بودن و گاهی نیز به دلیل در دسترس نبودن سیستمهایی که بتواند با حجم بالای از دادهها کار کند، باید از رکوردها نمونهگیری شود. نمونه باید به گونهای باشد که نماینده مناسبی از مجموعه داده باشد. برای انتخاب یک نمونه مناسب باید به مسئله توجه شود و با توجه به مسئله، نمونه انتخاب شود. علاوه بر این در نمونهگیری باید به توزیع ویژگیهای مهمتر توجه بیشتری شود. فرایند نمونهگیری میتواند یکی از چهار روش زیر باشد:
- نمونهگیری به صورت تصادفی: زمانی از این روش استفاده میشود که مجموعه داده ناشناخته باشد و درکی از مجموعه داده موجود نباشد.
- نمونهگیری بدون جایگزینی: زمانی از این روش استفاده میشود که مجموعه داده کوچک بوده و رکوردها شبیه به هم نباشد.
- نمونهگیری با جایگزینی: در این روش هر رکورد میتواند بیش از یکبار در نمونه آورده شود. از این روش زمانی استفاده میشود که مجموعه داده بزرگ و رکوردها شبیه به هم باشند.
- نمونهگیری از دسته: ابتدا رکوردها را بر اساس معیاری دستهبندی کرده و از هر دسته، تعدادی رکورد انتخاب میشود.
در مواقعی که معیارهایی مانند سرعت و پیچیدگی زمانی مهم نیستند، روش نمونهگیری بدون جایگزینی مناسبتر از نمونهگیری با جایگزینی است. در نمونهگیری هر چقدر تعداد رکوردها بیشتر باشد امکان بهدست آوردن نظم موجود بیشتر خواهد بود. نباید نمونه خیلی کوچک باشد که نظم موجود در دادهها از بین برود.
- کاهش بعد[۳۱]:
زمانی که بعد دادهها بالا باشد در این صورت پراکندگی داده بیشتر و هر چقدر پراکندگی دادهها بیشتر، دادهها از هم دورتر خواهند بود. در این صورت نمیتوان بهخوبی نظم موجود در دادهها را پیدا کرد و ممکن است برخی از نظمها با افزایش بعد داده از بین برود. پس بهتر است تا حد امکان ویژگیهای نامربوط در مسئله مورد بررسی حذف شوند. اهداف این مرحله عبارت است از:
- کاهش ابعاد: این کار باعث کاهش زمان و افزایش سرعت در الگوریتم مورد نظر میشود.
- درک آسانتر: انسان میتواند تا چهار بعد را درک کند، پس هر چقدر ابعاد مسئله کوچکتر شود درک مسئله آسانتر میشود.
- بالا رفتن دقت و سرعت الگوریتم: با حذف ویژگیهایی که نمیتواند اثر مثبتی بر روی هدف تعیین شده در مسئله داشته باشد، سرعت اجرا الگوریتم بالا میرود و الگوریتم درگیر ویژگیهای غیرمفید نمیشود. علاوه بر این، حذف ویژگیهای غیر مرتبط باعث میشود تشخیص دادههای نویز راحتتر شود.
- انتخاب زیرمجموعهای از ویژگیها[۳۲]:
تعداد زیاد ویژگیها بر سرعت اجرای الگوریتمها اثر منفی میگذارد. لازم است بنابر هدف، مجموعهای از ویژگیها انتخاب شود. بعضی از ویژگیها در تمام مسائل ویژگیهای هستند که کمکی به حل مسئله نمیکنند. برای هر هدفی میتوان با بهره گرفتن از الگوریتمهایی مانند درخت تصمیم ویژگیهای مهمتر را شناسایی کرد و از آن ویژگیها برای ایجاد مدل استفاده کرد.
- ایجاد ویژگی:
با توجه به ویژگیهای موجود میتوان ویژگی جدیدی ایجاد کرد. به طوری که ویژگی ایجاد شده اطلاعات مهمی در مورد مجموعه داده در اختیار محقق قرار میدهد. سه روش برای ایجاد یک ویژگی وجود دارد که عبارت است از:
- استخراج ویژگی[۳۳]: زمانی که مجموعه داده مورد بررسی شامل دادههای چند رسانهای باشد، استخراج ویژگی بسیار موثر خواهد بود.
- نگاشت داده به یک فضای جدید: با بهره گرفتن از نگاشتی داده از یک بعد به بعد دیگر انتقال داده میشود. این کار در الگوریتم تحلیل مولفههای اصلی و همچنین نوعی از الگوریتم ماشین بردار پشتیبان انجام میشود.
- ترکیب ویژگیها: این کار در مرحله تجمیع داده صورت میگیرد.
مرحله سوم، تبدیل[۳۴]: در این مرحله دادهها در صورت نیاز از یک حوزه به حوزه دیگر منتقل میشوند و برای تحلیل آماده میشوند.
مرحله چهارم، دادهکاوی: در این مرحله از الگوریتمهای دادهکاوی برای ساخت مدل استفاده میشود. تعدادی از الگوریتمهای دادهکاوی در همین فصل توضیح داده شدهاند.
مرحله پنجم، ارزیابی و بازنمایی: در این مرحله دقت هر الگوریتم ارزیابی میشود. بهعبارت دیگر تشخیص الگوهای صحیح مورد نظر، از سایر الگوها در این مرحله انجام میشود و صحت الگوها بر اساس معیارهایی سنجیده میشود.
مرحله ششم، دانش: دانش بهدست آمده از الگوریتمها به روشی که برای انسان قابل درک باشد، بیان میشود.
فرایند CRISP – DM [۳۵]
روشهای گوناگونی برای پیادهسازی و اجرای پروژههای دادهکاوی وجود دارد. استفاده از این روشها باعث میشود، دادهکاو مدیریت بهتری بر روی پروژه مورد بررسی خود داشته باشد. یکی از روشهای بسیار قوی و رایج در ادبیات دادهکاوی فرایند CRISP-DM است. این فرایند استانداردی جهانی برای انجام پروژههای کاربردی در دادهکاوی است که از شش فاز به صورت یک روند حلقهای تشکیل شده است. شکل ۲-۳ نحوه قرار گرفتن این شش فاز را در این مدل نمایش میدهد (شهرابی ۱۳۹۰a).
شکل ۲‑۳ : فرایند CRISP-DM
فاز اول – درک فضای کسب و کار[۳۶]
در این فاز تمرکز اصلی بر روی تعیین اهداف پروژه و نیازهای وابسته به آن است که از منظر کسب وکار مطرح میشود. در واقع در این فاز سعی میشود با توجه به نیازهای سازمان و خواستههای مورد انتظار از سازمان مسئلهای تعریف گردد. سپس مسئلهی تعریف شده به صورتی تبدیل میشود تا تکنیکهای دادهکاوی در آن قابل اجرا باشد. بهعبارت دیگر، برای اینکه دادهکاو فعالیت خود را آغاز کند، نیاز دارد با محیط و فرآیندها آشنا شود. هدف تحلیلگر کشف شاخص مهمی در آغاز پروژه است که میتواند در خروجی نهایی تأثیرگذار باشد. این فاز از چهار زیرفاز زیر تشکیل شده است:
- تعیین اهداف تجاری
- ارزیابی موقعیت
- تعیین اهداف پروژه دادهکاوی
- تهیه برنامه پروژه
فاز دوم – درک دادهها[۳۷]
مواد اولیه یک پروژه دادهکاوی دادهها هستند. این فاز با جمع آوری دادههای اولیه آغاز میشود. سپس به منظور دستیابی به یک درک اولیه از دادهها و شناسایی مشکلات تاثیرگذار بر روی کیفیت آنها پردازشهایی بر روی دادهها انجام میشود. پردازشهای انجام شده بر روی دادهها باعث میشود، یک فرضیه جالب از دادهها به منظور کشف اطلاعات پنهان شکل گیرد. این فاز از چهار مرحله تشکیل شده است که عبارتاند از:
- جمع آوری دادهها
- تشریح و توصیف دادهها
- کاوش دادهها
- اعتبارسنجی کیفیت دادهها
فاز سوم – آمادهسازی دادهها[۳۸]
تمام فعالیتهایی که باعث ساخت مدل از روی دادههای اولیه میشود، توسط این فاز پوشش داده میشود. این فاز طولانیترین مرحله در فرایند CRISP-DM است. ایجاد جدول، انتخاب ویژگی و رکوردها با توجه به هدف تعیین شده و همچنین تبدیل و تمیز کردن دادهها برای استفاده در مدل از جمله وظایفی است که در این فاز انجام میشود. این وظایف در قالب زیرفازهای زیر انجام میشود:
- انتخاب دادهها
- پاکسازی دادهها
- ساختاردهی دادهها
- یکپارچهسازی دادهها
- تنظیم فرمت دادهها
فاز چهارم – مدلسازی[۳۹]
هدف اصلی پروژه دادهکاوی این فاز است. در این فاز تکنیکهای مختلفی جهت آنالیز دادهها و استخراج دانش از آنها به کار گرفته میشود، سپس کاراترین مدل انتخاب میشود. در برخی از مواقع برای استفاده از الگوریتمی خاص در مدلسازی، لازم است شکل داده تغییر پیدا کند. در نتیجه این فاز با فاز آمادهسازی دادهها در ارتباط است. این فاز از چهار زیرفاز زیر تشکیل شده است:
- انتخاب تکنیکهای ساخت مدل
- طراحی آزمایشها
- ساخت مدل
- ارزیابی مدل
فاز پنجم – ارزیابی [۴۰]
پس از انتخاب مدل، در این فاز به بررسی و ارزیابی این موضوع پرداخته میشود که آیا نتایج آنالیز دادهها ما را در رسیدن به اهداف کسب و کار یاری میکنند؟ در این فاز، دانش بهدست آمده در فاز چهار مورد تجزیه و تحلیل قرار میگیرد تا میزان سودمندی و کاربرد آن مشخص شود. بهعنوان مثال در مورد مدلهای پیشبینی کننده، دقت مدل با بهره گرفتن از دادههای آزمون تعیین میشود تا در صورت تایید نتایج حاصل بهکار گرفته شود. در پایان این فاز تصمیمی در رابطه با بهره گرفتن از نتایج دادهکاوی گرفته میشود. مراحل این فاز عبارتند از:
- ارزیابی نتایج
- مرور فرایند دادهکاوی
- تعیین گامهای بعدی
فاز ششم – توسعه [۴۱]
در این فاز سود حاصل از سرمایهگذاری انجام شده در مراحل قبلی بهدست میآید. تمرکز این فاز روی یکپارچهسازی دانش در فرآیندهای کسب و کار است بهگونهای که مسائل اساسی کسب و کار حل شود. با این حال، این فاز میتواند به سادگی تهیه یک گزارش ساده و یا به پیچیدگی تکرار اجرای فرایند دادهکاوی در گستره سازمان باشد. در بیشتر موارد این مشتری است که گامهای این فاز را انجام میدهد و البته برای مشتری مهم است که بداند که چه اقداماتی در جهت به اجرا درآوردن مدلهای ایجاد شده انجام دهد. این فاز از چهار مرحله تشکیل شده است که عبارت است از:
- استقرار طرح
- نظارت و نگهداری
- آمادهسازی گزارش نهایی
- مرور پروژه
پس از آشنا شدن با نحوهی اجرای پروژههای دادهکاوی و مراحل استخراج دانش، لازم است تمرکز بیشتری بر روی دادهکاوی و وظایفی که توسط آن قابل انجام است، و همچنین ابزار و تکنیکهای دادهکاوی داشته باشیم.
وظایف دادهکاوی
دادهکاوی بطور کلی به دو شکل هدایت شده[۴۲] و غیرهدایت شده[۴۳] وجود دارد(شهرابی ۱۳۹۰a). در دادهکاوی هدایت شده با داشتن یک متغیر هدف خاص و از پیش تعیین شده به دنبال الگویی خاص میگردیم، بطوری که در دادهکاوی غیرهدایت شده هیچ متغیر هدفی وجود نخواهد داشت و هدف یافتن تشابهات بین گروههایی از اطلاعات است. اگر بخواهیم تکنیکهای دادهکاوی را بر اساس فعالیت و وظیفه تقسیمبندی کنیم، شش عمل زیر را خواهیم داشت(Larose 2005):
- دستهبندی[۴۴]
- تخمین[۴۵]
- پیشبینی[۴۶]
- همبستگی[۴۷]
- خوشهبندی[۴۸]
- توصیف[۴۹]
در این تقسیمبندی سه مورد اول دادهکاوی هدایت شده هستند، همبستگی و خوشهبندی جزو دادهکاوی غیر هدایت شده است و توصیف و نمایهسازی نیز میتواند هم هدایت شده و هم غیر هدایت شده باشد. در ادامه به توضیح مختصری از هر یک از این وظیفهها میپردازیم.
دستهبندی
تکنیکهای دستهبندی از جمله تکنیکهای رایج و پرکاربرد در دادهکاوی است. دستهبندی شامل بررسی ویژگیهای یک شی جدید و تخصیص آن به یکی از کلاسهای از قبل تعیین شده است(شهرابی ۱۳۹۰a). به عبارت دیگر، در مسائل دستهبندی هدف شناسایی ویژگیهایی از دادهها است که گروهی که داده به آن تعلق دارد را نشان میدهند. از این مدل هم میتوان برای درک دادههای موجود استفاده کرد وهم میتوان آن را برای پیشبینی اینکه دادههای جدید به کدام گروه تعلق دارند بکار برد. به همین دلیل اغلب به ویژگیهای شناسایی شده متغیرهای پیشگو[۵۰] و به برچسب کلاسها متغیر هدف[۵۱] گفته میشود.
برای ایجاد یک مدل دستهبندی نیاز به مجموعه دادههای تاریخی است. این مجموعه داده که مجموعه داده آموزشی[۵۲] نامیده میشود شامل هم متغیرهای پیشگو و هم متغیر هدف است. به این طریق، مدل یاد میگیرد که چه ترکیبی از متغیرهای پیشگو به کدام متغیر هدف مربوط میشوند. سپس، مدل آموزش دیده شده میتواند کلاس مجموعه دادههای تست[۵۳] را که هیچ اطلاعی از متغیر هدف آنها نداریم، پیشبینی کند. (معمولا کارایی مدلهای دستهبندی را با مجموعه دادههای اعتبارسنجی[۵۴] اندازهگیری میکنند.)
از جمله تکنیکهای دستهبندی میتوان به درخت تصمیم، دستهبند بیزین، k- نزدیکترین همسایه (KNN)، شبکه عصبی و SVM اشاره کرد.
تخمین
تخمین شبیه دستهبندی است با این تفاوت که متغیر هدف بجای این که دستهای باشد بصورت عددی است (Larose 2005). مانند دستهبندی، یک مدل تخمین با بهره گرفتن از رکوردهای کاملی که حاوی مقادیر متغیر هدف و متغیرهای پیشگو است ساخته میشود. سپس، برای مشاهدات جدید، مقدار متغیر هدف بر اساس مقادیر متغیرهای پیشگو تخمین زده میشود.
مدلهای رگرسیون و شبکه عصبی از جمله تکنیکهای مناسب دادهکاوی برای تخمین هستند.
پیشبینی
پیشبینی مانند تخمین و دستهبندی است بجز اینکه در پیشبینی نتایج به آینده مربوط میشود(Larose 2005). تمامی تکنیکهای استفاده شده در دستهبندی و تخمین را میتوان تحت شرایط خاص برای پیشبینی بکار گرفت. پیشبینیهایی که بر اساس مدلهای دستهبندی ارائه میشوند دارای یک خروجی گسسته هستند که برچسب کلاس را برای آن مشاهده پیشبینی میکنند.
پیشبینی مقادیر پیوسته بر اساس یک سری خصوصیات داده شده، نوعی از پیشبینی است که به عنوان مثال میتوان به پیشبینی درآمد یک فرد بر اساس مشخصات وی اشاره کرد. درخت تصمیم و شبکههای عصبی تکنیکهایی هستند که در این نوع پیشبینیها قابل استفاده هستند. نوع دیگری از پیشبینیها، پیشبینی یک یا چند مقدار بر اساس الگوهای تکراری و متوالی است. پیشبینی سطح سهام بازار در ۳۰ روز آینده بر اساس دادههای ۶ ماه گذشته مثالی از این نوع پیشبینیها است. این گونه پیشبینیها به کمک سریهای زمانی و تکنیکهای رگرسیون انجام میشود.
همبستگی
قوانین همبستگی[۵۵] که گروهبندی شباهت[۵۶] نیز نامیده میشوند برای تعیین ویژگیهای همزمانی هستند که در وقوع یک پدیده رخ میدهند. به عبارت دیگر، گروهبندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگیها را تعیین می کند(شهرابی ۱۳۹۰a). با توجه به مقیاسپذیری الگوریتمهای قوانین همبستگی و حجم دادهها که دائما در حال افزایش است، میتوان قوانین همبستگی را یکی از ابزارهای ضروری دادهکاوی جهت استخراج دانش از دادهها قلمداد کرد.
تحلیل سبد خرید[۵۷] یکی از بارزترین کاربردهای قوانین همبستگی بشمار میرود. در این تحلیل سعی میشود تا از طریق یافتن روابط و وابستگیهای موجود بین اجناس خریداری شده توسط مشتریها، الگوهای خرید شناسایی و تحلیل شوند(شهرابی and شجاعی ۱۳۸۸). به عنوان مثال، برای مشتری که شیر خریداری کرده چقدر احتمال دارد نان نیز خریداری کند. خروجی این تحلیل قوانینی به صورت قوانین اگر – آنگاه است که افراد را در رقابتهای بازاریابی و نیز چیدمان مناسب اجناس در فروشگاهها یاری میرساند. به منظور سنجش کیفیت یک قانون از مفاهیم پشتیبانی[۵۸] و اطمینان[۵۹] استفاده میشود.
پشتیبانی: درصدی از تراکنشهایی است که شامل هم مقدم و هم تالی قانون باشند (Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنشهایی که شامل مقدم و تالی هستند به تعداد کل تراکنشها.
اطمینان: درصدی از تراکنشهایی است که وقتی مقدم قانون در آن ظاهر شده است، تالی نیز در آن وجود داشته باشد (Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنشهایی که شامل مقدم و تالی هستند به تعداد تراکنشهایی که شامل مقدم هستند.
خوشهبندی
خوشهبندی به عمل تقسیم جمعیت ناهمگن به تعدادی زیر مجموعه یا خوشههای همگن گفته میشود(شهرابی ۱۳۹۰a). وجه تمایز خوشهبندی از دستهبندی این است که خوشهبندی به دستههای از پیش تعیین شده تکیه ندارد. در خوشهبندی هیچ دسته از پیش تعیین شدهای وجود ندارد و دادهها صرفا بر اساس تشابه گروهبندی میشوند. بنابراین، برای اینکه بتوانیم دادهها را خوشهبندی کنیم باید بتوانیم میزان شباهت آنها را بدست آوریم. اینکار معمولا با بهره گرفتن از مقیاسهای اندازهگیری فاصله که معرفترین آنها فاصله اقلیدسی است، انجام میشود.
چنانچه مشخص است، تعداد حالتهای زیادی برای خوشهبندی n داده در k خوشه وجود دارد؛ تعداد این حالات حتی با در اختیار نداشتن تعداد خوشهها (k) نیز افزایش خواهد یافت. به همین دلیل نیاز به معیارهایی برای سنجش اعتبار خوشهبندی داریم. فشردگی و تفکیکپذیری دو ویژگی اساسی و جالب در مورد خوشهها هستند که میتوانند به عنوان شاخص اعتبار خوشه محاسبه شوند(شهرابی and شجاعی ۱۳۸۸).
فشردگی: فشردگی، بیان کننده این موضوع است که عناصر موجود در خوشه چقدر به یکدیگر نزدیک هستند. به عنوان مثال،واریانس عناصر نشان دهنده فشردگی دادهها است؛ بطوری که هرچه واریانس کمتر باشد، فشردگی دادهها بیشتر است. میتوان فاصله میان عناصر موجود در خوشه را نیز محاسبه کرد.
تفکیکپذیری: بوسیله این ویژگی، مجزا بودن خوشهها را ارزیابی میکنیم. یکی از روشهای تعیین تفکیکپذیری، محاسبه فواصل بین خوشهای است.
بنابر آنچه گفته شد، به دنبال ساختاری هستیم که عناصر درون خوشهها بیشترین شباهت را با یکدیگر و بیشترین اختلاف را با دیگر خوشهها داشته باشند. به عبارت دیگر، ساختاری را مطلوب میپنداریم که در آن مقادیر فواصل درون خوشهای کم و مقادیر فواصل بین خوشهای زیاد باشد.
در کتاب هان و کرامبر روشهای خوشهبندی به پنج دسته تقسیم شده است: روشهای بخشبندی، روشهای سلسلهمراتبی، روشهای مبتنی بر تراکم، روشهای مبتنی بر Grid و روشهای مبتنی بر مدل (Han, Kamber et al. 2011). در ادامه به توضیح مختصری از هر یک از دسته ها میپردازیم.
خوشهبندی مبتنی بر بخشبندی[۶۰]: در این نوع خوشهبندی اساس کار یک تابع هدف مشخص است که کمینهسازی آن، ما را به کشف ساختار موجود در مجموعه داده رهنمون میسازد (شهرابی and شجاعی ۱۳۸۸). با وجود آنکه ساختار الگوریتمی بسیار جذاب و متقاعدکننده است (مسئله بهینهسازی را میتوان به خوبی فرموله کرد)؛ ولی، از آنجایی که شخص نمیداند چه نوع ساختاری را باید انتظار داشته باشد، تعیین مناسبترین فرم برای تابع هدف با دشواریهای فراوانی همراه است. بطور معمول، در این گروه از الگوریتمها، تعداد خوشهها را از قبل تعیین کرده و کار را با بهینهسازی تابع هدف ادامه میدهند.
الگوریتمهایی مانند [۶۱]CLARA، [۶۲]CLARANS، k – means، c – means و [۶۳]PAM نمونههایی از الگوریتمهای این گروه هستند (Mitra and Acharya 2003).
خوشهبندی سلسلهمراتبی: در این نوع از روشهای خوشهبندی، دادهها در درختی از خوشهها گروهبندی میشوند. به طور کلی روشهای سلسلهمراتبی را میتوان به دو دسته تقسیم کرد: روشهای جمعکننده[۶۴] و روشهای تقسیمکننده[۶۵] (شهرابی and شجاعی ۱۳۸۸). روشهای جمعکننده در ابتدا هر داده را در خوشهای جداگانه قرار میدهند. سپس خوشهها را با هم ادغام کرده و خوشههای بزرگتری ایجاد میکنند. این کار تا زمانی ادامه مییابد که یا تمام دادهها در یک خوشه واحد قرار گیرند و یا شرط معینی برقرار شود، مثلاً تعداد خوشهها به مقدار دلخواه برسد. در هر مرحله خوشههایی به هم متصل میشوند که بیشترین شباهت را با هم دارند. برای بررسی میزان شباهت خوشهها الگوریتمهای مختلفی وجود دارد. دسته دوم که روشهای تقسیمکننده نامیده میشوند عکس روش فوق را اعمال میکنند، یعنی درخت را از بالا به پایین میسازند.
برای بررسی میزان شباهت خوشهها میتوان فاصله بین خوشهها را معیار مناسبی در نظر گرفت. روشهای مختلفی مانند روش تکاتصالی[۶۶]، اتصالی کامل[۶۷] و اتصال میانگین گروهی[۶۸] برای محاسبه فاصله بین خوشهها استفاده میشود (شهرابی and شجاعی ۱۳۸۸).
خوشهبندی مبتنی بر تراکم: بسیاری از روشهای بخشبندی، دادهها را بر اساس فاصله آنها با یکدیگر خوشهبندی میکنند. چنین روشهایی فقط خوشههای کروی شکل را پیدا میکنند (مانند k – means). در خوشهبندهایی که بر اساس تراکم دادهها انجام میشود، میتوان خوشههایی پیدا کرد که دارای شکلهای پیچیدهتری هستند. ایده اصلی این روشها به این صورت است که یک خوشه تا زمانی که تراکم همسایگی تمامی اشیاء مرزی آن از حد معینی کمتر نشده گسترش مییابد. منظور از تراکم همسایگی یک شیء، تعداد اشیائی است که در فاصله ε از آن شیء قرار گرفتهاند. چنین روشهایی برای فیلتر کردن نویزها و یافتن خوشههایی با شکلهای دلخواه به کار میرود (Han, Kamber et al. 2011). الگوریتمهای DBSCAN[69]، OPTICS[70]، DENCLUE و [۷۱]CLIQUE در این دسته از الگوریتمها قرار میگیرند (شهرابی and شجاعی ۱۳۸۸).
خوشهبندی مبتنی بر Grid: در این نوع خوشهبندی فضای اشیاء را به تعداد محدودی سلول کوانتیزه میکنند که این سلولها یک Grid را بوجود میآورند. تمامی اعمال خوشهبندی بر روی ساختار این Grid (ساختار مشبک) انجام میشود. مزیت مهم این روش سرعت بالای آن است که مستقل از تعداد اشیاء بوده و فقط به تعداد سلولها در هر بعد از فضای کوانتیزه شده بستگی دارد. الگوریتمهای [۷۲]STING و CLIQUE نمونههایی از این الگوریتمها هستند.
خوشهبندی مبتنی بر مدل: الگوریتمهای این دسته، برای هر خوشه مدلی را در نظر گرفته و سعی میکنند به بهترین نحو دادهها را به آن مدلها انطباق دهند. دو راه عمده برای این کار وجود دارد: راه اول روشهای آماری مانند COBWEB و CLASSIT و راه دوم شبکههای عصبی مانند [۷۳]SOM است.
توصیف
گاهی اوقات هدف دادهکاوی، تنها توصیف آن چیزی است که در یک پایگاه دادهای پیچیده در جریان است. توصیف الگوها و روندها اغلب توضیحات ممکنی برای آن الگوها و روندها ایجاب میکند و درک ما را از مردم، محصولات و یا فرآیندهایی که دادهها در مرحله اول تولید کردهاند، افزایش میدهد.
مدلهای دادهکاوی باید تا حد ممکن شفاف باشند؛ به این معنی که نتایج مدلهای دادهکاوی باید الگوهای روشنی را که تمایلی به توضیح و تفسیر شهودی دارند، توصیف کنند. برخی از مدلهای دادهکاوی دارای تفسیر شفافتری نسبت به دیگر مدلها دارند. به عنوان مثال، درخت تصمیم توضیحات شهودی و انسان دوستانهای از نتایج خود فراهم میآورد؛ در حالی که شبکههای عصبی با ارائه مدلهای پیچیده نیاز به تفسیر نتایج دارند، به همین دلیل گاهی به شبکههای عصبی جعبه سیاه گفته میشود.
درخت تصمیم و تکنیکهای آماری ابزار مفیدی برای توصیف هستند؛ قوانین همبستگی و خوشهبندی را نیز میتوان برای توصیف استفاده کرد.
ابزار و تکنیکهای دادهکاوی
ابزارها و تکنیکهای بیشماری برای انجام پروژههای دادهکاوی وجود دارد. بیشتر تکنیکهای دادهکاوی از سالها و یا دهه های قبل وجود داشتهاند و ریشه در علومی دیگر چون آمار و ریاضی و زیرشاخههای علوم کامپیوتر مانند هوش مصنوعی و یادگیری ماشین دارند. در این تحقیق سعی کردهایم به معرفی تکنیکهایی بپردازیم که پرکاربرد بوده و یا در تحقیق مورد استفاده قرار گرفته است.
درخت تصمیم
درخت تصمیم از تکنیکهای پرکاربرد و رایج دادهکاوی است که برای اهداف دستهبندی و پیشبینی مورد استفاده قرار میگیرد. الگوریتمهای این تکنیک در حیطه الگوریتمهای یادگیری با ناظر بشمار میرود و بر اساس الگوریتم یادگیری مفهوم طراحی شدهاند. یک درخت تصمیم از تعدادی گره[۷۴] و شاخه[۷۵] تشکیل شده است. شاخهها، گرهها را به یکدیگر متصل میکنند. گرههایی که در انتهای درخت واقع هستند را برگ[۷۶] مینامیم. برگها بیانگر برچسب کلاسها هستند. گرهای که در بالاترین سطح از درخت قرار دارد ریشه[۷۷] نامیده میشود. ریشه شامل تمام دادههای آموزشی است که باید به کلاسهای مختلف تقسیم شوند. تمامی گرهها، بجز برگها را گرههای تصمیم[۷۸] مینامند. در هر کدام از این گرهها، تصمیمگیری در مورد فعالیتی که باید انجام شود با توجه به یک خصیصه صورت میگیرد. هر کدام از گرهها داری فرزندانی هستند که تعداد فرزندان هر گره برابر با تعداد مقادیری است که خصیصه مورد نظر میتواند اختیار کند (شهرابی and شجاعی ۱۳۸۸).
الگوریتمهای مختلفی برای تولید درخت تصمیم وجود دارد. تمامی این الگوریتمها بر اساس الگوریتم یادگیری مفهوم هانت طراحی شدهاند. این الگوریتم، روشی را مد نظر قرار داده است که انسانها از آن به منظور یادگیری مفاهیم ساده استفاده میکنند. در این روش خصیصههای اصلی که متمایزکننده دو گروه اصلی متفاوت هستند، مشخص میشوند. برای انجام این کار، از نمونههای آموزشی مثبت و منفی استفاده میشود. الگوریتم هانت بر پایه استراتژی تقسیم و غلبه[۷۹] بنا نهاده شده است. مجموعههای آموزشی به طور بازگشتی با انتخاب بهترین خصیصه به عنوان متمایز کننده به گونهای به زیرمجموعههای کوچکتر افراز میشوند که هر زیر مجموعه تنها حاوی نمونههایی باشد که به یک کلاس تعلق دارند (شهرابی and شجاعی ۱۳۸۸). به این ترتیب، با انتخاب پی در پی خصیصههای متمایز کننده، درخت تصمیم شکل میگیرد.
آنچه که باعث میشود الگوریتمهای متفاوتی برای ایجاد درخت تصمیم وجود داشته باشد، عامل انتخاب خصیصه متمایزکننده است. معیارهای گوناگونی برای انتخاب خصیصه وجود دارد که مهمترین آن عبارت است از:
- شاخص جینی[۸۰]: یک شاخص رایج تقسیمبندی، جینی نام دارد که از نام کورادو جینی[۸۱]، متخصص آمار و اقتصاددان ایتالیایی گرفته شده است. این شاخص احتمال قرارگیری دو مورد انتخاب شده تصادفی از یک جمعیت یکسان را در یک دسته نشان میدهد. برای یک جمعیت خالص، این احتمال برابر یک است. اندازهگیری جینی یک گره، به صورت مجموع نسبتهای دسته ها است. برای محاسبه تاثیر یک تقسیم، امتیاز جینی هر گره فرزند را محاسبه کرده و در نسبت اطلاعات که به آن گره میرسد ضرب کرده وسپس اعداد حاصل را با هم جمع میکنیم (شهرابی ۱۳۹۰b). الگوریتم CART[82] برای پیادهسازی از این معیار استفاده میکند.
- بهره اطلاعات[۸۳]: در منظر بهره اطلاعات، اگر یک برگ کاملا خالص باشد آنگاه دستهه ای این برگ را میتوان به راحتی اینگونه توصیف کرد که همگی آنها در یک دسته جای میگیرند. از طرف دیگر، اگر یک برگ دارای ناخالصی بالایی باشد آنگاه توصیف آن بسیار مشکل خواهد بود. برای بیان این وضعیت اندازهای به نام آنتروپی[۸۴] تعریف میگردد. آنتروپی میزان بینظمی یک سیستم است. آنتروپی یک گره خاص در یک درخت تصمیم عبارت است ازجمع نسبتهای دادههای متعلق به یک دسته خاص برای تمام دستههایی که در گره نشان داده شدهاند که در لگاریتم پایه دو آن نسبت ضرب شده است. آنتروپی یک تقسیم به صورت مجموع آنتروپی تمام گرههای ناشی از تقسیم که بوسیله نسبت دادههای هر گره وزندهی شده است بدست میآید (شهرابی ۱۳۹۰b). الگوریتم [۸۵]ID3 از بهره اطلاعات برای انتخاب خصیصه استفاده میکند.
- نسبت بهره[۸۶]: اندازهگیری آنتروپی زمانی با مشکل مواجه میشود که به یک تقسیمبندی با متغیرهای دستهای مواجه شویم. مشکل در اینجا کاهش تعداد دستهه ای نمایش داده شده در هر گره و متعاقب آن کاهش آنتروپی است که صرفا از شکستن مجموعه دادههای بزرگتر به زیرمجموعههای کوچکتر ناشی میشود. کاهش آنتروپی که مربوط به تعداد شاخهها باشد را اطلاعات نهادی[۸۷] یک تقسیمبندی مینامند. اطلاعات نهادی موجب میشود تا درخت تصمیم ایجاد شده پر برگ و بار شود. درختهای پر برگ با تقسیمات متعدد چند مسیری مطلوب نیستند چرا که این تقسیمات به تعداد کم دادهها در هر گره منجر شده و مدلهای حاصله از این طریق ناپایدار خواهند بود. برای رفع این مشکل، از نسبت کل بهره اطلاعاتی استفاده میکنند (شهرابی ۱۳۹۰b). الگوریتم C4.5 از نسبت بهره برای انتخاب خصیصه استفاده میکند.
معیارهای انتخاب خصیصه دیگری هم وجود دارد، که میتوان به درخت تصمیم CHAID، که برای انتخاب خصیصه از آزمون χ^۲ استفاده میکند و یا C-SEP که برای انتخاب خصیصه از آماره G (که بسیار نزدیک به توزیع χ^۲ است) استفاده میکند، اشاره کرد.
از درخت تصمیم ایجاد شده میتوان برای پیشبینی برچسب نمونههای جدید بر اساس مقادیر خصیصههای آنها استفاده کرد. درخت تصمیم همچنین قوانین همبستگی میان خصیصهها را آشکار میسازد. برخی از نقاط ضعف و قوت درختهای تصمیم عبارتند از:
- قوانین تولید شده توسط آنها، تمامی کلاسهای موجود در مجموعه داده آموزشی را به بهترین شکل توصیف میکند.
- روابط موجود میان قوانین را آشکار ساخته؛ در نتیجه، درک ساختار دادهها را ساده میسازد.
- از نظر محاسباتی ساده هستند.
- این امکان وجود دارد که قوانین بسیار پیچیدهای را تولید کنند که در نتیجه آن، هرس کردن با دشواریهایی مواجه خواهد بود.
- قادر هستند تا تعداد زیادی از قوانین متناظر را تولید کنند که در صورت عدم استفاده از تکنیکهای هرس، درک آنها سخت خواهد بود.
- به منظور ذخیرهسازی کل درخت و استخراج قوانین، به حافظه زیادی نیاز است.
شبکههای عصبی
شبکههای عصبی مصنوعی (ANN) شبکهای عظیم از نرونهای محاسباتی به هم پیوسته هستند که باساختار فرایندی بصورت موازی توزیع شده نشان داده میشوند. ایده اصلی این شبکهها از ساختار شبکههای عصبی بیولوژیک الهام گرفته شده است؛ زمانی که در سال ۱۹۴۳، وارن مک کالچ[۸۸] به همراه والتر پیتس[۸۹] برای توضیح نحوه عملکرد نرونهای بیولوژیک به مدلسازی پرداختند (شهرابی ۱۳۹۰b). اگرچه این مدل فقط دارای یک نرون بود و توانایی محاسباتی محدودی داشت، ولی نقطه عطفی بود برای توسعه و پیشرفت شبکههای عصبی قویتر و پیچیدهتر؛ به گونهای که امروزه شبکههای عصبی کاربرد گستردهای در مسائل پیشبینی، دستهبندی و خوشهبندی دارد.
به طور کلی، شبکههای عصبی توسط سه مولفه زیر معرفی میشوند (Karray and Silva 2004):
ساختار
- رو به جلو
- بازگشتی
نوع یادگیری
- یادگیری با ناظر[۹۰]
- یادگیری بدون ناظر[۹۱]
- ترکیبی[۹۲]
تابع فعالسازی[۹۳]
- باینری
- پیوسته
ساختار شبکههای عصبی از تعدادی نرون و اتصالات موزون بین آنها تشکیل شده است (شکل ۲-۴). معمولا این نرونها در لایههایی شامل لایه ورودی، لایههای پنهان و لایه خروجی سازمان مییابند. در ساختار رو به جلو، تمامی اتصالات بین نرونها به سمت جلو بوده و هیچ نرونی به نرونهای لایه قبل اتصال ندارد. ولی چنین اتصالاتی را در ساختار بازگشتی خواهیم داشت. فرایند یادگیری شبکههای عصبی نیز مانند آنچه در دادهکاوی هدایتشده و غیر هدایتشده ذکر شد، میتواند بصورت با ناظر و بدون ناظر باشد. در یادگیری با ناظر، دادههای آموزشی برچسبی به عنوان متغیر هدف دارند ولی یادگیری بدون ناظر فاقد متغیر هدف است. در یادگیری ترکیبی، از هر دو فرایند در شبکه عصبی استفاده میشود. تابع فعالسازی نیز خروجی هر نرون را بر اساس ورودیهای آن و همچنین حد آستانه[۹۴] نرون مشخص میکند. تابع علامت[۹۵] و تابع گامی[۹۶] مثالهایی از تابع فعالسازی باینری هستند و تابع سیگموید[۹۷] و تانژانت هایپربولیک[۹۸] و خطی[۹۹] جزو توابع فعالسازی پیوسته هستند (Karray and Silva 2004).
شکل ۲‑۴ : شبکه عصبی با دو لایه پنهان
مانند دیگر الگوریتمهای یادگیری ماشین، یادگیری شبکههای عصبی نیز با دادههای آموزشی صورت میگیرد. در پایان این مرحله، برای تمامی اتصالات نرونها وزنهای مناسبی قرار داده میشود. سپس، برای ارزیابی آن از دادههای تست استفاده میکنند. شبکه عصبی آموزش دیده شده مانند یک جعبه سیاه کار میکند؛ در واقع درکی از وزنها و لایههای پنهان به دادهکاو نمیدهد. جعبه سیاه بودن شبکههای عصبی از معایب آن به حساب میآید. از دیگر معایب این الگوریتم این است که فقط در مورد دادههای عددی کار میکنند.
الگوریتمهای خوشهبندی
چنانچه پیشتر توضیح داده شد، یکی از وظایف اصلی دادهکاوی خوشهبندی است. در خوشهبندی دادهها بر اساس شباهتی که به یکدیگر دارند به خوشههایی افراز میشوند؛ بنابراین، معیار اصلی این تکنیک اندازهگیری شباهت دادهها است. لازم است قبل از توضیح هرگونه الگوریتم خوشهبندی، به معرفی انواع فاصلهها به عنوان معیاری برای اندازهگیری شباهت بپردازیم.
فرض کنید دادههای ورودی دارای n ویژگی باشند، بنابراین هر داده را میتوان بوسیله یک بردار n بعدی نمایش داد. اگر x و y دو نمونه از دادهها باشند خواهیم داشت:
جدول ۲-۳ تعاریف ریاضی انواع فاصلهها را نمایش میدهد (شهرابی and شجاعی ۱۳۸۸).
جدول ۲‑۳ : انواع فاصلهها
تابع فاصله | فرمول |
فاصله اقلیدسی | |
فاصله همینگ | |
فاصله چبیشف | |
فاصله مینکوفسکی | |
فاصله کانبرا[۱۰۰] | |
جدایی زاویهای[۱۰۱] |
ما در این تحقیق به معرفی مختصر دو تکنیک خوشهبندی اکتفا کردهایم.
K – Means:
در این الگوریتم تعداد خوشهها (K) مشخص بوده و الگوریتم با تابع هدف حداقل نمودن فواصل درون یک خوشه به انتخاب K مرکز خوشه میپردازد. گامهای این الگوریتم به صورت زیر است:
- انتخاب k مرکز خوشه اولیه به صورت تصادفی
- خوشهبندی دادهها: هر داده به خوشهای تعلق دارد که کمترین فاصله را با مرکز آن خوشه داشته باشد.
- به روز کردن k مرکز خوشه از طریق محاسبه میانگین وزنی اعضای هر خوشه
مراحل ۲ و ۳ تا زمان یافتن حداقل فاصله درون خوشهای ادامه مییابد.
نگاشتهای خودسازمانده[۱۰۲] (SOM):
تکنیک SOM که توسط کوهنن[۱۰۳] معرفی شد، نوعی شبکه عصبی است که به خوشهبندی دادهها میپردازد. این شبکه عصبی در حیطه شبکههای عصبی بدون ناظر قرار دارد و بدین معنی است که برای به روز کردن وزنهای اتصالات شبکه نیازی به تاثیر بازخورد ناظر نیست؛ به همین دلیل به عنوان خودسازمانده شناخته میشوند. ساختار این شبکه فقط دارای دو لایه است؛ یک لایه ورودی که به اندازه ابعاد (تعداد ویژگیها) دادههای ورودی نرون دارد و یک لایه خروجی که به اندازه تعداد خوشهها نرون دارد و میتوانند در ابعاد مختلف سازمان یابند. تمامی نرونهای ورودی به تمامی نرونهای خروجی متصل هستند؛ بنابراین، برای هر نرون خروجی یا به عبارت دیگر برای هر خوشه، اوزان کمانهای متصل به آن خوشه را میتوان در غالب یک بردار وزن برای آن خوشه در نظر گرفت. ابعاد بردارهای وزن خوشهها همبعد بادادههای ورودی است (Karray and Silva 2004). شکل ۲-۵ ساختار این شبکه را نشان میدهد.
شکل ۲‑۵ : ساختار SOM
الگوریتم SOM بر مبنای یادگیری رقابتی است؛ بدین معنا که نرونهای خروجی بر اساس شباهتی که با بردار ورودی دارند با یکدیگر رقابت میکنند و نرونی که بیشترین شباهت را با بردار ورودی داشته باشد به عنوان نرون برنده انتخاب میشود. بر اساس همین الگوریتم یادگیری رقابتی است که SOM قادر خواهد بود دادههای ورودی را بر اساس شباهت موجود بین دادهها خوشهبندی کند. از آنجایی که در SOM ویژگیهای توپولوژیکی مربوط به مجموعه داده حفظ میشود، میتوان از آن برای اهداف کاهش بعد نیز استفاده کرد. در واقع این بدان معناست که، اگر دو داده در فضای ابعاد اولیه به یکدیگر نزدیک باشند، این وضع در فضای تقلیل یافته نیز حفظ میشود.
قبل از بیان گامهای الگوریتم لازم است با مفهوم همسایگی در این الگوریتم آشنا شویم. شعاع همسایگی برای یک نرون لایه خروجی مشخص کننده نرونهای همسایه آن نرون است. مراحل الگوریتم SOM به صورت زیر است (Karray and Silva 2004):
- تمامی وزنها (wijها) و نرخ یادگیری α و شعاع همسایگی Nc مقداردهی اولیه میشوند.
- یک داده ورودی x از مجموعه دادههای ورودی به شبکه معرفی میشود.
- انتخاب نرون برنده بر اساس معیار فاصله (معمولا فاصله اقلیدسی در نظر گرفته میشود) :
- به روز کردن وزن نرون برنده و نرونهای همسایه از تکرار k به تکرار k+1:
- تکرار گامهای ۲ تا ۴ به ازای تمامی برداهای ورودی.
- کاهش نرخ یادگیری و شعاع همسایگی بر اساس رویکردی مشخص برای دوره بعد.
- تکرار گامهای ۲ تا ۶ تا زمان تحقق شرط خاتمه (معمولا تعداد مشخصی تکرار).
K - نزدیکترین همسایه
این الگوریتم نیز بر اساس شباهتها کار میکند. هر داده اگر دارای n ویژگی باشد یک نقطه در فضای n بعدی است. تمام دادههای آموزشی در فضای n بعدی ذخیره میشوند. زمانی که دادهای با کلاس نامشخص داده شود، k همسایه نزدیک به آن در این فضا شناسایی میشوند و برچسب داده مورد نظر با توجه به برچسب این k همسایه تعیین میشود (Larose 2005). برای محاسبه فاصله بین رکوردها از فاصله متری و به طور معمول از فاصله اقلیدسی استفاده میشود.
مقدار پارامتر k، بهصورت تجربی تعیین میشود. ابتدا با ۱=k شروع و در هر مرحله با بهره گرفتن از دادههای تست نرخ خطای دستهبندی محاسبه میشود؛ در هر مرحله مقدار k یک واحد افزایش داده میشود. در انتها کوچکترین k که کمترین نرخ خطا را داشته باشد، انتخاب میشود. کوچک بودن مقدار k باعث میشود داده جدید به تعداد نقاط کمتری وابسته باشد، در این صورت خطا زیاد میشود. حال اگر مقدار k بزرگ باشد، داده جدید به کلاسهای بیشتری وابسته میشود، در این صورت نیز خطا زیاد است. مقدار k باید یک مقدار میانی باشد.
از آنجایی که این الگوریتم مدلی برای دستهبندی دادهها ایجاد نمیکند و فقط دادههای آموزشی را در یک فضای n بعدی قرار میدهد، زمان اجرای الگوریتم در مرحله آموزش کم است. ولی زمانی که داده جدیدی به الگوریتم معرفی میشود، برای تعیین برچسب آن محاسبات بیشتری باید انجام دهد. بنابراین زمان اجرا در مرحله تست بیشتر خواهد بود.
ماشین بردار پشتیبان[۱۰۴] (SVM)
ماشینهای بردار پشتیبان در ابتدا توسط وپنیک[۱۰۵] در دهه ۹۰ میلادی توسعه داده شدند (شهرابی and شجاعی ۱۳۸۸). این الگوریتم ابزاری قدرتمند برای حل مسائل دستهبندی دو کلاسه است بگونهای که بتوان کلاسها را بطور خطی از یکدیگر جدا کرد. هدف SVM عبارت است از یافتن ابرصفحه جداکننده نقاط دادهای متعلق به دو کلاس با بیشترین حاشیه[۱۰۶] و بهترین توانایی تعمیم. حاشیه، از دیدگاه هندسی عبارت است از فاصله موجود بین ابر صفحه و نزدیکترین نمونه آموزشی. از یک منظر دیگر، حاشیه اینگونه تعریف میشود: مقدار فضا یا جدایی موجود میان دو کلاس که توسط ابرصفحه تعریف میشود. به نزدیکترین نمونههای آموزشی به ابر صفحه جداکننده به اصطلاح بردار پشتیبان[۱۰۷] گفته میشود (شهرابی and شجاعی ۱۳۸۸). شکل ۲-۶ خط جداکننده را به همراه بردارهای پشتیبان در فضای دو بعدی نشان میدهد.
شکل ۲‑۶: خط جداکننده SVM
تکنیک SVM در برخورد با دادههایی که به صورت خطی از یکدیگر جدا نمیشوند از یک نگاشت غیرخطی برای تبدیل دادههای آموزشی به دادههایی با ابعاد بالاتر استفاده میکند. بدین ترتیب دادههای تبدیل شده در ابعاد بالاتر به صورت خطی جدا پذیر خواهند بود. تابعی که وظیفهی این نگاشت را به عهده دارد تابع کرنل[۱۰۸] نامیده میشود. همچنین، تعمیمهایی از الگوریتم SVM برای حل مسائل دستهبندی چندکلاسه توسعه یافته است. اگرچه بنابر آنچه که گفته شد تکنیک SVM ابزاری قدرتمند برای حل اکثر مسائل دستهبندی است، ولی از جمله مهمترین معایب آن میتوان به این نکته اشاره کرد که این تکنیک به محاسبات پیچیده و زمانبر نیاز دارد. به عبارت دیگر، SVM دارای پیچیدگی الگوریتمی بالا است و همچنین نیاز به حافظه زیادی دارد.
بیز سادهلوحانه[۱۰۹]
طبقهبندی کنندههای بیز، روشهایی آماری برای دستهبندی هستند. در این الگوریتمها احتمال عضویت دادهها در کلاس محاسبه میشود. این طبقهبندی کننده بر پایه قضیه بیز کار میکند. از مزایای آن میتوان به سرعت و دقت بالای آن اشاره کرد. پس زمانی که مجموعه داده بزرگ باشد، میتوان از این طبقهبندی کننده استفاده کرد.
این الگوریتم احتمال عضویت داده جدید را در هر کلاس محاسبه میکند و داده متعلق به کلاسی خواهد بود که بیشترین احتمال عضویت را داشته باشد. در این الگوریتم برای محاسبه احتمال عضویت فرض شده است که ویژگیها از هم مستقل هستند، بهعبارت دیگر فرض میشود بین ویژگیها هیچ همبستگی وجود ندارد. اگرچه این الگوریتم از قدرت دستهبندی بالایی برخوردار است ولی گاهی اوقات مفروضات آن ممکن است بر دقت دستهبندی اثر منفی داشته باشند.
سیستمهای چند دستهبند
سیستمهای چند دستهبند (MCSs) راه حل قدرتمندی برای مسائل تشخیص الگوی[۱۱۰] پیچیده هستند. قدرت این سیستمها در اجازه استفاده همزمان از روشهای دستهبند متنوع برای حل یک مسئله خاص است. این سیستمها با ترکیب خروجی مجموعهای از دستهبندهای متفاوت سعی در بهبود کارایی و رسیدن به دقت بالاتر را دارند. بطور کلی MCSs شامل گروهی از الگوریتمهای دستهبند متفاوت و همچنین یک تابع تصمیم برای ترکیب خروجی دستهبندها است. بنابراین، طراحی چنین سیستمی شامل دو بخش است: طراحی گروه دستهبندها و طراحی تابع ترکیب[۱۱۱] (Ghosh 2002).
در بخش طراحی گروه دستهبندها دو ساختار متفاوت قابل اجراست: ساختار موازی[۱۱۲] و ساختار آبشاری[۱۱۳] (Ghosh 2002). در شکل ۲-۷ این دو ساختار نمایش داده شده است. همچنین در بخش ترکیب نتایج دستهبندها، توابع ترکیب گوناگونی وجود دارد. میانگین و میانگین وزنی، روش های ترکیب غیر خطی و روش انتگرال فازی از جمله روشهایی هستند که در این بخش مورد استفاده قرار میگیرند. روشهای ترکیب غیر خطی شامل متدهای رأی گیری، متدهای رتبه دهی و متدهای احتمالی میباشد. توضیح کامل روش های ترکیب نتایج دستهبندها در (Xu, Krzyzk et al. 1992) و (Ruta and Gabrys 2000)ارائه شده است.
شکل ۲‑۷: ساختار گروه دستهبندها
ساختار سیستم و همچنین نوع تابع ترکیب مورد استفاده با توجه به مسئله مورد بررسی انتخاب میشوند.
الگوریتم ژنتیک
محاسبات تکاملی[۱۱۴]، بر مبنای تکامل یک جمعیت از جوابهای کاندید برای حل مسئلههای بهینهسازی با الهام از عملگرهای انتخاب طبیعی توسعه یافتهاند. الگوریتم ژنتیک[۱۱۵] با تکیه بر نظریه داروین برای تولید جمعیت بعدی تکاملیافتهتر از فرایند تولید مثل الهام میگیرد و کاربرد گستردهای در حل مسائل NP-hard دارد(Mitra and Acharya 2003). این الگوریتم با انتخاب دو عضو تصادفی از میان بهترینهای جمعیت و انجام عمل تقاطع[۱۱۶] و جهش[۱۱۷] و تکرار آن، نسل بعدی جمعیت را تولید میکند. برای درک بهتر الگوریتم ژنتیک به تعاریفی نیاز است که به قرار زیر است:
- ژن: واحد پایه ژنتیک است.
- کروموزوم: به گروهی از ژنها اطلاق میشود. هر عضو از جمعیت یک کروموزون است و معمولا به صورت آرایه پیادهسازی میشود.
- تقاطع: عملگری است که بر روی دو کروموزوم انتخاب شده به عنوان والدین اعمال میشود برای تولید فرزندان.
- جهش: عملگری است که بر روی یک فرزند اعمال میشود برای تغییر مقدار یک ژن.
آنچه در این میان از اهمیت ویژهای برخردار است نحوه ارزیابی اعضای جمعیت برای تعیین بهترین کروموزومها است. در الگوریتم ژنتیک این ارزیابی توسط تابعی به عنوان تابع برازندگی[۱۱۸] انجام میشود. تابع برازندگی با توجه به مسئله تعریف میشود و به هر یک از اعضای جمعیت مقداری را بر اساس مقادیر ژنها نسبت میدهد. مراحل الگوریتم ژنتیک به صورت زیر است:
- ایجاد جمعیت اولیه بصورت تصادفی
- محاسبه تابع برازندگی برای هر عضو
- انتخاب والدین با توجه بر مقادیر تابع برازندگی هر عضو
- انجام عمل تقاطع و تولید جمعیت فرزندان
- انجام عمل جهش با احتمالی خاص
- ایجاد جمعیت جدید
- اگر شرایط خاتمه برقرار نبود به گام ۲ برگرد در غیر این صورت به گام ۸ برو
- پایان.
برای هر یک از گامهای این الگوریتم رویکردهای متفاوتی وجود دارد که این امر موجب شده تا نسخهها و توسعههای زیادی از الگوریتم ژنتیک تولید شود و به ابزار قدرتمند برای حل مسائل بهینهسازی تبدیل شود.
کاربرد دادهکاوی در CRM
دادههای مربوط به مشتریان و تکنولوژی اطلاعات، زیر ساختهایی هستند که هر استراتژی موفق CRM بر پایه آنها ساخته میشوند. بعلاوه رشد سریع اینترنت و تکنولوژیهای مربوط به آن، بصورت گستردهای باعث افزایش فرصتهای بازاریابی گردیده و روش مدیریت روابط بین شرکتها و مشتریانشان را تغییر داده است.
ابزارهای دادهکاوی در راستای تحلیل دادههای مشتری در ساختار CRM تحلیلی، بسیار مرسوم هستند. بسیاری از سازمانها دادههایی در مورد مشتریان جاری، مشتریان بالقوه، تامینکنندگان و شرکای تجاری جمع آوری و ذخیره میکنند. عدم توانایی کشف اطلاعات ارزشمند پنهان در میان این دادهها مانع از این میشود که سازمانها این دادهها را به دانش مفید و با ارزش تبدیل کنند. ابزارهای دادهکاوی کمک میکنند تا سازمانها این دانش نهفته را از میان حجم عظیم دادهها استخراج کنند.
کاربرد ابزارهای دادهکاوی در CRM، روندی نوظهور در تجارت جهانی است. با وجود دادههای جامع مشتریان، تکنولوژی دادهکاوی میتواند هوش تجاری با قابلیت ایجاد فرصتهای جدید فراهم آورد. تحلیل و فهم رفتار و مشخصات مشتری مبنای توسعه یک استراتژی CRM رقابتی برای بدست آوردن و نگه داشتن مستریان بالقوه و ماکزیمم کردن ارزش مشتری است.
از آنجایی که تکنولوژی CRM در ارتباط مستقیم با دادههای مشتری است و هر کجا که دادههای وسیع وجود داشته باشد ابزارهای دادهکاوی میتوانند مفید باشند، اکثر تکنیکها و استراتژیهای CRM میتوانند از دادهکاوی بهره بگیرند. در ادامه نمونههایی از این کاربردها را توضیح خواهیم داد.
دادهکاوی برای بهبود بازاریابی مستقیم[۱۱۹]
از تبلیغات میتوان برای رسیدن به مشتریان بالقوهای که چیزی در مورد آنها به عنوان یک فرد نمیدانیم استفاده کرد. اما در مقابل، بازاریابی مستقیم، نیازمند داشتن حداقل اندکی اطلاعات مانند نام فرد به همراه آدرس، شماره تلفن یا آدرس پست الکترونیک است. پایهایترین کاربرد دادهکاوی، تعیین لیست مشتریان بالقوه برای برقراری تماس با آنها است.
در واقع، مرحله اول هدفگیری، نیازی به دادهکاوی ندارد بلکه تنها به داده نیاز است. حتی در کشورهای توسعهیافته هم دادههای بسیار کمی نسبت به بزرگی جامعه در دسترس است. در بسیاری از کشورها شرکتهایی وجود دارند که دادههایی را در سطح خانوارها در مورد موضوعات گوناگون از جمله درآمد، تعداد فرزندان، سطح تحصیلات و حتی نوع تفریحات جمع آوری کرده و میفروشند. از طرف دیگر، قوانین حاکم بر استفاده از این دادهها برای اهداف بازاریابی از کشوری به کشور دیگر متفاوت است.
میتوان دادههای در سطح خانوار را به طور مستقیم برای تقسیمبندی اولیه بر اساس درآمد، تملک خودرو و وجود فرزندان بکار برد. مشکل این است که حتی بعد از فیلتر کردن اطلاعات هم دادههای باقیمانده به میزان زیادی به تعداد مشتریان بالقوه که احتمال دارد جواب بدهند وابسته خواهد بود؛ بنابراین، کاربرد اصلی دادهکاوی در مورد مشتریان بالقوه، هدفگیری مشتریان یعنی پیدا کردن مشتریان بالقوهای که احتمالا به پیشنهاد ارائه شده پاسخ واقعی میدهند، است (شهرابی ۱۳۹۰a).
فعالیتهای بازاریابی مستقیم معمولا دارای نرخهای پاسخ بسیار کم و تکرقمی هستند. از مدلهای پاسخ[۱۲۰] با تعیین مشتریان بالقوهای که احتمال پاسخ به یک درخواست مستقیم را دارند، برای بهبود نرخ پاسخ استفاده میشود (شهرابی ۱۳۹۰a). مفیدترین مدلهای پاسخ، تخمین واقعی از احتمال پاسخ را فراهم میکنند. هر مدلی که امکان رتبهبندی مشتریان بالقوه را بر اساس احتمال پاسخدهی فراهم کند، مناسب است. تکنیکهای دادهکاوی را میتوان برای مدلسازی پاسخ و بهبود بازاریابی مستقیم بکار برد.
بخشبندی مشتریان[۱۲۱]
بخشبندی مشتریان یکی از کاربردهای معمول دادهکاوی در رابطه با مشتریانی است که جذب سیستم شدهاند؛ هدف بخشبندی، همگن نمودن محصولات، خدمات و پیامهای بازاریابی با هر کدام از بخشها است (شهرابی ۱۳۹۰a). بخشبندی مشتریان پایه فعالیتهای شرکت در زمینههای فروش، بازاریابی و خدمت رسانی است. مشتریان در هر دسته دارای خصوصیات مشابهی هستند و مشتریان که در دستهه ای مختلف هستند ویژگیهای متفاوتی دارند. بخشبندی مشتریان بطور سنتی بر اساس تحقیقات در بازار و ویژگیهای جمعیتشناختی صورت پذیرفته و مثلا بخشهایی چـون “جوان و مجرد” بوجود میآید. مشکل انجام بخشبندی مشتریان بر اساس تحقیقات در بازار این است که بکارگیری نتایج حاصله از مطالعه برای مشتریانی که آن مطالعه شامل آنان نبوده مشکل است؛ از سوی دیگر، مشکل بخشبندی بر اساس ویژگیهای جمعیتشناختی هم این است که مثلا تمامی افراد “جوان و مجرد” یا “کسانی که تنها زندگی میکنند” به راستی دارای سلیقه و گرایشی نیستند که به آنها در مورد کالاها و خدمات نسبت داده شده است.
تحلیل تعداد محدودی از متغیرها و نداشتن نگاه جامع مشتمل بر تمامی متغیرها از جمله معایب بخشبندی بوسیله ابزارهای تحقیقات بازار است. دانش دادهکاوی با برخورداری از توانمندی در نظر گرفتن تمامی متغیرها، نتایج کاملا عینی، واقعی و کاربردی ارائه می کند (شهرابی ۱۳۹۰a).
همچنین به منظور پیادهسازی روشهای بازاریابی مستقیم از تکنیکهای خوشهبندی استفاده میشود تا با تقسیمبندی مشتریان در خوشههای مختلف از این خوشهها به عنوان مبنای دستهبندی و پس از آن پیشبینی دسته هر مشتری استفاده میشود (Ngai, Xiu et al. 2009). بخشبندی مشتریان اساس بازاریابی و سرویسدهی اثربخش یک سازمان است که تعداد زیاد مشتریان را در دستههایی طبقهبندی میکند که چنانچه ذکر شد مشتریان یک دسته دارای خصوصیات مشابهی با هم و خصوصیات متفاوتی با مشتریان سایر گروهها هستند. در مقایسه با روشهای سنتی بخشبندی مشتریان، استفاده از تکنیکهای دادهکاوی مزایایی دارد که در ذیل به آنها اشاره میکنیم:
- نتایج بخشبندی به کمک دادهکاوی بر اساس واقعیت دادهها شکل میگیرد و نقش فاعلی افرادی که دادهها را پردازش میکنند حذف میگردد که باعث میشود نتایج نهایی هدف نشان دادن تفاوتهای میان جمعیتها را بیشتر محقق کند.
- مشخصات تقسیمبندی مشتریان در گروههای متفاوت را به صورت جامعتر نمایش میدهد که این موضوع منجر به شناخت کاملتر متخصصان بازاریابی از مشتریان میشود و از این طریق برنامههای بازاریابی هدفمند و اختصاصی قابل اجرا است.
- تغییرات رفتاری مشتریان میتواند به سادگی با کنار هم گذاشتن مدلهای تحلیل خوشهبندی و به روز کردن گروه مشتریان به صورت منظم پیکیری شود.
قرار دادن تعدای از ویژگیهای مشتریان در مجموعهای تحت عنوان پروفایل مشتریان روش مرسوم است که از آن برای بخشبندی مشتریان در گروههای با رفتار مشابه مثلا خرید محصولات یکسان، استفاده میشود. دادهکاوی میتواند نرخ پاسخ کمپینهای بازاریابی را با تقسیمبندی مشتریان به گروههای با خصوصیات و نیازهای متفاوت افزایش دهد.
افزایش ارزش مشتری
محاسبه ارزش مشتری پیچیده است و این محاسبات بطور معمول شامل یافتن تعاریف صحیح مالی میشوند. یک بیان ساده از ارزش مشتری عبارت است از کل ارزش حاصله از وجود مشتری منهای کل هزینه مصرف شده برای حفظ مشتری (شهرابی ۱۳۹۰a). ولی هزینهها بسیار مشکل آفرین هستند؛ تجارتها دارای انواع هزینههایی هستند که احتمالا از طریق خاصی به مشتریان اختصاص مییابند. حتی با در نظر نگرفتن هزینههای تخصیص یافته و توجه به هزینههای مستقیم، باز هم مسائل، همچنان گیجکننده خواهد بود. از طرف دیگر، ممکن است هزینهها برای مشتریان مشابه، متفاوت باشد که این امر محاسبه ارزش مشتری را پیچیدهتر میکند. از دادهکاوی میتوان برای برآورد ارزش آینده مشتریان استفاده کرد؛ این امر شامل تخمین سود حاصله از یک مشتری در هر واحد زمان و سپس تخمین این سود برای بقیه عمر مشتری است.
به منظور افزایش ارزش کسب شده از مشتریان موجود، استراتژیهای فروش جانبی[۱۲۲] بکار گرفته میشود. فروش جانبی بر اساس اصل برد – برد بنا شده است؛ یعنی شرکتها محصولات جدیدشان را به مشتریان جاری خود میفروشند تا از این طریق اهداف دو طرف عرضه و تقاضا برآورده شود. مشتری به آسانی خدمت یا محصول مورد تقاضای خود را بدست میآورد و سازمانها از طریق افزایش فروش خود سود کسب میکنند. در واقع فروش جانبی سود حاصله از مشتریان موجود را افزایش میدهد.
در مورد مشتریان فعلی، بیشترین تمرکز CRM بر افزایش سوددهی از طریق فروش جانبی است. از دادهکاوی برای تعیین اینکه چه پیشنهادی را به چه کسی و در چه زمانی عرضه کرد استفاده میشود. یکی از روشها در فروش جانبی که برای اجناس خردهفروشی بسیار مناسب است استفاده از قوانین همبستگی است. از قوانین همبستگی به منظور یافتن خوشههایی از محصولات که معمولا با هم فروخته میشوند یا بوسیله فرد یکسانی در طول زمان خریداری میگردند، استفاده میشوند. مشتریانی که برخی و نه تمام اقلام موجود در یک خوشه را خریداری میکنند، مشتریان بالقوه مناسبی برای خرید سایر اقلام آن خوشه هستند.
دادهکاوی و افزایش ارزش دوره عمر مشتری[۱۲۳]
در برخی منابع، رویکرد CRM در چرخه عمر مشتری را متشکل از سه مرحله زیر در نظر گرفتهاند (اکبری ۱۳۸۹):
- بدست آوردن مشتری[۱۲۴]
- افزایش ارزش مشتری
- حفظ مشتریان خوب[۱۲۵]
دادهکاوی میتواند در هر یک از مراحل ذکر شده کارایی و سوددهی را افزایش دهد. اولین قدم در CRM شناسایی مشتریان احتمالی و تبدیل آنها به مشتریان فعال است. جذب مشتری به معنای بالفعل درآوردن تقاضای مشتریانی است که اطلاعات کمی از محصولات شما دارند. دادهکاوی میتواند بصورت مناسبی مشتریان را دستهبندی کند، مشتریان احتمالی را شناسایی کند و از این طریق نرخ پاسخ به فعالیتهای بازاریابی را افزایش دهد. چنانچه قبلا ذکر شد، مدلهای پاسخ از ابزارهای کاربردی دادهکاوی در این زمینه هستند که در واقع از تکنیکهای دستهبندی و پیشبینی برای تشخیص مشتریانی که احتمالا به یک محصول یا خدمت پاسخ مثبت میدهند، استفاده میکنند.
کمپینهای بازاریابی[۱۲۶] یکی دیگر از استراتژیهای CRM است که در مرحله جذب مشتری میتواند مفید باشد. دادهکاوی کمک میکند تا شرکتها با هزیتههای کمتر و استراتژیهای جذب کاراتر با توجه به خصوصیات متفاوت مشتریان، موفقیت بیشتری در کسب مشتریان داشته باشند. روشهایی چون بخشبندی بازار هدف[۱۲۷] و مشتریان برای انجام بازاریابی هدفگرا متداولترین ابزارها در این مرحله بشمار میروند.
دادهکاوی میتواند با فهم فروش جانبی به بازاریابی موثرتر کمک کند. با آنالیز رفتار مشتریان موجود میتوان سرویسها و محصولات دیگر را به آنان ارائه کرد و با دستهبندی مشتریان میزان پاسخگویی مشتریان به کمپینهای بازاریابی را افزایش داد. همچنین، از طریق دادهکاوی میتوان مشتریان باارزشتر سازمان را شناسایی کرد. مشتریانی که مصرف بیشتری دارند و به محصولات بیشتری پاسخ مثبت میدهند و نسبت به سازمان وفادارتر هستند، مشتریان باارزش به حساب میآیند.
بنابراین، در مرحله دوم یعنی افزایش ارزش مشتریان موجود، با بهره گرفتن از تکنیکهای دادهکاوی و تحلیل دادههای مربوط به رفتار مشتریان و خریدهایشان، میتوان پیشنهادهای مناسبی برای خرید سایر کالاها به آنها ارائه داد تا از این طریق ارزش مشتریان برای شرکت افزایش یابد بدون اینکه بدلیل پیشنهادات نامناسب موجب نارضایتی آنها شویم. همچنین، به کمک دادهکاوی میتوان روابط را با مشتریان شخصیسازی[۱۲۸] کرد به نحوی که در مراجعات مجدد آنها با توجه به خریدهای گزشتهشان، محصولات جدید و مرتبط که احتمالا مورد علاقهشان است به آنها پیشنهاد شوند. چنین فرایندی با بهره گرفتن از تکنیکهای مختلف دادهکاوی همچون قوانین همبستگی و خوشهبندی قابل انجام است (اکبری ۱۳۸۹).
در مرحله سوم، یعنی حفظ مشتریان خوب، آنچه قابل توجه است ذکر این نکته است که امروزه در سازمانها هزینهای که صرف جذب مشتری جدید میشود بسیار بیشتر از هزینهای است که سازمانها برای نگهداری مشتریان موجودشان انجام میدهند. بسیاری از شرکتها بر این باورند که هزینه جذب یک مشتری جدید بین ۶ تا ۸ برابر حفظ مشتری موجود است. از این جهت، سازمانها مبالغ بیشتری را صرف نگهداری مشتریان موجودشان میکنند.
تحلیل وفاداری مشتری[۱۲۹]، سنجش میزان ماندگاری و ثبات مشتری است. سازمانها تلاش میکنند تا با ارزیابی میزان وفاداری مشتریانشان، مشتریانی که دارای ریسک بالایی برای قطع استفاده از محصولات هستند را شناسایی کنند و با تعیین استراتژیهای موثر وفادارسازی از میزان مشتریان از دست رفته بکاهند. همچنین، سازمان برای تعیین نحوه تخصیص منابع خود، مشتریان باارزش خود را هدفگذاری می کند تا منابع مالی محدود خود را صرف حفظ مشتریانی کند که سود بیشتری برای سازمان ایجاد میکنند.
دادهکاوی میتواند از طریق تحلیل رفتار گذشته و تطبیق آن با رفتار مشتریان از دست رفته پیشین، مشتریانی که دارای احتمال بالای از دست رفتن هستند را شناسایی و پیشبینی کند. برای ساخت چنین مدلهایی میتوان مشتریان را به سه دسته تقسیم کرد: اول مشتریانی که ارزشی برای سازمان ندارند. دومین دسته مشتریان با ارزش پایدار برای سازمان و دسته سوم مشتریان ناپایدار که به دنبال قیمت و کیفیت دلخواه خود هستند.
بنابر اصول CRM دسته سوم مهمترین دستهای هستند که باید از آنها نگهداری کرد. با شناسایی این گروه از مشتریان میتوان با تخصیص مشوقهایی چون تخفیفها یا خدمات رایگان، آنها را به استفاده از محصولات ترغیب نمود و میزان وفاداری آنها را افزایش داد. همانطور که پیش از این عنوان شد، از آنجایی که برای اکثر شرکتها هزینه جذب مشتری جدید بیشتر از حفظ مشتریان فعلی است، نیاز به استراتژیهای صحیح در راستای حفظ مشتریان بسیار با اهمیت است. اولین نکته در این مسئله داشتن توانایی پیشبینی مشتریانی است که به احتمال زیاد از دست میروند. با انتخاب دادههای مناسب میتوان با بهره گرفتن از تکنیکهای دادهکاوی مدلی ارائه نمود که بتواند رفتار مشتریان را پیشبینی کند. مرحله بعدی، شناسایی مشتریان خوب شرکت است که با بهره گرفتن از تحلیلهای ارزشگذاری مشتریان صورت میگیرد. در نهایت، باید راهکارهایی برای نگه داشتن مشتریان خوب شرکت ارائه نمود. بنابراین، در این بخش به سه مدل نیاز داریم؛ اول مدلی که مشتریانی که از دست خواهند رفت را پیشبینی کند، سپس مدلی که مشتریان خوب و با ارزش را از میان آنها شناسایی کند و نهایتا مدلی که روشهایی برای متقاعد کردن این مشتریان و حفظ آنها ارائه نماید (Edelstein 2000).
ابعاد CRM و کاربردهای دادهکاوی
بر اساس (Ngai, Xiu et al. 2009)، CRM دارای چهار بعد شناسایی مشتری[۱۳۰]، جذب مشتری[۱۳۱]، حفظ مشتری[۱۳۲] و توسعه مشتری[۱۳۳] است. این چهار بعد را میتوان به عنوان یک چرخه سیستم مدیریت مشتری در نظر گرفت.
شناسایی مشتری: CRM با شناسایی مشتری آغاز میشود. این فاز شامل هدفگذاری جمعیتی است که بیشترین احتمال برای تبدیل شدن به مشتری شرکت را دارند. علاوه بر این شامل تحلیل مشتریانی که در رقابت از دست رفتهاند و تعیین چگونگی برگرداندن آنها است.
تحلیل مشتری هدف[۱۳۴] و بخشبندی مشتری[۱۳۵] عناصر اصلی شناسایی مشتری هستند (Ngai, Xiu et al. 2009). تحلیل مشتری هدف شامل جستجوی بخشهای سودآور مشتریان از طریق آنالیز مشخصات پنهان مشتریان است. در این بخش از انواع تکنیکهای توصیفکننده و پیشبینیکننده دادهکاوی میتوان استفاده نمود.
جذب مشتری: این فاز در ادامه فاز شناسایی مشتری است. پس از شناسایی بخشهای مشتریان بالقوه، سازمانها میتوانند به صورت مستقیم تلاش و منابع خود را مصرف جذب مشتریان هدف نمایند. عنصر اصلی جذب مشتری، بازاریابی مستقیم[۱۳۶] است. بازاریابی مستقیم یک فرایند ارتقاء انگیزه مشتریان برای سفارش از طریق کانالهای مختلف است (Ngai, Xiu et al. 2009). برای نمونه، پست مستقیم و توزیع کوپن مثالهای معمولی بازاریابی مستقیم هستند.
حفظ مشتری: این فاز اساسیترین نگرانی برای CRM است. رضایت مشتری[۱۳۷] که در واقع قیاس بین انتظارات مشتری و احساس رضایتمندی وی است، مهمترین شرط برای حفظ مشتریان است. عناصر این فاز شامل بازاریابی یک به یک[۱۳۸]، برنامههای وفاداری[۱۳۹] و مدیریت شکایات[۱۴۰] هستند(Ngai, Xiu et al. 2009). بازاریابی یک به یک از ابزارهای دادهکاوی برای شخصیسازی نحوه ارتباط با هر یک از مشتریان استفاده میکند. بخشبندی و تحلیل ارزش مشتریان در این بعد نیز اهمیت و کاربرد فراوانی دارد.
توسعه مشتری: این فاز در بر گیرنده افزایش پایدار تعداد تراکنشها، ارزش تراکنشها و سودآوری مشتریان است. تحلیل ارزش دوره عمر مشتری، متقاعد کردن مشتری به خرید بیشتر، فروش جانبی و تحلیل سبد خرید عناصر این فاز هستند (Ngai, Xiu et al. 2009). در واقع در این فاز از تکنیکهای دادهکاوی برای یافتن راهکارهای مناسب و کارا برای افزایش ارزش قابل اکتساب از مشتریان فعلی استفاده میشود.
استفاده از روش RFM[141] برای تحلیل ارزش مشتریان روشی متداول است که در کنار تکنیکهای خوشهبندی کارایی مناسبی از خود نشان داده است. در این روش سه مشخصه تاخیر، فراوانی و مقدار پول به عنوان مبنای خوشهبندی و ارزشگذاری مشتریان در نظر گرفته میشوند (Cheng and Chen 2008).
دادهکاوی و بازاریابی هدفمند
امروزه با تغییر رویکرد ارتباط با مشتریان، رویکرد شرکتها در بازاریابی از بازاریابی با حجم بالا[۱۴۲] به بازاریابی یک به یک تغییر یافته و همچنین شرکتها به جای هزینه فراوان برای جذب مشتریان جدید و افزایش سهم بازار خود به دنبال حفظ مشتریان فعلی و افزایش سوددهی آنها هستند. دادهکاوی به شرکتها کمک میکند تا هرچه بیشتر به سمت مشتری مداری حرکت کنند.
بازاریابان سه روش را برای افزایش ارزش مشتری مد نظر قرار دادهاند (اکبری ۱۳۸۹):
- افزایش میزان مصرف و استفاده مشتریان
- فروختن محصول بیشتر به آنان
- نگهداشتن مشتری برای دوره زمانی طولانیتر
به صورت عمومی چرخه عمر مشتریان دارای ۴ مرحله است (Rygielski, Wang et al. 2002):
- مشتریان احتمالی[۱۴۳]: افرادی که هنوز مشتری نیستند ولی در بازار هدف قرار دارند.
- پاسخگوها[۱۴۴]: مشتریان احتمالی که به محصول یا خدمت مورد نظر علاقه نشان دادهاند.
- مشتریان فعال[۱۴۵]: افرادی که در حال حاضر از محصول یا خدمت استفاده میکنند.
- مشتریان سابق[۱۴۶]: افرادی که به دلایل مختلف دیگر ارزشی برای شرکت ندارند و در دامنه بازار هدف قرار نمیگیرند؛ یا افرادی که به سمت خرید از رقبا تغییر موضع دادهاند.
دادهکاوی در CRM در زمبنه ارتباط مناسب با هر یک از این گروهها مدلهای مناسبی ارائه میکند. به عنوان مثال میتوان از دادهکاوی برای پیشبینی این که کدامیک از مشتریان احتمالی میتوانند به مشتری فعال و سودآور تبدیل شوند، استفاده کرد.
دادهکاوی و رویگردانی مشتری
از دست دادن مشتری مهم است، زیرا هزینهای که برای جذب مشتری جدید مصرف میشود بسیار بیشتر از هزینهای است که صرف نگهداری مشتریان موجود میشود؛ این امر به خصوص در مورد صنایع قدیمی و بازار نسبتا اشباع شده بیشتر صدق میکند. وقتی بازار اشباع شود و نرخ پاسخگویی به فعالیتهای جذب مشتری کاهش یابد، هزینه جذب مشتریان جدید افزایش خواهد یافت. هدف دادهکاوی از تولید مدلهای رویگردانی مشتری، شناسایی مشتریان با ارزشی است که در خطر از دست رفتن قرار دارند. بر اساس این مدلها و برای حفظ مشتریان با ارزشی که بدون مشوقهای اضافی شرکت را ترک میکنند، پیشنهادهای خوبی داده میشود.
یکی از اولین چالشها در مدلسازی رویگردانی مشتری این است که تعیین کنیم از دست رفتن مشتری چیست و چه زمانی اتفاق افتاده یا میافتد (شهرابی ۱۳۹۰a). تعیین و تشخیص این امر در برخی از صنایع دشوار است؛ زیرا در اکثر موارد نحوه رفتار مشتریان در هیچ پایگاه دادهای ثبت نمیشود. به عنوان مثال زمانی که یک مشتری وفادار، خرید معمول قهوهی خود را متوقف میکند و به مغازه دیگری مراجعه میکند، فروشنده مغازه قهوه که نوع سفارش وی را به خاطر دارد این مسئله را در مییابد ولی در هیچ پایگاه اطلاعاتی ذخیره نمیشود.
حتی زمانی که اطلاعات جامعی از مشتریان در اختیار باشد، تشخیص یک مشتری از دست رفته از کسی که برای مدتی قطع رابطه کرده دشوار است. ممکن است خرید بعدی یک مشتری وفادار با کمی تاخیر همراه باشد؛ در این صورت آیا میتوان وی را به عنوان مشتری رویگردان در نظر گرفت؟
کشف رویگردانی مشتری، زمانی که یک ارتباط پرداختی ماهانه مانند کارتهای اعتباری وجود داشته باشد کمی آسانتر است. همچنین مفهوم رویگردانی مشتری در تجارتهایی که مشتریان دارای یک اشتراک بلند مدت هستند، راحتتر از سایر موارد تعریف میشود؛ به همین دلیل، مدلسازی رویگردانی مشتری در این گونه تجارتها معمولتر است. شرکتهای تلفن راه دور، تلفن همراه، شرکتهای بیمه، شرکتهای خدمات مالی، تامینکنندگان خدمات اینترنت و تلویزیون کابلی، مجلات و برخی از خردهفروشان مثالهایی از این تجارتها هستند.
در نهایت، برای مدلسازی رویگردانی مشتری دو رویکرد اساسی وجود دارد. رویکرد اول، رویگردانی مشتری را به عنوان یک نتیجه دوگانه میبیند و پیشبینی میکند که کدام مشتری میماند و کدام میرود. رویکرد دوم، درصدد است که دوره بقای مشتری[۱۴۷] را پیشبینی کند.
رویکرد اول: پیشبینی و تعیین مشتریانی که سیستم را ترک میکنند
مدلسازی رویگردانی مشتری به صورت یک نتیجه دوگانه، نیازمند درنظر گرفتن یک افق زمانی است. این مدلها معمولا افق زمانی کوتاهی در حد ۶۰ یا ۹۰ روز دارند. البته افق زمانی نباید انقدر کوتاه باشد که زمانی برای انجام اقدامات پیشگیرانه بر اساس پیشبینیهای مدل وجود نداشته باشد. مدلهای روگردانی مشتری با نتایج دوگانه را میتوان با ابزارهای معمول دستهبندی مانند رگرسیون لجستیک، درختهای تصمیم و شبکههای عصبی تهیه کرد. دادههای پیشین که جمعیتی از مشتریان را در یک بازه زمانی توصیف میکند، با برچسبی که نشان میدهد آیا مشتری در زمانهای بعدی فعال بوده یا نه ترکیب میشوند. وظیفه مدلسازی، ایجاد تمایز بین مشتریانی است که ماندهاند و آنهایی که رفتهاند.
معمولا پیشبینی کنندههای مدل رویگردانی مشتری، ترکیبی از اطلاعاتی هستند که یا در زمان جذب مشتری درباره آنها جمع آوری شده است؛ یا مانند دیرکرد در پرداختها و مشکلات رخ داده با خدمات، در زمان ارتباط با مشتری پیش آمده است. دسته اول مدلهای دادهکاوی پیشگوییکننده رویگردانی مشتری، اطلاعاتی را در مورد چگونگی کم کردن رویگردانیهای مشتریان در آینده با جذب نمودن مشتریانی با تمایل کمتر به رویگردانی فراهم میکنند. دسته دوم، بینشی برای کم کردن خطر رویگردانی مشتریانی که هماکنون وجود دارند فراهم میکند (شهرابی ۱۳۹۰a).
رویکرد دوم: پیشبینی مدت زمانی که مشتریان باقی خواهند ماند
در این رویکرد، هدف درک این مطلب است که مشتری تا چه زمانی احتمال دارد باقی بماند. تخمین زمان نگهداری مشتری جزء مهمی از مدل ارزش عمر مشتری است و این تخمین میتواند مبنایی برای امتیاز وفاداری مشتری نیز باشد. یک مشتری وفادار کسی است که برای مدت طولانی در آینده باقی خواهد ماند، نه کسی که زمان زیادی را تا به امروز باقی مانده است.
یکی از رویکردهای مدلسازی طول عمر مشتری برای تخمین مدت زمان حفظ مشتری، داشتن تصاویر لحظهای از گسترهی جمعیت مشتریان فعلی و در نظر گرفتن وضعیت آنها در ابتدای جذب شدن به سیستم است. مشکل این رویکرد این است که هرچه مشتریان با طول عمر طولانیتر وجود داشته باشند، شرایط متفاوتتری در هنگام جذب شدنشان وجود داشته است. قطعا استفاده از خصوصیات مشتری که در بیست سال پیش مشترک سیستم شده است برای پیشبینی این که کدام یک از مشتریان امروزی برای مدت طولانی در آینده، مشترک خدمات ما خواهند بود راه مطمئنی نیست.
پیشینه تحقیق
تحقیقات متعددی در زمینه پیشبینی رویگردانی مشتری انجام شده است. در این تحقیقات به دو موضوع بیشتر توجه شده است:
- ساخت مدلهای پیشبینی رویگردانی با کارایی و دقت بالا، در این زمینه همچنین یافتن متغیرها و ویژگیهایی از رفتار مشتری که میتواند در ساخت مدل به ما کمک کنند، مد نظر قرار گرفته شده است.
- یافتن فاکتورهای تاثیرگذار بر رویگردانی مشتری، به عبارت دیگر، چه فاکتورهایی در رویگردانی مشتری تاثیر مثبت یا منفی دارند.
از آنجایی که هدف ما در این تحقیق ایجاد یک مدل پیشبینی رویگردانی مشتری است، در مرور ادبیات تمرکز بیشتر در تحقیقات نوع اول است. روشها و تکنیکهای متعددی از رشتههای آمار، یادگیری ماشین و علوم کامپیوتر در ساخت مدلهای پیشبینی رویگردانی مشتری به کار گرفته شده است.
تحقیقات انجام شده در خارج از کشور
دو رویکرد پایهای برای حل مشکل رویگردانی مشتری وجود دارد. رویکرد مبتنی بر هدفگیری[۱۴۸] و رویکرد غیرهدفگیری شده[۱۴۹] (Neslin, Gupta et al. 2006) (شکل ۲-۸) . رویکردهای غیرهدفگیری شده متکی به تبلیغات انبوه و ویژگیهای برتر محصول برای افزایش وفاداری نسبت به برند و حفظ مشتری است. رویکردهای مبتنی بر هدفگیری خیلی پیچیده هستند و متکی بر شناسایی مشتریانی است که دارای احتمال رویگردانی بالا هستند. نسلین و دیگران رویکردهای مبتنی بر هدفگیری را به دو زیر دسته تقسیم میکنند (Neslin, Gupta et al. 2006): واکنشی[۱۵۰] و پیشگیرانه[۱۵۱]. با اتخاذ رویکرد واکنشی شرکت منتظر میماند تا مشتری با شرکت تماس بگیرد و تقاضای قطع رابطه نماید و سپس شرکت به مشتری مشوقهایی را برای ماندن پیشنهاد دهد. در رویکرد پیشگیرانه شرکت سعی میکند تا در همان ابتدا مشتریانی را که احتمال رویگردانی آنها بالا است را شناسایی کند، سپس شرکت اقدام به هدفگیری این مشتریان نموده و سعی میکند تا با پیشنهاد مشوقها و اجرای برنامههای خاص از رویگردانی مشتری جلوگیری نماید. نسلین و دیگران اظهار کردهاند که رویکردهای پیشگیرانه به طور بالقوه نسبت به رویکردهای واکنشی دارای برتری هستند از این جهت که در رویکردهای پیشگیرانه میزان مشوقها کمتر از رویکردهای واکنشی است.
شکل ۲‑۸: رویکردهای برخور با رویگردانی مشتری
اهن و دیگران به بررسی عاملهای تعیینکننده رویگردانی مشتری در صنعت مخابرات کشور کره پرداختهاند. آنها در تحقیق خود به این نتیجه رسیدهاند که عاملهای رویگردانی در صنعت مخابرات کشور کره عبارت اند از (Ahn, Han et al. 2006):
- نارضایتی مشتری: کیفیت سرویس عامل تعیین کننده ای در نارضایتی مشتری است.
- هزینههای سوئیچینگ: مشتریان به دو دلیل می خواهند ارتباطشان را با شرکت حفظ کنند؛ یا حالت اجبار وجود دارد یا مشتری واقعا به شرکت وفادار است. منظور از حالت اجبار این است که هزیتههای تغییر شرکت برای مشتری بالاست و مشتری ترجیح میدهد در شرکت بماند.
- میزان استفاده از سرویس: الگوهای استفاده از سرویس با بهره گرفتن از سه معیار توصیف میشوند؛ تعداد دقایق استفاده، فرکانس استفاده، و تعداد گیرندههایی که به وسیله مشترک تماس گرفتهشدهاند. سطح استفاده از سرویس که به طور شارژ ماهانه اندازهگیری میشود به عنوان یکی از پیشبینیکنندههای رفتاری فرار مشتری در تحقیقات قبلی درنظر گرفته شده است. این موضوع قبلا تایید شده است که بین مقدار استفاده و رویگردانی ارتباط وجود دارد ولی اینکه آیا این ارتباط مثبت یا منفی است هنوز نامشخص است.
- وضعیت مشتری: بعضی از مشتریان به طور ناگهانی شرکت را ترک نمیکنند در حقیقت یا به طور موقت از سرویس استفاده نمیکنند یا به دلیل عدم پرداخت قبوض توسط شرکت تعلیق میشوند. حالتهای مشتریان به سه دسته تقسیم میشود: ۱-فعال،۲- تعلیق شده ، ۳-عدم استفاده.
مشتریانی که در وضعیتهای۲ و ۳ هستند احتمال رویگردانی آنها نسبت به کسانی که در وضعیت ۱ هستند خیلی زیاد است. این تحقیق به این موضوع میپردازد که وضعیت مشتری نقش واسطهای بین عاملهای تعیینکننده رویگردانی و احتمال رویگردانی دارند. به عبارت دیگر، بعضی از این عاملها ممکن است احتمال رویگردانی را به طور مستقیم یا غیر مستقیم به واسطه همین حالتها تحت تاثیر قرار دهند.
لاریویری و ون دن پائل از تکنیک رندوم فارستس[۱۵۲] و رگراسیون فارستس[۱۵۳] به منظور ساخت مدل پیشبینیکننده رویگردانی استفاده کردهاند (Larivie`re and Van den Poel 2005). نتایج تحقیق آنها نشان میدهد که دو روش فوق بترتیب نسبت به رگرسیون لجستیک و رگرسیون خطی دارای کارایی بهتری هستند.
هانگ و دیگران از روشهای دادهکاوی برای مدیریت رویگردانی در صنعت مخابرات استفاده کردهاند (Hung, Yen et al. 2006). نتایج تحقیق آنها نشان میدهد که تکنیکهای درخت تصمیم و شبکه عصبی میتوانند مدلهای پیشبینی رویگردانی دقیقی را با گرفتن دادههای دموگرافیک، اطلاعات صورتحساب و دیگر اطلاعات مشتریان ارائه دهند. در این تحقیق، همچنین تعاریفی در مورد رویگردانی و مراحل مختلف داده کاوی آورده شده است.
سوینی و سویت در تحقیق خود به بررسی نقش برند در حفظ مشتریان میپردازند (Sweeney and Swait 2008). همچنین، به بررسی روابط بین اعتبار برند و فاکتورهای دیگر چون رضایتمندی و کیفیت سرویس میپردازند. نتایج بررسی موارد بانکی و مخابراتی نشان میهد که اعتبار برند نقش تدافعی دارد؛ یعنی اینکه برند به طور قابل توجهی WOM را افزایش داده و سوئیچینگ مشتریان را کاهش میدهد. مدل استخراج شده از روابط در شکل (۲-۹) نشان داده شده است. همانطور که در شکل میبینید اعتبار برند باعث ایجاد وفاداری به طور مستقیم یا غیر مستقیم میشود و نیز وفاداری و رضایتمندی مشتری باعث میشود تا تمایل به سوئچینگ مشتری کمتر شود و توصیههای مشتری به سایر افراد برای استفاده از سرویسهای شرکت زیاد شود.
شکل ۲‑۹: روابط بین برند و سایر فاکتورها
کوزمنت و ون دن پائل، اطلاعات مربوط به ارتباط مشتریان و تعامل مشتریان با مراکز تماس را با متغیرهای رایج در پیشبینی رویگردانی ترکیب کردهاند تا بدین ترتیب بتوانند یک مدل کارا برای پیشبینی رویگردانی تولید کنند (Coussement and Van Den Poel 2008a). آنها پس از پردازش ایمیلهای غیر ساختیافته دریافتی از مشتریان و تبدیل به اطلاعات ساختیافته، آنها را با اطلاعات تراکنشهای مشتریان ترکیب کردهاند. آنها در تحقیق خود نشان میدهند که با افزودن اطلاعات متنی غیر ساختیافته به مدلهای پیشبینی رویگردانی معمول، عملکرد این مدلها به میزان قابل توجهی افزایش یافته است. از نقطه نظر مدیریتی، چارچوب مجتمع شده به مدیران تصمیمگیرنده در بخش بازاریابی کمک میکند تا مشتریانی را که مستعد سوئیچ هستند بهتر شناسایی کنند. متعاقبا با پیشبینی دقیق اینکه کدام مشتری تمایل به ترک شرکت را دارد اقدامات نگهداری و حفظ مشتری به صورت هدفمند خواهد شد.
کوزمنت و ون دن پائل، همچنین در تحقیق دیگری قدرت پیشبینی تکنیک ماشینهای بردار پشتیبان (SVM) را با رگرسیون لجستیک و نیز رندوم فارست در زمینه پیشبینی رویگردانی مشتری مقایسه کردند (Coussement and Van Den Poel 2008b). آنها در تحقیق خود از روش SVM با تابع کرنل RBF استفاده کردهاند. تابع RBF دارای دو پارامتر است؛ در این تحقیق از دو تکنیک انتخاب پارامتر برای انتخاب پارامتر هایRBF استفاده شده است. آنها در تحقیق خود به این نتیجه رسیدند که تکنیکهای انتخاب پارامتر نقش برجستهای در کارایی و دقت پیشبینی SVM دارد و نیز تکنیک رندوم فارست در هر صورت بهتر از SVM عمل میکند.
تی سای و لو از شبکههای عصبی مصنوعی (ANN) به منظور ساخت مدل پیشبینی رویگردانی مشتری استفاده کردهاند (Tsai and Lu 2009). آنها در تحقیق خود از رویکرد ترکیبی استفاده کردند و دو مدل ترکیبی زیر را توسعه دادند:
- ANN + ANN: در این روش ANN اولی به منظور کاهش دادهای استفاده شده است. و دومی برای کار پیشبینی رویگردانی به کار برده شده است.
- SOM + ANN: ابتدا خوشهبندی توسط روش نقشههای خود سازمانده (SOM) انجام میگیرد. دو خوشه دارای بیشترین تعداد رکورد انتخاب شده و وارد ANN برای پیشبینی میشوند.
نتایج تحقیق آنها نشان میدهدکه دو مدل ترکیبی ساخته شده در پیشبینی رویگردانی بهتر از مدل تکی شبکههای عصبی عمل میکنند. درضمن، مدل (ANN+ANN) عملکرد بهتری در پیشبینی نسبت به (SOM+ANN) دارد.
پندارکار برای اولین بار از شبکه عصبی مبتنی بر الگوریتم ژنتیک برای پیشبینی رویگردانی مشتری در سرویسهای اشتراک بیسیم استفاده کرده است (Pendharkar 2009). در این تحقیق از الگوریتم ژنتیک جستجوی سراسری ابتکاری برای یادگیری وزنهای اتصالات شبکههای عصبی استفاده شده است.
ونگ و دیگران با بهره گرفتن از تکنیکهای دادهکاوی به ایجاد یک سیستم توصیهگر به مشتریان پرداختهاند (Wang, Chiang et al. 2009). با بهره گرفتن از این سیستم دلیل رویگردانی مشتریان مشخص شده و یا به عبارت دیگر رفتارهای استفاده مشتریان رویگردان و مشتریان وفادار مورد بررسی قرار گرفته تا به موجب آنها بتوان استراتژیهای بازاریابی مناسب جهت جلوگیری از رویگردانی مشتریان به مدیران شرکت ارائه داد.
الگوریتمهای زیادی برای تحلیل رویگردانی وجود دارد ولی همه آنها با محدودیتهایی رو به رو هستند که این محدودیتها به دلیل طبیعت مسئله رویگردانی به وجود میآیند. مسئله رویگردانی دارای سه ویژگی عمده است: ۱- دادهها معمولا نامتعادل هستند. ( تعداد مشتریان رویگردان خیلی کم هستند و معمولا تنها ۲ درصد از کل نمونه را در بر میگیرند) ۲- نویزهایی در دادهها وجود دارد. ۳- برای پیشبینی رویگردانی لازم است تا احتمال رویگردانی موجودیتها را رتبهبندی کنیم (Xie, Li et al. 2009). زای و همکاران در تحقیق خود یک روشی به نام رندم فارست متوازن بهبودیافته[۱۵۴] برای پیشبینی رویگردانی ارائه کردهاند. این الگوریتم روی یک مطالعه موردی بانکی پیادهسازی شده. نتایج نشان میدهد که دقت پیشبینی این الگوریتم نسبت به سایر الگوریتمهای حوزهی پیشبینی رویگردانی مانند شبکههای عصبی، درخت تصمیم و SVM بالاتر است. همچنین، الگوریتم نسبت به الگوریتمهای مبتنی بر رندوم فارست مانند رندم فارست متوازن بهتر عمل میکند.
گلیدی و دیگران در مقاله خود وفاداری مشتری را از دیدگاه مشتریگرایی به جای دیدگاه محصولگرایی تعریف میکنند (Glady, Baesens et al. 2009). آنها همچنین مشتری رویگردان را به عنوان کسی که ارزش طول عمر آن در حال کاهش است تعریف میکنند. موضوع جدید دیگری که در این مقاله عنوان شده است این است که ضرر حاصل شده توسط کاهش CLV به عنوان ضرر حاصل از دستهبندی غلط مشتریان در نظر گرفته میشود. نتیجه نهایی که در این مقاله گرفته شده است این است که سود و منفعت تنها چیزی است که در محیط تجاری اهمیت دارد، شاخصهای استاندارد آماری سنجش دقت و صحت پیشبینی بایستی تجدید نظر شده و بایستی سودگرایی در آنها دیده شود.
در حوزه ارتباطات از را ه دور، تکنیکهای دادهکاوی مانند درخت تصمیم ،شبکههای عصبی به منظور توسعه مدلهای پیشبینی رویگردانی مشتری به کار رفتهاند. با این وجود بسیاری از کارهای انجام شده صرفا کار پیش بینی را انجام دادهاند و مرحله پیشپردازش از دادهکاوی را نادیده گرفتهاند.
تی سای و چن از ترکیب الگوریتمهای قواعد همبستگی با الگوریتمهای درخت تصمیم و شبکههای عصبی برای ساخت مدل پیشبینی رویگردانی استفاده کردهاند (Tsai and Chen 2010). روش کارشان به این صورت است که ابتدا در مرحله پیشپردازش با بهره گرفتن از قواعد همبستگی متغیرهای با اهمیت شناخته شده، سپس مدل پیشبینی رویگردانی توسط شبکههای عصبی و درخت تصمیم ساخته میشود. در این تحقیق از شاخصهایی در جهت ارزیابی کارایی مدلهای ساخته شده استفاده شده است. نتیجه تحقیق نشان میدهد که متدهای ترکیبی قواعد همبستگی و درخت تصمیم یا شبکههای عصبی بهتر از متدهای تکی درخت تصمیم یا شبکههای عصبی عمل میکنند.
هوانگ و دیگران در تحقیق خود یک رویکرد انتخاب ویژگی چند هدفه را برای پیشبینی رویگردانی مشتریان در یک شرکت مخابراتی، بر اساس رویکرد بهینهسازی [۱۵۵]NSGA-II ارائه دادند (Huang, Buckley et al. 2010). هدف رویکردهای انتخاب ویژگی عبارتند از کاهش ویژگیهای نامعتبر یا زاید و پیدا کردن ویژگیهای مهم که منجر به افزایش کارایی مدلهای دادهکاوی میشود. در این تحقیق از درخت تصمیم به دلیل کارایی بالا و هزینه محاسباتی پایین به عنوان تابع برازش استفاده شده است.
کوزمنت و دیگران در مقاله خود از مدلهای جمعپذیر عمومی[۱۵۶] ( GAM) برای پیشبینی رویگردانی مشتری استفاده کردهاند (Coussement, Benoit et al. 2010). در مقایسه با رگرسیون لجستیک ، GAM محدودیت خطی بون را برداشته و اجازه میدهد تا رابطه بین متغیرها غیرخطی باشد. این تحقیق نشان میدهد که: ۱- GAM قادر به بهبود دادن تصمیمگیریهای بازاریابی از طریق شناسایی مشتریان ریسک دار است. ۲- GAM خوانایی و تفسیرپذیری مدلهای رویگردانی را با مصورسازی رابطه غیرخطی آنها نشان میدهد. ۳- مدیران بازاریابی میتوانند ارزش کسب و کار خود را با بهره گرفتن از GAM در زمینه پیشبینی رویگردانی مشتری افزایش دهند.
هستی و تیبشیرانی اظهار کردهاند که روشهای غیرپارامتریک در مواقعی که تعداد متغیرهای پیشبینیکننده بیشتر باشد بدتر عمل میکنند (Hastie and Tibshirani 1990)؛ برای اینکه پراکندگی دادهها ، واریانس تخمینها را متورم میکند. این موضوع اغلب به عنوان مصیبت بعد یاد میشود. با بهره گرفتن از مدلهای جمعپذیر، مشکل مصیبت بعد بر طرف میشود. روش GAM حداقل دو مزیت نسبت به رگرسیون لجستیک دارد: ۱- روابط غیرخطی بین دادهها را آشکار میکند. ۲- نشان داده شده است که حذف فرض خطی بودن منجر به درک صحیحی از تاثیر هر یک از متغیرهای پیشبینیکننده روی متغیر وابسته میشود که این موضوع به تصمیمگیران کمک میکند تا مشکل رویگردانی شرکت را به طور کامل درک کنند (Coussement, Benoit et al. 2010).
در اکثر تحقیقاتی که تاکنون در زمینه پیشبینی رویگردانی مشتریان صورت گرفته است، بیشتر به بالا بردن دقت و کارایی مدلهای پیشبینی توجه شده است. وربک و دیگران در مقاله خود به جنبههای جدیدی در مورد مدلهای پیشبینی رویگردانی مشتری اشاره کردهاند (Verbeke, Martens et al. 2011). اگرچه، این جنبهها در تحقیقات قبلی به صورت تلویحی مورد توجه قرار گرفته بود ولی در این مقاله به صورت آشکار این جنبهها ذکر شدهاند. دقت پیشبینی[۱۵۷]، قابلیت درک[۱۵۸] و توجیهپذیری[۱۵۹] سه جنبه کلیدی مدلهای پیشبینی رویگردانی هستند. در حیطه دادهکاوی یک مدل توجیهپذیر است اگر با دانش محیط کاربرد همخوانی داشته باشد. یک مدل پیشبینی رویگردانی با دقت بالا موجب میشود تا مشتریان رویگردان آتی به طور درست مورد هدف کمپینهای نگهداری قرار گیرند. در حالی که یک مجموعه قوانین قابل درک اجازه میدهد تا عوامل و دلایل اصلی رویگردانی مشتریان شناسایی شوند و استراتژیهای موثر نگهداری مشتریان که مطابق با دانش حیطه باشد اتخاذ گردد.
در این تحقیق دو تکنیک جدید دادهکاوی در زمینه پیشبینی رویگردانی مشتریان به کار گرفته شده است. این تکنیکها عبارتند از: Ant-Miner+ و [۱۶۰]ALBA. روش Ant-Miner+ یک تکنیک دادهکاوی با کارایی بالا بر اساس اصول بهینهسازی کلونی مورچهها[۱۶۱] است که اجازه میدهد تا بتوان دانش حیطه را وارد مدل کرد از طریق اعمال محدودیتهای یکنواختی روی مجموعه قوانین نهایی. و تکنیک ALBA دقت بالای تکنیک SVM را با قابلیت درک مجموعه قوانین ترکیب میکند. به عبارت دیگر، ALBA یک روش استخراج مجموعه قوانین از یک مدل SVM است. نتایج مدلسازیها نشان میدهد که ALBA منجر به یک مدل قابل درک با کارایی بالا میشود. همچنین برخلاف سایر تکنیکهای استفاده شده در این تحقیق، Ant-Miner+ منجر به مدلهای دقیق با قابلیت درک بالا و از همه مهمتر با توجیهپذیری بالا میشود. در این تحقیق از یک دیتاست عمومی استفاده شده است.
روشهای فازی و نروفازی نیز در سالهای اخیر به صورت خیلی کم در زمینه پیشبینی رویگردانی مشتریان کاربرد داشتهاند. مطالعات ما در این زمینه نشان میدهد که تنها در دو مقاله از این روشها استفاده شده است. قربانی و دیگران در تحقیق خود برای اولین بار از روش درخت مدل خطی محلی[۱۶۲] در پیشبینی رویگردانی مشتریان استفاده کردهاند (Ghorbani, Taghiyareh et al. 2009)؛ که این روش مزایای شبکههای عصبی، مدل درختی و مدلسازی فازی را به صورت یکجا دارد. نتایج تحقیق آنها نشان میدهد که این متد در مقایسه با متدهایی نظیر شبکههای عصبی، درخت تصمیم و رگرسیون لجستیک، کارایی پیشبینی را به میزان قابل توجهی بالا میبرد.
تحقیق دیگر در این زمینه مربوط به مقالهی کاراهکا و کاراهکا است (Karahoca and Karahoca 2011). آنها در مقاله خود ابتدا از روش خوشهبندی فازی C-means برای خوشهبندی مشتریان یک شرکت مخابراتی استفاده کرده و با انجام این کار به هر مشتری یک برچسب یا ویژگی جدید نسبت دادند. سپس، از تکنیک سیستم استنتاج فازی عصبی تطبیقی[۱۶۳] به منظور پیشبینی رویگردانی مشتریان استفاده کردهاند. تکنیک ANFIS دقت سیستمهای دستهبندی مبتنی بر فازی را با خاصیت تطبیقپذیری (پیش انتشار) شبکههای عصبی ترکیب میکند. بر اساس نتایج تحقیق، آنها اظهار کردهاند تکنیک ANFIS میتواند به عنوان یک تکنیک جایگزین تکنیکهای فعلی در فعالیتهای کنونی CRM از جمله پیشبینی رویگردانی مشتریان استفاده شود.
تحقیقات انجام شده در داخل کشور
گسترش علم دادهکاوی و افزایش توانایی تکنیکهای دادهکاوی در صنایع مختلف کشور از یک طرف، و اهمیت مسئله رویگردانی مشتری در نرخ نگهداری مشتری در یک بازار رقابتی برای سیستمهای CRM از طرف دیگر موجب شده است تا در دهه اخیر تحقیقاتی در مورد پیشبینی رویگردانی مشتری با بهره گرفتن از دادهکاوی در داخل کشور انجام پذیرد. در ادامه به مواردی از این تحقیقات اشاره خواهیم کرد.
(کرامتی, اردبیلی et al. 1388) در مقاله خود با بهره گرفتن از روشهای دادهکاوی به تحلیل رویگردانی مشتری در یکی از اپراتورهای تلفن همراه ایران پرداختند. آنها از تکنیک رگرسیون لاجستیک دوجملهای[۱۶۴] استفاده کردند و نشان دادند که نارضایتی مشتری، میزان استفاده از خدمات ارائه شده و نیز مشخصه های دموگرافیک مشترک مهمترین تأثیر را بر تصمیم او مبنی بر رویگردانی یا ماندگاری دارند. آنها همچنین به بررسی اثر واسطهای وضعیت مشتری (وضعیت فعال یا غیر فعال) در رویگردانی نیز پرداختهاند.
(توکلی, مرتضوی et al. 1389) با بکارگیری تکنیک درخت تصمیم به پیشبینی رویگردانی مشتری در صنعت بیمه پرداختهاند. آنها در تحقیق خود از فرایند استاندارد دادهکاوی CRISP – DM استفاده کردند و به کاوش در پایگاههای داده یکی از شرکتهای سهامی عام بیمهای در بیمه آتشسوزی پرداختند.
چنانچه پیشتر نیز ذکر شد، بیشتر تحقیقات به ارائه مدلهایی جهت پیشبینی رویگردانی مشتری پرداختهاند و کمتر علل رویگردانی را مورد مطالعه قرار دادهاند. (سپهری, نوروزی et al. 1390) با ترکیب روشهای دادهکاوی و تحقیق پیمایشی به کشف دلایل رویگردانی مشتری از خدمات بانکداری پرداختهاند. در این تحقیق تلاش شده است تا با بهرهگیری از تحقیق پیمایشی پرسشنامه محور نظریات مشتریان در خصوص سطوح رضایتمندی و مولفههای تاثیرگذار بر رویگردانی مشتری ارزیابی شود و از نتایج آن برای تحلیل تاثیر عوامل مختلف بر رویگردانی بهره گرفتهاند.
(عباسیمهر ۱۳۹۰) در پایان نامهی خود مدلی برای پیشبینی رویگردانی مشتریان با ارزش در بخش خدمات ارائه داده است. وی با بهره گرفتن از دادههای مربوط به صنعت مخابرات، ابتدا با بهره گرفتن از تکنیکهای خوشهبندی مشتریان با ارزش را شناسایی کرده و سپس بوسیله تکنیک ANFIS و ترکیب آن با الگوریتم بهینهسازی اجتماع مورچگان، به پیشبینی رویگردانی مشتریان باارزش پرداخته است.
خلاصه تحقیقات انجام شده
ویژگیهایی که تحقیقات انجام شده مربوط به ساخت مدلهای پیشبینی رویگردانی مشتریان دارند عبارتند از:
- در هر تحقیق از یک یا چند دیتاست عمومی یا خصوصی استفاده شده است.
- تکنیکهای به کارگرفته شده برای پیشبینی رویگردانی مشتریان متنوع هستند و هیچ تکنیکی برای همه مسائل و دیتاستها بهتر از سایر تکنیکها عمل نمیکند. برای مثال نتایج یک تحقیق نشان داده است که شبکه عصبی بهتر از درخت تصمیم عمل کرده است در حالی که نتایج تحقیق دیگر نشان داده است که درخت تصمیم بهتر از شبکه عصبی عمل کرده است. شاید دلیل این امر به ماهیت مسئله برگردد زیرا اساسا مسئله پیشبینی رویگردانی مشتریان یک مسئله دسته بندی است و از تکنیکهای دادهکاوی برای ساخت مدل پیشبینی استفاده میشود. در دادهکاوی هیچ تکنیک دستهبندی نمیتوان یافت که در همه شرایط و دیتاستها بهتر از سایر تکنیکها عمل کند (Han, Kamber et al. 2011).
- در بیشتر تحقیقات، تکنیکهای استفاده شده فقط روی یک دیتاست اعمال شدهاند و کارایی تکنیکها روی دیتاستهای متعدد تست نشده است. حتی در مواردی که یک تکنیک پیشبینی جدید توسعه داده شده است، کارایی آن فقط روی یک دیتاست تست شده است.
- در اکثر تحقیقات انجام شده فقط کارایی تکنیکها از لحاظ معیارهای دقت پیشبینی و قابلیت درک ارزیابی شده است. معیارهای دیگر نظیر سرعت محاسباتی (پیچیدگی زمانی) و مسائل مربوط به حافظه زیاد مورد توجه قرار نگرفتهاند. با توجه به افزایش دادههای مربوط به مشتریان و حجیم شدن پایگاه دادههای مربوط به مشتریان توجه به این معیارها امری اجتناب ناپذیر است.
- تحقیقات انجام شده در این زمینه، هر کدام مربوط به یک صنعت خاص هستند.
- در بیشتر تحقیقات انجام شده از تکنیکهای مربوط به دادهکاوی استفاده شده است.
- در بیشتر تحقیقات ارزش مشتری مورد توجه نبوده و فقط رویگردانی مشتریان بدون توجه به ارزش آنها مد نظر بوده.
در جدول (۲-۴) خلاصهای از تحقیقات انجام شده در زمینه ساخت مدلهای پیشبینی رویگردانی مشتریان آورده شده است. در این جدول ویژگیهای مربوط به این تحقیقات از قبیل نوع تکنیکهای به کار گرفته شده در آنها، دیتاستها و نیز صنعت یا سرویسی که تحقیق در آن صورت گرفته است آورده شده.
جدول ۲‑۴ :خلاصه سابقه تحقیق
ردیف | عنوان | نویسنده یا نویسندگان | سال | تکنیکها |
صنعت، عمومی (۱) یا خصوصی (۲) بودن دادهها |
۱ | کاربرد الگوریتم C4.5 برای ساخت مدل پیشبینی رویگردانی با بهره گرفتن از تعداد ویژگیهای محدود | وی و چیو[۱۶۵] | ۲۰۰۲ | درخت تصمیم C4.5 |
مخابرات بیسیم، (۲) |
۲ | استفاده از مدل پیشبینی رویگردانی به عنوان بخشی از مدل ارزش طول عمر مشتری | ونگ و همکاران | ۲۰۰۴ | رگرسیون لجستیک، درخت تصمیم، شبکه عصبی |
مخابرات بیسیم، (۲) |
۳ | مقایسه تکنیکها برای پیشبینی فرار نا تمام[۱۶۶] در یک محیط غیرقراردادی[۱۶۷] | بوکینکس و ون دن پائل | ۲۰۰۵ | رگرسیون لجستیک، شبکهعصبی، رندوم فارستس |
خرده فروشی (۲) |
۴ | بررسی متغیرهای توصیفی و متدهای مدلسازی در پیشبینی رویگردانی مشتریان | لاریویری و ون دن پائل | ۲۰۰۵ | رگرسیون لجستیک و خطی، رندوم فارستس |
مالی (۲) |
۵ | مقایسه تطبیقی و به کارگیری متدهای مدلسازی پیشبینی رویگردانی | هانگ و همکاران | ۲۰۰۶ | درخت تصمیم، شبکه عصبی |
مخابرات بیسیم، (۲) |
۶ | کاربرد تکنیکهای bagging و Boosting برای افزایش کارایی تکنیکهای پیشبینی رویگردانی مشتریان | لمنس و کروکس | ۲۰۰۶ | رگرسیون لجستیک، درخت تصمیم |
مخابرات بیسیم، (۱) |
۷ | توسعه مدلهای پیشبینی رویگردانی و تست آنها در یک کمپین نگهداری واقعی | بورز[۱۶۸] و ون دن پائل | ۲۰۰۷ | رگرسیون لجستیک (با زنجیره مارکوف)، رندوم فارستس |
سرویس Pay-TV (۲) |
۸ | کاربرد تکنیک ماشین بردار پشتیبان در پیشبینی رویگردانی مشتریان در یک سرویس اشتراک روزنامه | کوزمنت و ون دن پائل | ۲۰۰۸ | رگرسیون لجستیک، ماشین بردار پشتیبان، رندوم فارستس |
سرویس اشتراک روزنامه (۲) |
۹ | مطالعه متدهای نمونه برداری، متد و معیارهای ارزیابی و تکنیکهای مدلسازی | بورز و ون دن پائل | ۲۰۰۹ | رگرسیون لجستیک، Boosting، رندوم فارستس | بانک، مخابرات، اشتراک روزنامه، pay TV – خردهفروشی سوپرمارکت |
۱۰ | گنجاندن دانش محیط کاربرد در مدلهای پیشبینی رویگردانی | لیما و همکاران | ۲۰۰۹ | رگرسیون لجستیک، درخت تصمیم |
مخابرات بیسیم (۱) |
۱۱ | کاربرد دو شبکه عصبی مبتنی بر الگوریتم ژنتیک در زمینه پیشبینی رویگردانی | پندارکار | ۲۰۰۹ | شبکه عصبی مبتنی بر الگوریتم ژنتیک |
مخابرات بیسیم (۱) |
۱۲ | توسعه یک تکنیک جدید به نام رندوم فارستس متوازن بهبود یافته در پاسخ به برخی محدودیتهای مسائل پیشبینی رویگردانی | زای و همکاران | ۲۰۰۹ | شبکه عصبی، درخت تصمیم، SVM ، رندوم فارستس متوازن بهبود یافته |
بانک (۲) |
۱۳ | توسعه دو مدل ترکیبی به منظور پیشبینی رویگردانی مشتریان | تی سای و لو | ۲۰۰۹ | شبکه عصبی، نقشههای خود سازمانده |
مخابرات (۱) |
۱۴ | استفاده از مفهوم طول عمر مشتری برای تعریف مشتریان رویگردان و توسعه مدلهای پیشبینی رویگردانی و ارزیابی آنها به وسیله یک معیار ارزیابی توسعه داده شده که معیار سود و زیان را درنظر میگیرد | گلیدی و همکاران | ۲۰۰۹ | رگرسیون لجستیک، شبکههای عصبی، درخت تصمیم، تکنیک توسعه داده شده به نام Ada Cost |
بانک (۲) |
۱۵ | به کارگیری مدلهای جمعپذیر عمومی در پیشبینی رویگردانی مشتریان | کوزمنت و همکاران | ۲۰۱۰ | رگرسیون لجستیک، GAM | اشتراک روزنامه (۲) |
۱۶ | کاربرد NSGA-II برای انتخاب ویژگیها بهینه در پیشبینی رویگردانی مشتریان | هوانگ و همکاران | ۲۰۱۰ | درخت تصمیم |
مخابرات (۲) |
۱۷ | استفاده از تکنیکهای دادهکاوی به منظور ساخت مدلهای پیشبینی رویگردانی مشتریان و با تاکید بر مرحله پیش پردازش دادهها | تی سای و چن | ۲۰۱۰ | قوانین تلازمی، درخت تصمیم، شبکه عصبی |
تقاضا (۲) |
۱۸ | توسعه تکنیک SVM توسعه یافته که نامتعادل بودن دادهها را در نظر میگیرد | یو و همکاران | ۲۰۱۰ | شبکه عصبی، SVM، SVM توسعه یافته |
وب سایت تجارت الکترونیکی (۲) |
۱۹ | ارائه سیستمی برای مدیریت رویگردانی بر اساس تکنیکهای خوشهبندی فازی و سیستم استنتاج فازی عصبی تطبیقی | کاراهکا و کاراهکا | ۲۰۱۱ | Fuzzy C-means، ANFIS، درخت تصمیم |
مخابرات (۲) |
۲۰ | کاربرد دو تکنیک جدید دادهکاوی به نامهای Antminer+ و ALBA برای پیشبینی رویگردانی مشتریان | وربک و همکاران | ۲۰۱۱ | Antminer+، ALBA،SVM، درخت تصمیم، رگرسیون لجستیک |
مخابرات (۱) |
۲۱ | تحلیل رویگردانی مشتریان، بررسی وضعیت یکی از اپراتورهای تلفن همراه ایران با کمک روشهای دادهکاوی | عباس کرامتی و همکاران | ۱۳۸۸ | رگرسیون لاجستیک دو سطحی |
مخابرات (۲) |
۲۲ | به کارگیری فرایند دادهکاوی برای پیشبینی الگوهای رویگردانی مشتری در بیمه | احمد توکلی و همکاران | ۱۳۸۹ | درخت تصمیم |
بیمه (۱) |
۲۳ | کشف دلایل رویگردانی مشتری از خدمات بانکداری با ترکیب روشهای دادهکاوی و تحقیق پیمایشی | محمد مهدی سپهری و همکاران | ۱۳۹۰ | درخت تصمیم، k-means |
بانک (۱) |
۲۴ | مدل پیشبینی رویگردانی مشتریان با ارزش در بخش خدمات | حسین عباسیمهر | ۱۳۹۰ |
ANFIS k-means cAnt-miner |
مخابرات (۲) |
جمعبندی
چنانچه ذکر شد در اکثر این تحقیقات، مدل ارائه شده فقط بر روی یک پایگاه داده پیادهسازی شده است. همچنین، هیچ یک از این تحقیقات به بررسی تکنیک سیستم چند دستهبند (MCS) بر دقت پیشبینی رویگردانی نپرداختهاند. از طرف دیگر، فقط یک تحقیق علاوه بر پیشبینی رویگردانی مشتری به ارزش مشتریان نیز توجه داشته؛ بطوری که ابتدا مشتریان با ارزش را مشخص کرده و سپس به پیشبینی رویگردانی در میان آنها پرداخته است.
ما در این تحقیق، ابتدا با بهره گرفتن از MCS پیشنهادی به پیشبینی رویگردانی مشتریان پرداختهایم. در MCS پیشنهادی سعی شده است از تکنیکهایی استفاده شود که در تحقیقات مذکور به کار رفتهاند؛ همچنین ساختار این سیستم با بهره گرفتن از الگوریتم ژنتیک چندبعدی بهینهسازی شده است که در هیچ یک از تحقیقات گذشته چنین اقدامی انجام نشده بود. این مدل علاوه بر این که بر روی پایگاه داده اپراتور تلفن همراه تالیا پیادهسازی میشود، بر روی پایگاه داده مرتبط به دانشگاه دوک نیز پیادهسازی خواهد شد و نتایج به دست آمده با یکدیگر مقایسه خواهند شد. پس از این که مشتریان مستعد رویگردانی شناسایی شدند، با بهره گرفتن از ابزار دادهکاوی به شناسایی مشتریان با ارزش از میان آنها خواهیم پرداخت تا سازمان با تمرکز بیشتر بر روی مشتریان کلیدی، به اتخاذ رویکرد بازاریابی مناسب جهت جلوگیری از رویگردانی این مشتریان بپردازد.
اپراتور تلفن همراه تالیا
شرکت تالیا به عنوان اولین شبکه مستقل پیش پرداخت[۱۶۹] تلفن همراه از سال ۱۳۸۳ با بهره گرفتن از تجهیزات سخت افزاری و نرم افزاری شرکت های زیمنس، آلکاتل و اریکسون و با مشاوره یکی از برجسته ترین مشاوران GSM در دنیا (شرکت Tel 2 ) آغاز به کار کرد. این شرکت که توسط مجتمع صنعتی رفسنجان تاسیس گردید، به طور رسمی از سوم خرداد ۱۳۸۴ ابتدا در تهران و به تدریج در سایر شهرها و مراکز استانها سرویسدهی خود را آغاز کرده و تاکنون ادامه دارد.
شرکت تعاونی مجتمع صنعتی رفسنجان اولین عرضهکننده سیمکارتهای اعتباری در کشور پس از گذشت هفت سال از شروع به کار رسمی، نزدیک به ۲۰۰ هزار مشترک دارد. تعاونی مجتمع صنعتی رفسنجان ، در آغاز سال ۱۳۹۱ تمام سهام خود و اجرای پروژه تالیا را به شرکت جدیدالتاسیسی به نام ” گسترش ارتباطات تالیا ” واگذار کرد از این پروژه بیرون رفت. تالیا پس از تغییر و تحولات مدیریتیاش، فعالیتهای بازاریابی خود را به طور محسوسی افزایش و بهبود داده است و تلاش دارد تا خاطره خوش و لذت استفاده از خدمات تالیا را در بین مردم مجدداً زنده نماید.
فصل سوم:
مدل پیشنهادی
مقدمه
در این تحقیق، پیشبینی رویگردانی مشتریان و شناسایی مشتریان با ارزش از میان آنها برای مشتریان تلفن همراه در صنعت مخابرات مورد توجه قرار گرفته است. این هدف طی یک فرایند دو مرحلهای با بهره گرفتن از تکنیکهای دادهکاوی مدلسازی شده است. در این فصل، ابتدا ساختار کلی مدل پیشنهادی معرفی میشود؛ سپس نحوه پیادهسازی هر یک از مراحل مدل پیشنهادی در بخشهای جداگانهای توضیح داده شده است.
روش تحقیق
روش تحقیق از نظر هدف، کاربردی است و به کاربرد دانش دادهکاوی در مدیریت ارتباط با مشتری در صنعت تلفن همراه میپردازد. به عبارت دیگر، در این تحقیق با بهره گرفتن از مدلهای دادهکاوی سعی در بهبود دقت پیشبینی رویگردانی مشتری و همچنین شناسایی مشتریان با ارزش از میان آنها داریم. از سوی دیگر با توجه به اینکه در این پژوهش به بررسی همبستگی بین متغیرهای پیشگو و متغیر هدف پرداخته میشود، میتوان بیان کرد که پژوهش حاضر بر اساس ماهیت و روش گردآوری دادهها، یک پژوهش توصیفی-همبستگی است.
روشهای استفاده شده برای تجزیه و تحلیل دادهها در این تحقیق به قرار زیر است:
- استفاده از سیستم چند دستهبند (MCS) برای پیشبینی رویگردانی مشتری
- استفاده از الگوریتم ژنتیک چند بعدی برای بهینهسازی ساختار MCS
- استفاده از نرمافزار SPSS Clementine برای پیشپردازش دادهها
- استفاده از نرمافزار MATLAB برای پیادهسازی مدلهای پیشنهادی
- استفاده از تکنیک خوشهبندی SOM برای شناسایی مشتریان با ارزش
ساختار کلی مدل
شکل ۳-۱ شمای کلی از ساختار مدل پیشنهادی را نشان میدهد. چنانچه در شکل نیز مشخص است، مدل پیشنهادی این تحقیق از یک ساختار دو مرحلهای تشکیل شده است.
شکل ۳‑۱: ساختار کلی مدل پیشنهادی
در فاز اول، مشتریانی که به احتمال زیاد رویگردان خواهند بود شناسایی میشوند. در این فاز با بهره گرفتن از دادههای مشتریان پیشین، به ایجاد یک مدل دادهکاوی میپردازیم. دادههای پیشین که جمعیتی از مشتریان را در یک بازه زمانی توصیف میکند، با برچسبی[۱۷۰] که نشان میدهد آیا مشتری در زمانهای بعدی فعال بوده یا نه ترکیب میشوند. وظیفه مدلسازی، ایجاد تمایز بین مشتریانی است که ماندهاند و آنهایی که رفتهاند. در این فاز سعی شده است که از ابزاری مانند شبکههای عصبی، سیستم چند دستهبند[۱۷۱] (MCS) و الگوریتم ژنتیک برای ارائه یک مدل دستهبندی استفاده شود.
فاز دوم شامل شناسایی مشتریان با ارزش از میان مشتریانی است که در فاز اول به عنوان رویگردان شناسایی شدهاند. در این مرحله، مدلسازی فقط بر روی دادههای مشتریان رویگردان انجام خواهد گرفت؛ بدین گونه که با بهره گرفتن از تکنیک SOM، با توجه به معیارهای ارزشگذاری، این مشتریان را خوشهبندی میکنیم و خوشهای را که شامل مشتریان با ارزش است مورد توجه قرار میدهیم.
فاز اول: پیشبینی رویگردانی مشتری
دادهکاوی برای پیشبینی رویگردانی مشتری با بهره گرفتن از دادههای پیشین مشتریان ابزار متنوعی را در اختیار قرار داده است. با توجه به این که در این فاز با یک مسئله دادهکاوی هدایت شده سر و کار داریم، مسئله پیشبینی رویگردانی مشتری قابل تبدیل به یک مسئله دستهبندی است؛ بدین گونه که با داشتن دادههای مشتریان به همراه برچسب رویگردان و غیر رویگردان، با ارائه یک مدل دستهبندی به دنبال ایجاد تمایزی بین مشتریان این دو کلاس هستیم.
چنانچه ذکر شد، ابزار متنوعی برای حل یک مسئله دستهبندی در دادهکاوی وجود دارد. این تنوع ابزار محققین را بر آن داشته است که به طراحی سیستمهای ترکیبی و هیبرید روی آورند. از جمله سیستمهای ترکیبی میتوان به سیستم چند دستهبند اشاره کرد و همچنین از جمله ابزاری که در سیستمهای هیبرید به فراوان استفاده شده است الگوریتم ژنتیک است. در ادامه، مدل هیبرید طراحی شده برای این فاز توضیح داده میشود.
مدل پیشنهادی
از آنجایی که تمامی دادههای ورودی باید به تمامی دستهبندها معرفی شوند تا نتایج هر یک از دستهبندها مشخص شود، از ساختار موازی MCS برای پیشبینی رویگردانی مشتری در فاز اول استفاده شده است. در طراحی این سیستم در بخش گروه دستهبندها، سعی کردهایم از ابزار و تکنیکهایی استفاده کنیم که کاربرد گستردهای در پیشبینی رویگردانی مشتری داشتهاند. پس از مرور ادبیات، تکنیکهای درخت تصمیم (DT)، ماشین بردار پشتیبان (SVM)، k – نزدیکترین همسایه (KNN)، تحلیل تفکیککننده[۱۷۲] (DA) و بیز سادهلوحانه (NB) انتخاب شدند. همچنین در انتخاب این دستهبندها از تنوعی استفاده کردیم که هر دستهبند نقطه قوت خاصی داشته باشد:
- تکنیک SVM: بیشترین حاشیه اطمینان بین دسته ها را فراهم میآورد و در مقابله با مشاهدات جدید انعطافپذیرتر است (Auria and Moro 2008).
- درخت تصمیم: به دلیل ساختار غیر پارامتریک خود موجب دستهبندی سریع نمونههای آموزشی میگردد. همچنین قادر به شناسایی ویژگیهای مهم دادهها است (Mitra and Acharya 2003).
- تکنیک KNN: برای دستهبندی نمونههای آموزشی از حافظه استفاده میکند و در کار با دادههای با حجم متوسط دارای سرعت بهتری نسبت به تکنیکهای دیگر است(Bishop 1995).
- تکنیک DA: قادر است تعیین کند که کدام متغیر پیشگو به متغیر هدف مرتبط است (Hu 2011).
- تکنیک NB: بر اساس قوانین احتمال بیز کار میکند و در صورت وجود شرط استقلال متغیرها از یکدیگر، در مجموعه دادههای بزرگ دارای سرعت و دقت بالایی است (Bishop 2006).
ساختار کلی MSC پیشنهادی در شکل ۳-۲ نشان داده شده است.
شکل ۳‑۲: ساختار کلی سیستم چند دستهبند
از آنجایی که در فاز اول با یک مسئله دستهبندی دو کلاسه سروکار داریم و همچنین قدرت دستهبندهای استفاده شده متفاوت است، در طراحی بخش تابع ترکیب، از رویکرد رای اکثریت[۱۷۳] به گونهای استفاده کردیم که تکنیک دستهبند با دقت بیشتر، حق بیشتری در رایگیری داشته باشد. به عبارت دیگر، از رایگیری موزون به جای رای اکثریت استفاده شده است. بنابراین، فرمول زیر نشان دهنده تابع ترکیب رایگیری موزون است (Ruta and Gabrys 2000).
که در آن N تعداد دستهبندها، lb خروجی هر دستهبند و w وزنی است که به هر دستهبند اختصاص داده شده است. پس از طراحی ساختار کلی سیستم، برای رسیدن به ساختار بهینه در این سیستم از الگوریتم ژنتیک استفاده کردیم.
بکارگیری الگوریتم ژنتیک در سیستم چند دستهبند پیشنهادی
در بکارگیری الگوریتم ژنتیک تلاش کردهایم به طور همزمان سه بخش از ساختار مدل پیشنهادی را بهینه کنیم. این سه بخش عبارتند از:
- انتخاب ویژگی[۱۷۴] در بخش پایگاه داده
- انتخاب دستهبند در بخش گروه دستهبندها
- انتخاب وزنهای بهینه در تابع ترکیب رایگیری موزون
در شکل ۳-۳ بخشهایی از ساختار مدل پیشنهادی که توسط الگوریتم ژنتیک بهینه میشوند مشخص شده است.
شکل ۳‑۳: ساختار مدل پیشنهادی برای فاز اول
ساختار پاسخ:
برای پیادهسازی این مسئله از نرمافزار MATLAB استفاده کردیم. در این مسئله نیاز است که از الگوریتم ژنتیک چند بعدی[۱۷۵] استفاده کنیم. در الگوریتم ژنتیک چند بعدی، کروموزومها به جای آرایههای یک بعدی به صورت ساختارهای چند بعدی به گونهای طراحی میشوند که در هر بعد بخشی از مسئله بهینهسازی میشود. با توجه به این که در مسئله ما سه بخش از ساختار به صورت همزمان بهینه میشوند، نیاز است کروموزومها به صورت مکعبهای سه بعدی پیادهسازی شوند.
میتوان برای راحتی پیادهسازی و همچنین درک بهتر مسئله از یک آرایه سه بخشی به عنوان جایگزینی برای مکعب استفاده کرد. شکل ۳-۴ ساختار این کروموزوم را نشان میدهد. در این ساختار، بخش اول که شامل ژنهای باینری است بیانکننده ویژگیهای انتخاب شده از دادههای مسئله است. طول این بخش از کروموزوم به اندازه تعداد تمام ویژگیهای موجود در پایگاه داده است و مقدار یک برای هر ژن به معنی انتخاب آن ویژگی و مقدار صفر به معنی عدم انتخاب آن ویژگی برای مسئله دستهبندی است. بخش دوم کروموزوم نیز از ژنهای باینری تشکیل شده است و دستهبندهای انتخاب شده را تعیین میکند. طول این بخش از کروموزوم نیز به اندازه تعداد دستهبندهای استفاده شده در مسئله است و مانند آنچه در بخش اول داشتیم، مقدار یک برای هر ژن نشان دهنده انتخاب آن دستهبند و مقدار صفر به معنی عدم انتخاب دستهبند مربوطه برای حل مسئله است. بخش سوم، وزن دستهبندها را برای استفاده در تابع ترکیب رایگیری موزون نشان میدهد. طول این بخش از کروموزوم به اندازه طول بخش دوم یعنی به اندازه تعداد دستهبندهای استفاده شده در مسئله است.
شکل ۳‑۴: ساختار کروموزوم سه بعدی
عملگرهای الگوریتم ژنتیک:
- تقاطع: برای پیادهسازی عملگر تقاطع از ماسک تقاطع[۱۷۶] به گونهای استفاده کردیم که بخشهای باینری بصورت تک نقطهای تقاطع شوند و در بخش وزنها عملگر تقاطع حسابی[۱۷۷] اعمال شود.
- جهش: در پیادهسازی عملگر جهش تفاوت بین جهش باینری و حسابی در نظر گرفته شده است.
- انتخاب: در انتخاب والدین از تکنیک چرخ رولت به گونهای استفاده کردیم که احتمال انتخاب هر عضو برابر باشد. به عبارت دیگر از روش انتخاب تصادفی استفاده شده است.
تابع برازندگی:
تابع برازندگی این الگوریتم ژنتیک را برابر با دقت سیستم چند دستهبند قرار دادهایم. برای محاسبه دقت دستهبندی، روش ماتریس آشفتگی[۱۷۸] را بکار گرفتهایم؛ این روش با بهره گرفتن از ماتریس آشفتگی که در جدول ۳-۱ نشان داده شده است دقت پیشبینی را محاسبه میکند.
جدول ۳‑۱ :ماتریس آشفتگی
کلاس پیشبینی شده | |||
غیر رویگردان | رویگردان | کلاس واقعی | |
FP | TP | رویگردان | |
TN | FN | غیر رویگردان |
با توجه به ماتریس آشفتگی سه معیار زیر برای دقت دستهبند قابل محاسبه است:
در این پروژه ما دقت Total Accuracy را به عنوان مقدار تابع برازندگی در نظر گرفتهایم.
معیار توقف: الگوریتم به تعداد مشخص ۵۰ مرتبه تکرار میشود.
دیگر پارامترهای الگوریتم ژنتیک بر مبنی روش آزمون و خطا تنظیم شدند که به قرار زیر است:
- اندازه جمعیت: ۵۰ عضو
- تعداد تکرار: ۵۰ مرتبه
- احتمال تقاطع: ۸۰ درصد
- احتمال جهش: ۲۰ درصد
- انتخاب والدین: تصادفی
- انتخاب جمعیت اولیه: تصادفی
الگوریتم ژنتیک فوق برای بهینهسازی ساختار مدل پیشنهادی فاز اول برای پیشبینی رویگردانی مشتری در صنعت مخابرات، بر روی دو مجموعه داده متفاوت اعمال شد. در ادامه توضیحی از دادههای استفاده شده در مسئله آورده شده است.
دادهها
در این تحقیق برای پیشبینی رویگردانی مشتریان در صنعت مخابرات از دو مجموعه داده متفاوت استفاده کردهایم. مجموعه اول، دادههای مربوط به شرکت تالیا یکی از اپراتورهای تلفن همراه داخل کشور است؛ در حالی که مجموعه دیگر دادههای مسابقات مدلسازی رویگردانی است که در سال ۲۰۰۳ در دانشگاه دوک در دورهام برگذار شده است. اگرچه هر دو پایگاه داده مربوط به مشتریان تلفن همراه در صنعت مخابرات هستند ولی تفاوتهایی دارند که پس از معرفی هر دو مجموعه داده نمایان میشوند.
دادههای اپراتور تالیا
این مجموعه داده شامل اطلاعات مربوط به ۳۱۵۰ مشتری است که در یک دوره زمانی ۱۲ ماهه از آغاز شهریور ۱۳۸۶ تا پایان مرداد ۱۳۸۷ به تفکیک ماه جمع آوری شده است. این مشتریان از میان گروهی انتخاب شدهاند که حداقل در ۲ ماه اول دوره مورد بررسی اقدام به رویگردانی نکرده باشند؛ بدین ترتیب این مجموعه داده فاقد مقادیر گمشده خواهد بود. پایگاه داده بدست آمده دارای ۱۱ ویژگی با شرح زیر است:
- Call Failure: تعداد تماسهای بینتیجه.
- Complains: شکایات داشتن مشترک از اپراتور.
- Subscription Length: طول دوره ارتباط با اپراتور.
- Charge Amount: میزان اعتبار شارژ شده توسط مشترک.
- Seconds of Use: طول زمان مکالمات انجام شده.
- Frequency of Use: تعداد تماسهای گرفته شده توسط مشترک.
- Frequency of SMS: تعداد پیامکهای ارسالی.
- Distinct Called Numbers: تعداد شمارههای متفاوتی که مشترک با آنها تماس گرفته است.
- Age Group: گروه سنی (۱= کمتر از ۱۵ سال، ۲= بین ۱۵ و ۳۰ سال، ۳= بین ۳۰ و ۴۵ سال، ۴= بین ۴۵ و ۶۰ سال، ۵= بالاتر از ۶۰ سال).
- Tariff Plan: نوع طرح خدماتی مورد استفاده (۱= دارای اینترنت، ۰= فاقد اینترنت)
- Status: وضعیت مشترک (۱= فعال، ۲= غیر فعال).
این مجموعه داده همچنین دارای برچسب رویگردانی برای تمامی متشریان مورد بررسی است. منظور از مشتری رویگردان کسی است که در طول دوره مورد بررسی به فروش و واگذاری سیمکارت خود به شخص دیگر مبادرت ورزیده است.
دادههای مسابقات مدلسازی رویگردانی دانشگاه دوک
دانشگاه دوک در سال ۲۰۰۳ مسابقهای را در بخش CRM خود تحت عنوان مسابقات مدلسازی رویگردانی[۱۷۹] تدارک میبیند. دادههای این مسابقه به صنعت بیسیم شرکت مخابرات مربوط میشود و شامل حجم بالایی از اطلاعات جامعی در مورد تعداد زیادی از مشتریان است. این اطلاعات جامع شامل ۱۷۱ ویژگی برای هر مشترک است. در این مجموعه داده نیز مشتریان از میان کسانی انتخاب شدهاند که حداقل ۶ ماه در شرکت بودهاند. مشتریان در طول ماههای جولای، سپتامبر و نوامبر سال ۲۰۰۱ و ژانویه سال ۲۰۰۲ نمونهبرداری شدهاند. برای هر مشتری، ویژگیها و یا به عبارت دیگر متغیرهای پیشگو بر مبنای ۴ ماه گذشته محاسبه شدهاند. در این مجموعه داده، مشتری رویگردان به کسی گفته میشود که در دوره ۳۱ تا ۶۰ روز پس از انتخاب شرکت را ترک کرده باشد.
به دلیل تعداد بسیار زیاد ویژگیها و نمونهها و همچنین وجود مقادیر گم شده در میان دادهها لازم است قبل از استفاده از دادهها، اقدامات پیشپردازش بر روی دادهها انجام شود.
پیشپردازش
اقداماتی که در مرحله پیشپردازش برای آمادهسازی دادهها لازم است انجام شود به قرار زیر است:
- انتخاب نمونه[۱۸۰]: به دلیل تعداد بیش از اندازه نمونهها در این پایگاه داده و برای جلوگیری از بیشبرازش[۱۸۱]، عمل انتخاب نمونه را به گونهای انجام میدهیم که تقریبا توزیع یکسانی از نمونههای هر دو کلاس در نمونه انتخاب شده وجود داشته باشد. بنابراین، از میان دادههای اصلی با در نظر گرفتن معیار ذکر شده تعداد ۱۵۰۰ نمونه به تصادف انتخاب کردیم.
- انتخاب ویژگی[۱۸۲]: اگرچه فرایند انتخاب ویژگی در ساختار مدل پیشنهادی این تحقیق قرار دارد ولی از آن جایی که از میان ۱۷۱ ویژگی موجود در این پایگاه داده تعدادی از آنها بالای ۷۰% دارای مقادیر گم شدهاند و همچنین تعدادی نیز دارای مقادیری یکنواخت و یا با پراکندگی بسیار بالا هستند، لازم است با انتخاب ویژگی اولیه در مرحله پیشپردازش این ویژگیها شناسایی و حذف شوند. برای انجام این کار از نرمافزار دادهکاوی SPSS Clementine استفاده کردیم؛ نحوه پیادهسازی پیشپردازش در این نرمافزار و نتیجه بدست آمده در شکل ۳-۵ قابل مشاهده است. چنانچه در شکل نیز مشخص است، خروجی فرایند انتخاب ویژگی لیست مرتب شدهای از ویژگیهاست که به ترتیب اهمیت قرار گرفتهاند. همچنین ویژگیهای دارای مقادیر گمشده زیاد به همراه آن ویژگیهای دستهای که تقریبا در یک دسته توزیع شدهاند و یا دارای پراکندگی بالایی هستند در بخش مجزایی نشان داده شدهاند.
شکل ۳‑۵: فرایند انتخاب ویژگی در Clementine
- برخورد با دادههای گم شده[۱۸۳]: پس از حذف ویژگیهایی که مقادیر بسیار زیادی داده گم شده دارند، هنوز مجموعه داده شامل دادههای گم شده است. برای برخورد با این دادههای گم شده با بهره گرفتن از نرمافزار MATLAB سه رویکرد زیر مورد استفاده قرار گرفته است:
حذف نمونه: پس از بررسی دادهها، ۳ نمونه شناسایی شد که در بسیاری از ویژگیهای خود دارای مقدار گم شده بودند. این نمونهها پس از شناسایی از مجموعه داده حذف شدند.
جایگذاری با مقدار مد: ویژگی hnd_price در ۱۶ نمونه دارای مقدار گم شده است که در تمامی آنها مقدار مد این ویژگی یعنی ۲۹٫۹۹۰۰ جایگزین شده است.
جایگذاری با مقدار نمونه مشابه: ویژگی change_mou نیز در ۸ نمونه دارای مقدار گم شده است. برای جایگذاری این مقادیر برای هر نمونه، ابتدا مشابهترین نمونه با آن را شناسایی کردیم سپس مقدار ویژگی change_mou نمونه شناسایی شده را جایگزین مقدار گم شده کردیم.
فاز دوم مدل: شناسایی مشتریان با ارزش
پس از پیشبینی و شناسایی مشتریانی که در خطر رویگردانی قرار دارند، شرکت باید تمرکز خود را بر مشتریانی قرار دهد که دارای ارزش بیشتری هستند؛ تا بدین طریق منابع سازمان را به صورت بهینه برای جلوگیری از رویگردانی مشتریان با ارزش اختصاص دهد. در این تحقیق ما برای شناسایی مشتریان با ارزش از میان مشتریان مستعد رویگردانی، به خوشهبندی مشتریان شناسایی شده در فاز اول پرداختیم. برای خوشهبندی از تکنیک شبکه عصبی SOM استفاده کردهایم. همچنین برای تعیین متغیرها برای خوشهبندی، هم از متغیرهای سنتی CRM استفاده کردیم و هم از متغیر استخراج شده از شبکه اجتماعی مشتری؛ تمامی متغیرهای استخراج شده به نوعی متاثر بر ارزش مشتری هستند.
متغیرهای سنتی CRM
ارزش عمر مشتری[۱۸۴] به عنوان معیاری برای تعیین مشتریان باارزش است. مدلهای مختلفی برای محاسبه ارزش عمر مشتری ارائه شده است. در این تحقیق برای استخراج متغیرهای سنتی CRM برای خوشهبندی، از مدل LRFM که توسط چنگ و تیسای ارائه شد (Chang and Tsay 2004)، استفاده میکنیم.
مدل RFM یک مدل رفتار محور برای تحلیل رفتار یک مشتری و سپس پیشبینی کردن بر اساس رفتار مشتریان پایگاه داده است. در این مدل سه مشخصه تاخیر[۱۸۵]، فراوانی[۱۸۶] و مقدار پولی[۱۸۷] به عنوان مبنای ارزشگذاری مشتریان در نظر گرفته میشوند. تاخیر، طول مدت زمان از آخرین خرید را نشان میدهد؛ فراوانی، تعداد خریدها را در یک دوره زمانی مشخص بیان میکند و مقدار پولی، یعنی میزان پول مصرف شده در این دوره زمانی مشخص (Lin, Wei et al. 2011).
چنگ و تیسای مدت[۱۸۸] را به مدل RFM اضافه کردند و آن را به مدل LRFM تبدیل کردند. مدت، دوره زمانی بین اولین بازدید و آخرین بازدید یک مشتری خاص را اندازه میگیرد. مدت به این دلیل به مدل اضافه شد که مدل RFM نمیتواند مشتریانی که ارتباط کوتاه مدت و یا بلد مدت با شرکت داشتهاند را بخشبندی کند. با معرفی مدت به مدل، ارتباط بین مشتریان و شرکت از نقطه نظر عددی مشخص میشود.
در میان دو پایگاه داده مورد استفاده در این تحقیق، دادههای اپراتور تالیا فاقد اطلاعات مربوط به خصیصههای LRFM است. در دادههای مسابقات مدلسازی رویگردانی دانشگاه دوک متغیرهای زیر به عنوان متغیرهای سنتی CRM استخراج شدهاند:
- Months: مدت زمان حضور مشتری در شرکت.
- Complete-mean: میانگین تعداد تماسهای کامل صوتی و دادهای.
- Mou-mean: میانگین ماهانه تعداد دقایق استفاده.
- Recv-vce-mean: میانگین تعداد تماسهای صوتی وارده به مشتری.
- Rev-Mean: میانگین درآمد ماهانه.
متغیر استخراج شده از شبکه اجتماعی مشتری
برای شناسایی مشتریان با ارزش از دیدگاه رویگردانی فقط در نظر گرفتن متغیرهای سنتی CRM کافی نیست بلکه باید تاثیر وی بر نظر افراد دیگر را نیز مورد توجه قرار بدهیم. ممکن است یک فرد که دارای احتمال رویگردانی بالایی است از نظر مدل LRFM دارای ارزش زیادی نباشد ولی همین فرد دارای ارتباطات موثری در اجتماع باشد و رویگردانی وی تبلیغات منفی کستردهای را برای شرکت در پی داشته باشد. انتشار دهان به دهان خبر و یا تبلیغات در اجتماعی از افراد را با اصطلاح WOM[189] بیان میکنند. لازم است برای بررسی ارزش مشتریان رویگردان علاوه بر متغیرهای سنتی CRM به دنبال استخراج متغیرهای موثر بر WOM نیز باشیم.
واضح است که یک شبکه اجتماعی میتواند از روابط موجود بین اعضای یک خانواده تشکیل گردد و WOM هم از طریق این شبکه تشکیل شده ایجاد گردد. تاثیر WOM منتشر شده درشبکه اجتماعی ناشی از روابط خانوادگی میتواند به صورت بالقوه بسیار زیاد باشد. زیرا اعضای یک خانواده اعتماد زیادی نسبت به یکدیگر دارند و در تصمیمگیریها از یکدیگر کمک میگیرند. ممکن است در یک خانواده چندین نفر از سرویسهای یک شرکت استفاده کنند. در این صورت با نارضایتی و رویگردانی یک نفر از اعضا خانواده ممکن است اعضای دیگر خانواده هم تحت تاثیر قرار گیرند.
در پایگاه داده مربوط به مسابقات مدلسازی رویگردانی دانشگاه دوک متغیری به نام ACTVSUBS وجود دارد که نشان دهنده تعداد مشترکین فعال در خانواده است. به عبارت دیگر، این متغیر بیان میکند که چند مشترک فعال در خانواده یک مشترک وجود دارد. برای مثال اگر این عدد ۲ باشد، آنگاه در این خانواده علاوه بر این مشترک، ۲ مشترک فعال دیگر وجود دارد. این فیلد از دید تحلیل شبکههای اجتماعی برابر با درجه هر گره در شبکه است. یک فرد که دارای مقدار بیشتری برای این متغیر است ارتباطات WOM بیشتری دارد و از دید رویگردانی فردی با ارزش است، چراکه میتواند تعداد افراد بیشتری را تحت تاثیر قرار دهد.
در پایان برای ارزیابی خوشهبندی از معیار دیویس – بولدین[۱۹۰] استفاده کردیم. این شاخص معیاری برای ارزیابی خوشهبندی است که فشردگی و تفکیکپذیری را مورد توجه قرار میدهد و به صورت زیر محاسبه میشود:
که در آن k برابر با تعداد خوشهها است. برابر با فاصله درون خوشهای مربوط به خوشهi است. برابر با فاصله بین خوشه i و j است . خوشهبندی که کمترین مقدار index را داشته باشد مناسبتر است.
نتیجهگیری
ما در این فصل به شرح نحوه پیادهسازی مدل ارائه شده برای پیشبینی رویگردانی مشتریان با ارزش در صنعت مخابرات و انتخاب استراتژی مناسب بازاریابی جهت جلوگیری از رویگردانی این مشتریان کلیدی، پرداختیم. مدل پیشنهادی ما از سه فاز تشکیل شده است که در فاز اول، با طراحی یک سیستم چند دستهبند دقیق که ساختار آن توسط الگوریتم ژنتیک چند بعدی بهینه شده است، به پیشبینی رویگردانی مشتریان پرداختیم. الگوریتم ژنتیک در این فاز سعی در بهینهسازی همزمان در انتخاب ویژگی، انتخاب دستهبند و اوزان تابع ترکیب نتایج دارد.