اعتبار مشتریان
بدحساب
خوش حساب
تعداد
تعداد
پیش بینی مدل
ماشین بردار پشتیبان
بدحساب
۲۰
۱۷
خوش حساب
۲۱
۹۱
منبع : یافته های پژوهشگر
همانطور که در جدول فوق مشخص است از مجموع ۱۰۸ مشتری خوش حساب، تعداد ۹۱ مشتری به عنوان خوش حساب و ۱۷ مشتری (به اشتباه) به عنوان بدحساب تشخیص داده شده اند به طوری که دقت الگو در این خصوص ۸۴.۲۵ درصد محاسبه شده است. به همین ترتیب از ۴۱ مشتری بدحساب، ۲۰ مشتری به عنوان بدحساب و ۲۱ مشتری (به اشتباه) خوش حساب تشخیص داده شده اند و دقت الگو در این حالت حدود ۴۸.۷۸ درصد می باشد. بنابراین میانگین دقت پیش بینی در این مدل ۷۴.۵۰ درصد است. ضعف این مدل در پیش بینی مشتریان بدحساب می باشد که میزان دقت پیش بینی در این حالت ۴۸.۷۸ درصد می باشد که در مقایسه با سایر مدل ها از قدرت پایین تری برخوردار می باشد.
۴-۳-۱-۲ : آزمون فرضیه فرعی دوم
فرضیه فرعی ۲ : مدل منتج از تکنیک درخت تصمیم (C5.0) جهت اعتبارسنجی مبتنی بر صورت های مالی از کارآیی مناسبی برخودار است.
درختان تصمیم گیری دارای الگوریتم های مختلفی هستند از جمله : C5.0 و CHAID و C&R و QUEST و C4.0 و C4.5.در این مقاله از بهترین الگوریتم و آخرین نوع آن یعنی الگوریتم (C5.0) که نتایج بهتری همراه با بالاترین دقت تصمیم گیری و صحت را دارد استفاده خواهیم کرد.
الگوریتم درخت تصمیم گیری با انتخاب آزمونی شروع می شود که بهترین جداسازی را برای دسته ها انجام دهد. مهمترین هدف از انجام دسته بندی، به دست آوردن مدلی برای پیش بینی میباشد. بدین منظور از مجموعه ای از داده ها به نام ” داده های آموزشی ” که مجموعه ای از متغیرها و رکوردها است استفاده می کنیم. در مراحل بعدی، همین کار برای گره های پایین تر با داده های کمتر صورت می گیرد تا بهترین قانون ها حاصل شود. سرانجام درخت آن قدر بزرگ می شود تا دیگر نتوان جداسازی بهتری برای داده های گره انجام داد (آذر،احمدی،وحید بسط،۱۳۸۹،۲۱). در این مرحله باید اثربخشی درخت ایجاد شده اندازه گیری شود. برای این کار از یک مجموعه رکوردها یا داده های آزمایشی استفاده می شود که متفاوت با داده های اولیه که درخت را ایجاد کرده اند میباشد. معیاری که اندازه گیری می شود هم عبارت است از درصد داده هایی که به طور صحیح دسته بندی می شوند و دسته پیش بینی شده با دسته واقعی آنها یکسان است.
در انتخاب ویژگی ها، روش جستجو، تصادفی و بر مبنای الگوریتم ژنتیک است. الگوریتم های انتخاب ویژگی مبتنی بر رویکرد فیلتر به ارزیابی موارد زیر در مجموعه ی ویژگی ها می پردازند. الگوریتم انتخاب ویژگی با تابع ارزیاب Wrapper با طبقه کننده C5.0 ، مبتنی بر رویکرد Wrapper است.
در روش انتخاب ویژگی ها مقادیر پارامترها به صورت زیر است. عدد اعتبارسنجی متقاطع برابر با ۱۰، نرخ تقاطع ۰.۹ ، نرخ جهش ۰.۰۱ ، تعداد نسل و جمعیت اولیه ۲۰ و عدد تصادفی seed برابر ۱ در نظر گرفته شد.
شروع
تقسیم داده های اعتبارسنجی به دو مجموعه ی داده آموزش و تست
اعمال تکنیک خوشه بندی بر روی مجموعه ی داده های آموزش و تست
انتخاب ویژگی ها مبتنی بر الگوریتم ژنتیک در هر خوشه توسط روش های مختلف انتخاب ویژگی ها
ساخت درختان تصمیم گیری در هریک از روش های انتخاب ویژگی مرحله قبل
انتخاب بهترین درختان تصمیم گیری به کمک معیارهای بهینگی درختان تصمیم گیری در هر خوشه
درخت تصمیم گیری نهایی برای اعتبارسنجی مشتریان بانک
پایان
فلوچارت ۴-۱ : مراحل کلی کار در ساخت مدل طبقه بندی پیشنهادی
نتایج آزمون و یافته های فرضیه فرعی دوم
نتیجه حاصل از صحت طبقه بندی این الگوریتم و اعتبار مدل در شکل زیر ارائه شده است :
شکل ۴-۴ :میزان صحت و قدرت پیش بینی مدل درخت تصمیم
منبع : یافته های پژوهشگر
میزان صحت مدل درخت تصمیم (C5.0) در مجموعه داده های آموزش ۹۴.۳۷ % می باشد. درصدهای مربوط به تست مربوط به صحت طبقه بندی و معیاری برای ارزیابی اعتبار و صحت مدل می باشد که در این تکنیک ۹۱.۹۵ % می باشد.. همچنین تعداد داده های آموزش مدل ۴۴۴ تراکنش و تعداد داده های تست در این مدل ۱۴۹ تراکنش برآورد شد.
پیش بینی های مورد انتظار برای ۱۴۹ مشتری در مجموعه داده های تست برای مدل درخت تصمیم در جدول صفحه بعد مشاهده می شود.
جدول ۴-۷ : عملکرد پیش بینی مدل درخت تصمیم در مرحله تست