۱-۴-هدفها و کاربردهای مورد انتظار از انجام تحقیق
هدف اصلی این تحقیق، بررسی کاربرد روشهای شبکهعصبی و درختتصمیمC5 درجهت شناخت بهتر وضعیت تحصیلی دانشجویان و پیشبینی پیشرفت تحصیلی آنها میباشد. عمده ترین هدفها در موارد زیر به آن اشاره شده است:
-
- بهکارگیری روشهای مختلف دادهکاوی جهت پیشبینی
-
- مقایسه روشهای مورد استفاده و انتخاب بهترین روش برای دادههای مورد بحث
-
- طراحی و پیادهسازی داشبورد مربوطه
۱-۵-جنبه جدید بودن و نوآوری طرح
این تحقیق از حیث هدف جزء تحقیقهای کاربردی است، زیرا فنون و نظریههای تدوین شده در تحقیقهای بنیادی پیشین در مورد دادهکاویآموزشی را به منظور حل مسائل اجرایی و واقعی به کار می برد. این تحقیق روشهای مختلف پیشبینی را بررسی و مقایسه میکند که استفاده از خوشهبندی قبل از بهکارگیری این روشها نوآوری تکنیک خواهد بود. همچنین طراحی داشبوردی برای پیشبینی پیشرفت تحصیلی دانشجویان میتواند به عنوان ابزاری برای نمایش و گزارش گیری استفاده شود.
۱-۶-قلمرو مکانی و زمانی تحقیق
این تحقیق در دانشگاههای سراسری و آزاد اسلامی استان قم انجام شده است. قلمرو زمانی تحقیق سال ۱۳۷۱ تا ۱۳۹۱ میباشد که در مجموع اطلاعات ۱۰۶۶۸ دانشجوی کارشناسی از دانشگاههای مذکور جمع آوری شد. جزییات بیشتر در فصل چهارم شرح داده خواهد شد.
۱-۷-روش تجزیه و تحلیل دادهها
برای اجرای این تحقیق نیازمند استفاده از تمامی دادههای مربوط به دانشجویان از جمله ویژگیهای فردی و آموزشی آنها میباشد اما فقط بخشی از این دادهها در اختیار این تحقیق قرار گرفت. پس از پالایش و آمادهسازی دادهها، برای آنکه بتوان پیشرفت تحصیلی دانشجویان را بهصورت دقیقتری پیشبینی کرد نیازمند آن هستیم که دانشجویان را در گروههای مجزا از هم قرار دهیم ما برای این کار از الگوریتم خوشهبندی k-means استفاده میکنیم و بعد از انجام خوشهبندی برای پیش بینی از روشهای شبکهعصبی و درختتصمیمC5 که از روشهای دقیق برای پیش بینی میباشند استفاده میکنیم و در انتها با بهره گرفتن از نتایج بدست آمده از پیشبینیها و نظر خبرگان، شاخصها را تدوین کرده تا بتوان براساس شاخصها داشبورد ارزیابی و پیشرفت تحصیلی دانشجویان را طراحی و پیادهسازی کنیم.
۱-۸-ساختار تحقیق
در این پایاننامه در فصل اول پس از تشخیص، توصیف مسائل و کلیات تحقیق در دومین فصل که حاوی مرور ادبیات موضوع میباشد به پیشزمینههای مطالعاتی مرتبط با موضوع تحقیق و مرور دادهکاوی و داشبورد ارائه شده در مقالات، کاربرد و ویژگیهای بررسی شده در آنها پرداخته میشود. در فصل سوم روش تحقیق شرح داده میشود و در فصل چهارم چگونگی آمادهسازی و پیشپردازش دادهها به منظور ارتقا کیفیت داده برای مدلسازی شرح داده میشود و با مدلسازی، گامهایی در خصوص پیشبینی برداشته میشود و در انتهای این فصل با تعیین شاخص مناسب، طراحی و پیادهسازی داشبورد انجام میگیرد. درنهایت در فصل پنجم به بررسی
تفسیر مراحل تحقیق پرداخته و نتایج حاصل را بیان می کنیم. در شکل ۱-۱ مراحل تحقیق نشان داده شده است.
شکل ۱-۱-ساختار تحقیق
۱-۹-تعاریف و اصطلاحات
در این قسمت به تعریف برخی از مهمترین اصطلاحات به کار گرفته شده درتحقیق،
پرداخته شده است:
دادهکاویآموزشی[۱]: یک حوزه علمی نوظهور است که به توسعه روشهایی برای کاوش و اکتشاف دانش در محیطهای آموزشی میپردازد(Baker&Yacef,2010).
شبکههایعصبیمصنوعی[۲]: به زبان سادهتر شبکههای عصبی، سیستمها و روشهای محاسباتی نوینی هستند برای یادگیری ماشینی، نمایش دانش، و در انتها اعمال دانش بهدست آمده در جهت بیشبینی پاسخهای خروجی از سامانههای پیچیده.
درختتصمیمC5: درختتصمیم یک ابزار برای پشتیبانی از تصمیم است، شیوه منحصر بفردی از ارائه یک سیستم است، که تصمیمگیریهای آتی را تسهیل و سیستم را به نحو مناسبی تعریف می کند. الگوریتم درختتصمیم C5 نسخهی بهبود یافته از C4.5 است .
خوشهبندی: خوشهبندی را میتوان به عنوان مهمترین مسئله در یادگیری بدون نظارت در نظر گرفت. خوشهبندی با یافتن یک ساختار درون یک مجموعه از دادههای بدون برچسب درگیر است. خوشه به مجموعهای از دادهها گفته میشود که به هم شباهت داشته باشند. در خوشهبندی سعی میشود تا دادهها به خوشههایی تقسیم شوند که شباهت بین دادههای درون هر خوشه حداکثر و شباهت بین دادههای درون خوشههای متفاوت حداقل شود.
داشبورد: کاربر میتواند آیتمهای گزارشی مانند گرید اطلاعاتی پویا، نمودار، گیج و گزارش چاپی را در یک صفحه کنار هم قرار دهد و بهصورت داشبوردهای اطلاعاتی مختلف نامگذاری و به کاربران خاص دسترسی نمایش دهد.
شاخص: شاخصها به منزله معیارهایی هستند که بهوسیله آنها میتوان کمیت، کیفیت و یا پیشرفت یک موضوع را اندازهگیری کرد. از آنجایی که بررسی و تجزیه و تحلیل موضوعات نیازمند اطلاعات مناسب است، شاخصها اولین پل
ارتباطی کارشناس با موضوع مورد نظر است. وجود معیارها و شاخصهای معین به منظور بررسی عملکرد گذشته و هدفگذاری برای آینده، از جمله مواردی است که ممکن است فرایند تخصیص بهینه منابع و بازنگری در برنامهها، اهداف و سازوکارهای حصول به آنها را تسهیل کند.
پیشبینی[۳]: پیش بینی عبارت است از تجسم یک موقعیت در آینده براساس اطلاعات گذشته در واقع در پیش بینی براساس معیارهای کمی از دادههای به وقوع پیوسته در زمآنهای گذشته برای تخمین آینده استفاده میشود. هر تصمیمی به یک پیشبینی استوار است. تصمیمات دولتی بر پیشبنیهای اقتصادکلان، سیاسی و غیره، تصمیمات مهندسی بر پیشبینی میزان تحمل فشار توسط دستگاه و غیره، تصمیمات سرمایهگذاری بر پیشبینی ریسکها و غیره.
۱-۱۰-نتیجهگیری
در فصل حاضر تلاش شد تا به منظور ترسیم فضای کلی دادهکاویآموزشی و ضرورت اجرای این تحقیق و سوالاتی که در تحقیق حاضر در پی پاسخ به آنها هستیم تبیین شود.
فصل دوم:
مرور ادبیات تحقیق
۲-۱- مقدمه
در اواسط نیمهی دوم قرن بیستم گروهی از پژوهشگران آمریکایی دست به اقدام جالبی زدند. آنها کلیه اطلاعلاتی را که انسآنها تا قرن دوم میلادی از خورشید، گردش زمین، ماه، شب و روز و … داشتند بهصورتی قابل پردازش درآوردند و به شکل مجموعهای از دادههای عددی و سیمبلیک جهت کاوش آماده نمودند. با بهره گرفتن از روشهای دادهکاوی پس از حدود یک ماه خروجی الگوریتم بهصورت مجموعهای از روابط آماده شد. این روابط پس از تفسیر مجموعه قوانین حیرتانگیزی به شکل ذیل بهدست آورد:
-
- شیءای که زمین نامیده شده گرد است.
-
- شیء زمین به دور شیءای که خورشید نامیده شده میگردد.
-
- شیءای که ماه نامیده شده به دور زمین میگردد.
این اقدام باعث شد که این پژوهشگران به نتیجه مهمی دست یابند: با بهره گرفتن از دادهکاوی میتوان به دانشی دست یافت که خود انسان قرنها بعد این دانش را کسب خواهد کرد.
در این فصل با مقدمات علم دادهکاوی آشنا شده و سپس به تعاریف و دستهبندی داشبورد خواهیم پرداخت و در ادامه تحقیقات انجام شده تاکنون در زمینه دادهکاوی آموزشی و داشبورد و چند نمونه از مراحل طراحی داشبورد را مورد بررسی قرار خواهیم داد.
۲-۲-انگیزههای کاوش داده
به شکل ۲-۱ توجه کنید. دراین شکل دو نمودار وجود دارد. نمودار اول (نمودار پایین شکل) نشاندهنده تعداد تحلیلگرها است، با توجه به نمودار مشخص است با گذشت زمان تعداد تحلیلگرها در مقایسه با رشد داده تقریبا ثابت است. نمودار دوم نشاندهندهی رشد داده در طی زمان میباشد، از روی نمودار میتوان مشاهده نمود که حجم داده با گذشت زمان در حال رشد انفجارگونه است. به تفاوت بین این دو نمودار (فضای خالی بین دو نمودار) شکاف دادهای[۴] بین دو نمودار گفته میشود. فاصلهای که بین این دو نمودار است نشان میدهد که به مرور زمان تعداد دادهها نسبت به تعداد افرادی که بتوانند این دادهها را تحلیل کنند مرتبا در حال افزایش است، پس نیاز به ابزار مکانیزهای برای تحلیل داده، روزبهروز در حال افزایش است. برای تبیین سرعت رشد دادهها، میتوان به نمونههای ذیل اشاره نمود:
-
- مرکز ستارهشناسی VLBI دارای ۱۶ تلسکوپ بزرگ است که هر یک با سرعت ۱ گیگابیت بر ثانیه داده ستارهشناسی را برمبنای مشاهدات یک ماه ۲۵ روز تولید میکنند.
-
- شرکت مخابراتی AT&T با میلیاردها تماس در روز سروکار دارد. چنین دادهی عظیمی را نمیتوان ذخیره نمود – تجزیه و تحلیل آن میبایست بهصورت برخط[۵] بر روی جریان داده باشد.
-
- تیم جمع آوری وب کتابخانهی ملی آمریکا در ماه می ۲۰۰۸ اعلام نموده که کتابخانه بیش از۸۲٫۶ ترابایت داده گردآوری نموده است.
- موسسهی Ancestry.com ادعا میکند که در حدود۶۰۰ ترابایت اطلاعات شجرهنامهای از دادههای سرشماری آمریکا طی سالهای ۱۷۹۰ الی ۱۹۳۰ جمع آوری نموده است.