۲۰/۳
۳۶
۱۰
۶۰/۳
۴۰/۳
۳۷
۸
۸۰/۳
۶۰/۳
۳۸
۶
۰۰/۴
۸۰/۳
۳۹
۱۴
۰۰/۴
۴۰
۴۹۸
تعداد سؤالات
نمودار ۴-۷: خزانهی سؤال ایدهآل r-optimal برای نمونه ای با توزیع نرمال استاندارد، b-bin=0.2 برای CAT مدرج شده بر اساس مدل راش
نمودار ۴-۸: خزانهی سؤال ایده آل پس از ۱۰ تکرار شبیهسازی در ۶۰۰۰ اجرای تست
خلاصهی بخش اول
در هر نوع برنامهی شبیهسازی، در مرحلهی اول ویژگیهای مربوط به آزمونی که قصد داریم برای آن خزانهی سؤال طراحی کنیم در نظر گرفته میشود و همهی آنها را در الگوریتمهای اجرای CAT وارد میشود. یعنی، به عبارت دیگر، ابتدا مدلی که سؤالات براساس آنها مدرج میشوند، شیوهی برآورد توانایی، الگوریتمهای انتخاب سؤالات مشخص میشود و سپس خزانهی بهینه شبیه سازی میشود. در واقع، درست است که در پژوهش حاضر به منظور شبیهسازی و تعیین مشخصات خزانههای سؤال ایدهآل موردنظر برای خزانههایی که با مدل راش مدرج میشوند، از روش ریکیسی استفاده شده است، امّا، این برنامه شبیهسازی کاربرد و گسترشی از ایدهی اصلی “bin-and-union” روش ریکیسی (۲۰۰۳)، میباشد، که روش او را با ایجاد سبک جدید در روش شبیهسازی، بازسازی کرده و در اصل آن را دقیقتر و سهل تر ساخته است. در شبیهسازی اولیه ریکیسی (۲۰۰۳)، این روش مرسوم بود که تابع بهینه CAT برای مدل راش، به شکلی در برنامهنویسی نوشته شود که برنامهنویس با توجه به توزیعی جمعیتی که خزانهی سؤال میخواهد برای آن ساخته شود، و با در نظر گرفتن بازه مجاز، یک مقدار توانایی واقعی ( ) را به شکل تصادفی انتخاب کند و با آن مقدار ( ) شبیهسازی را آغاز کند. در این پژوهش پس از بررسیهای انجام شده روی مدل پیشنهادی ریکیسی (۲۰۰۳)، به دستورنویسی این روش فرمانی اضافه شد، مبنی براینکه، خود برنامه از بین توزیع جمعیت مورد نظر در بازه معین یک مقدار را انتخاب کند و کاربر هیچ اختیاری در انتخاب این مقدار توانایی واقعی ( ) نداشته باشد. این فرمان، کار شبیهسازی را سهلتر و با سرعت بیشتری انجام میدهد، تنها تفاوتی که ایجاد میکند این است که این دستور در برنامه به شکلی تعبیه شده است که نفر اولی که به طور تصادفی (از توزیع نرمال با میانگین ۰ و انحراف معیار ۱، در بازه ۴- تا ۴ در فواصل ۱/.) انتخاب میشود، از مرکز توزیع باشد. ولی بقیه آزمودنیهایی که انتخاب میشوند در کل دامنهی توانایی پراکنده هستند. در فصل سوم، این ویژگی که در پژوهش حاضر به برنامهی ریکیسی اضافه شده است به صورت مفصل شرح داده شده است.
در این پژوهش، با کاربرد سادترین موقعیت در سنجش انطباقی، روشی برای برخورد با این مسئله، پیشنهاد شده است. این مسئله مهم، طراحی خزانهی سئوال برای سنجش انطباقی است تا بتواند کارکرد سنجش انطباقی را بهینه کند. در این بخش از پژوهش، برای یک آزمون تک محتوایی که با مدل راش مدرج میشود و پارامتر ضریب تشخیص همهی سؤالات برابر با ۱ و پارامتر حدس برابر با صفر قرار داده شده، یک خزانهی سؤال طراحی شد. در این موقعیت ساده برای برآورد توانایی آزمودنیها از روش بیشینهی درست نمایی استفاده شد و الگوریتم انتخاب سؤال بیشینهی آگاهی قرار داده شد. همچنین، به منظور اینکه الگوریتمهای CAT به صورت کاملاً سادهای در یک موقعیت کنترل شدهای طراحی شود، طول تست ثابت و برابر با ۲۰ سؤال قرار داده شد. نتایج نشان داد که، خزانهی بهینه برای ۶۰۰۰ آزمودنی که از توزیع نرمال انتخاب شدند، تقریباً به ۴۹۸ سؤال نیاز دارد. بر خلاف، توزیع نرمالی که برای آنها خزانه ساخته میشود، توزیع دشواری سؤالات نرمال نیست و به خصوص اینکه در کرانهها به تعداد بیشتری سؤال نیاز دارد. دلیل این امر ماهیت آزمون CAT است که این توزیع را ایجاد میکند، که در فصل پنجم این ویژگی به صورت مفصل شرح داده میشود. دلیل اینکه در کرانهها به تعداد سؤالات بیشتری نیاز است این است که، در وسط توزیع، سؤالات از bin های هم جوار قابلیت استفاده به جای یکدیگر دارند، ولی در bin های کناری این قابلیت وجود ندارد. بنابراین به تعداد سؤالات بیشتری نیاز است. این ویژگی باعث میشود که قبل از فرایند طراحی سؤالات، توزیع پارامترهای آن مشخص شود، که این کار زمان و هزینهی طراحی سؤال را به میزان زیادی کاهش میدهد. در پایان، نتایج نشان میدهد که، گسترش روش ریکیسی (۲۰۰۳)، بخوبی در طراحی خزانهی سؤال بهینه در موقعیتهای ویژه، کار میکند و در مقایسه با روش برنامهنویسی ریاضی، شیوهی CAT را بهطور سرراستتری شبیهسازی میکند و فرایند برآورد توانایی در آن انعطافپذیرتر میباشد. روش ریکیسی (۲۰۰۳)، روی تصادفیسازی پارامترهای سؤال در شبیهسازی CAT تاکید دارد، همچنین استفاده از این شیوه، طرحهای سودمندی را ایجاد میکند که مزیت CAT را از بین نمیبرد. در کل، این روششناسی بسیار کلی میباشد و میتواند در شکلهای دیگری از توزیعهای آزمودنی و شکلهای متفاوتی از مدلهای IRT نیز بهکار رود. به خصوص، این روش زمانیکه سؤالات با مدل دو و سه پارامتری مدرج میشوند، از پیچیدگی خاصی برخوردار میشود، زیرا میزان آگاهی سؤالات، حتی زمانیکه پارامترهای b برابری دارند، متفاوت است، زیرا، پارامترهای a و c متفاوتی دارند. در مدلهای دو و سه پارامتری، آگاهی سؤال به ترتیب با ترکیب دو و سه پارامتر تعیین میشود. همچنین این روش میتواند زمانی که کنترل مواجهه سؤال و سیستم امنیتی آزمون از اهمیت بهسزایی برخوردار است نیز بهکار رود. همچنین، تعادل محتوایی متنوع یکی از مهمترین مولفهها در سنجش انطباقی میباشد که میتوان آن را در الگوریتمهای انتخاب سؤال CATگنجاند.
طراحی خزانهی سؤال بهینه در مدلهای دو و سه پارامتری
در این پژوهش، ما از دو خزانهی عملیاتی که به صورت جداگانه در برنامهی CAT ذخیره شدند، استفاده کردیم. خزانهی سؤال عملیاتی اصلی اولیه، در سه محتوای اصلی و کلی (حسابان-دیفرانسیل، هندسه و جبر) طراحی شد، به طوریکه، سؤالات برای هر یک از آزمونهای CAT بر اساس وزن مشخصی که متخصصان موضوعی تعیین کردند، انتخاب شدند و شامل ۹۲۱ سؤال بود. خزانهی عملیاتی دوم که تنها از ذخیرهی سؤالات حسابان و دیفرانسیل تشکیل شد، بدون هیچ گونه وزن محتوایی برای اجرای CAT طرح ریزی شد و شامل ۴۵۵ سؤال بود.
در این پژوهش، یکی از متغیرهایی که دستکاری شد، عامل تعادل محتوایی بود. از اینرو، در عمل، دو اجرای واقعی CAT با تعادل محتوایی و بدون تعادل محتوایی در این پژوهش صورت گرفت. به منظور کنترل عامل تعادل محتوایی و همچنین، ایجاد مبنایی برای مقایسهی نتایج خزانهی سؤال بهینهای که بدون عامل تعادل محتوایی شبیهسازی شدند با خزانهی سؤال عملیاتی، در اولین مرحلهی اجرای واقعی آزمون CAT ، این پیش فرض قرار داده شد که تنها از خزانهی مربوط به محتوای حسابان-دیفرانسیل آزمون گرفته شود و هیچ عامل کنترل کنندهی محتوایی بر انتخاب سؤال وارد نشود. بنابراین، سیستم CAT عملیاتی، به شکلی تنظیم شد که از خزانهی سؤال ۴۵۵ تایی، برای هر آزمودنی ۲۰ سؤال حسابان – دیفرانسیل انتخاب و اجرا شود. این آزمون به صورت آنلاین بر روی ۳۵۰ نفر دانشآموز مقطع پیش دانشگاهی اجرا شد. نتایج بدست آمده در این مرحلهی اجرایی با نتایج خزانههای سؤال بهینهی شبیهسازی شده بدون در نظر گرفتن عامل تعادل محتوایی در شبیهسازی خزانههای بهینهی سؤال مقایسه شد. در مرحلهی دوم، آزمون CAT، ۶۰ سؤالی با وزن محتوایی مشخص، از یک خزانهی ۹۲۱ سؤالی انتخاب و بر روی ۳۵۰ نفر دیگر که متعلق به همان جامعه بودند، اجرا شد. نتایج این اجرا، مبنا و محکی برای بررسی عملکرد خزانههای سؤال بهینهای شد، که بر اساس عامل تعادل محتوایی و ایجاد وزنهای محتوایی بوسیلهی روش WDM طراحی شدند.
در این فصل، ابتدا نتایج مربوط به خزانههایی که بدون عامل تعادل محتوایی طرحریزی شدند و سپس، خزانههایی که بر اساس عامل تعادل محتوایی طرح ریزی شدند بررسی میشوند.
طراحی خزانهی سؤال بهینه بدون در نظر گرفتن تعادل محتوایی در اجرای CAT
در این قسمت، نتایج مربوط به خزانههایی که بدون عامل تعادل محتوایی طراحی شدند گزارش میشود. این برنامه بر اساس یک آزمون CAT، ۲۰ سؤالی با یک محتوای مشخص و بدون در نظر گرفتن زیر محتواهای مربوط به درس حسابان-دیفرانسیل پایهریزی شده است. در این قسمت با دستکاری دو عامل پهنای b-bin و عامل کنترل مواجهه سیمپسون-هتر (S-H ) چهار مرحلهی مجزا گزارش خواهد شد.
ساخت خزانههای سؤال بدون کنترل مواجهه بیش از حد سؤال
ساخت خزانههای سؤال با b-bin=0.2
نمودار ۱، ۲، ۳ و ۴ در قسمت ضمیمه (ب) و همچنین، جداول ۱، ۲، ۳ و ۴ در قسمت ضمیمهی (الف)، توزیعهای خزانهی سؤال عملیاتی (حسابان-دیفرانسیل) و سه خزانهی بهینهای که از طریق روش R، MRP، MTI با پهنای b-bin = 0.2، میزان a-bin: Δa2=2ΔIMaximum = ۰.۴ و همچنین با فرض اینکه هیچ روش کنترل مواجههای روی سؤالات اعمال نشده است، شبیهسازی شدند را نشان میدهد. جدول ۴-۷ اندازهها و خلاصهی آمارههای مربوط به پارامترهای سؤال در خزانهها را ارائه میکند. نتایج نشان میدهد که خزانههای سؤال بهینه شامل حداقل تعداد سؤال میباشند. البته این نتیجه تعجب برانگیز نیست، زیرا هر سه خزانهی بهینه با فرض اینکه هیچ روش کنترل مواجههای بر روی اجرای سؤالات وارد نشده، ساخته شدند، در حالی که خزانهی سؤال عملیاتی بر اساس روش کنترل مواجهه سیمپسون-هتر ساخته شده است. نتایج نشان میدهد که همهی خزانههای بهینه دارای سؤالاتی با دامنهی وسیعی از سطوح دشواری یعنی تقریباً از ۹۹/۳ تا ۹۹/۳- میباشند. به عبارت دیگر، سؤالات در خزانههای بهینه، نسبت به خزانههای عملیاتی، دارای دامنهی تقریباً بزرگتری از ضرایب دشواری هستند. خزانهی عملیاتی دارای تعداد زیادی سؤال با پارامتر b بین ۵/۰- تا ۵/۲ میباشد و از ۹۸/۳ تا ۵۹/۳- پراکنده شده است. در حالی که، خزانههای بهینه توزیع تا حدودی بزرگتری در میان b-bin ها دارند. خزانهی بهینهی MTI (ROP_3) شامل حداقل تعداد سؤل است و میانگین پارامتر a سؤالات آن نسبت به خزانههای دیگر، کوچکتر است و از ۰۵/۱ تا ۴۲/۲ پراکنده شدهاند. خزانهی سؤالR (ROP_1) دارای یک توزیع یکنواخت در سراسر ماتریس پارامترها میباشد، این نتیجه به دلیل ماهیت روشی است که پارامترهای سؤال را ایجاد میکند. در این روش، پارامترها در سراسر ماتریس پراکنده میشوند. توزیع پارامتر دشواری سؤالات در این روش بسیار مشابه خزانهی عملیاتی است. سؤالات دشوار در خزانهی بهینه MRP (ROP_2) دارای پارامتر ضریب تشخیص بالاتری هستند، و سؤالات آسان دارای پارامترهای ضریب تشخیص متوسط یا پایینتری هستند. بررسی نتایج عملکرد این خزانهها در جدول ۴-۸ آورده شده است. برآورد توانایی در هر سه خزانهی بهینه و عملیاتی، دارای سطح معینی از اریب مثبت میباشد، با این وجود، مقدار این اریبها در خزانههای بهینه ناچیز است. میانگین مجذور خطا (MSE) در خزانههای سؤال بهینه کوچکتر از خزانهی سؤال عملیاتی است. و در میان خزانههای سؤال بهینه، MRP (ROP_2) عملکرد بهتری در این شاخص نشان میدهد. همچنین نتایج نشان میدهد که خزانههای سؤال بهینه با وجود اینکه دارای سؤالات کمتری میباشند، دارای نرخ همپوشی پایینتری هستند. این نتیجه نشان میدهد که نرخ همپوشی تست با اندازهی خزانهی سؤال رابطه ندارد و رابطهی آن به ترکیب بهینهی سؤالات بستگی دارد.
جدول ۴-۷: اندازهی خزانهی سؤال و آمارههای پارامتر سؤال، بدون S-H (b-bin=0.2)