מבחן אדפטיבי VS מבחן רנדומלי במבחנים פסיכוטכניים
במאמר קצר זה נסקור ונשווה מבחן אדפטיבי לעומת מבחן רנדומלי, על היתרונות והחסרונות של כל שיטה.
תיאור קצר של המנגנון המעצב
מבחן אדפטיבי
מבחן אדפטיבי עלה בתחילת שנות ה-80 כרעיון למנוע את הבעיה של נבחנים בעלי יכולת גבוהה להשתעמם בשאלות הקלות, אבל חסרונו בכך שזה בא על חשבון ניתוח סגנון, הספק ודיוק עבודת הנבחן. במבחן אדפטיבי מציגים לנבחן רצף של פריטים, כאשר הפריט הבא נבחר על סמך תשובות הנבחן בפריטים הקודמים. לדוגמה: אם נבחן מצליח היטב ברצף של פריטים בעלי קושי בינוני, הפריט הבא שיוצג יהיה קשה יותר, ולהיפך, אם הנבחן ייכשל בפריט הבינוני, הפריט הבא שיוצג לו יהיה קל יותר.
על כן, מבחן אדפטיבי מכיל מלכתחילה פריטים רבים יותר מהנדרש, ואין לדעת מראש כמה פריטים הנבחן יקבל. הנבחן למעשה 'מדלג' קדימה ואחורה בין הפריטים, ומספר השאלות שאיתן יתמודד שונה בין נבחן לנבחן.
מבחן רנדומלי
לוגיפס העלתה מערכת רנדומלית של מבחני הכישורים מיד עם הקמתה ב-2011, המערכת שולפת את השאלות מתוך גרסאות שונות בעלות רמת קושי זהה, באופן אקראי לחלוטין. לדוגמה: עבור נבחן אחד השאלה הראשונה תהיה גרסה 6, השאלה השנייה תהיה גרסה 3 והשאלה השלישית תהיה גרסה 9, בעוד שנבחן שני יקבל בשאלה הראשונה את גרסה 2, בשאלה השנייה את גרסה 8 ובשאלה השלישית את גרסה 5, כפי שמודגם בטבלה בהמשך.
כלומר, שני נבחנים שונים יקבלו שאלות שונות לחלוטין, אך ברמת קושי זהה. מתוך כך, כמות השאלות במבחן רנדומלי היא קבועה וידועה מראש ועל כן ניתן להעריך את זמן הביצוע של המבחן. הגרסאות השונות לכל שאלה זהות ברמת הקושי שלהן, והמערכת מגרילה פריטים מגרסאות שונות, כך שכמות השילובים האפשריים הינה עצומה.
למשל אם מספר הגרסאות הוא 9 (V = 9), ומספר השאלות הינו 25 (N = 25), אז כמות האפשרויות היא 9 בחזקת 25 ( 925 ) שזה למעלה ממיליון אפשרויות שונות...
בפיתוח מערכת המבחנים של לוגיפס, כששקלנו את מלוא השיקולים, היתרונות והחסרונות של פיתוח מבחנים אינטרנטיים, הבנו שנקודת התורפה היא בעיקר בחשיפת השאלות לנבחן.
המורכבות של מערכת מרובת גרסאות ושליפה רנדומלית
כל פתרון שהעלנו, ובכלל זה מבחן אדפטיבי, היה תלוי ברמת התחכום של הנבחנים וביכולת שלהם לשתף את השאלות.
כל מה שמוכר וקיים בעולם המבחנים בעידן האינטרנט, ובמיוחד כאשר מדובר על שימוש חוזר ונשנה, לא מקנה למערכת הגנה טובה מפני האפשרות של העתקה והחשש שהנבחן יערים עלינו. מאחר שפיתוח מערכת של מבחנים פסיכוטכניים כרוכה במאמץ ובהשקעה גדולה ויקרה בכל מקרה, נושא זה הטריד אותנו מאוד.
אחרי לבטים וחשיבה רבה, הבנו שיש דרך, אבל שהיא קשה מאוד לפיתוח, לתפעול ולתחזוקה.
לא מדובר רק בפיתוח מערכת מרובת גרסאות, אלא יותר מזה - שהשאלות בה ישלפו מגרסאות שונות באופן אקראי לחלוטין, כך שכל מבחן יהווה סט שאלות ייחודי ואקראי לחלוטין, או במילים אחרות, "מבחן רנדומלי".
לשיטתנו, זו הדרך היחידה להתמודד עם רמת התחכום של הנבחנים והקלות שבה ניתן להעתיק וללמוד שאלות במבחן שמועבר דרך האינטרנט, על אחת כמה וכמה כשמדובר במבחן אותו ניתן לעשות בבית וללא פיקוח. באופן הזה, לא משנה מה יעשה הנבחן, כמה הוא מתוחכם, האם יעתיק או ילמד את השאלות, כמה עזרו לו או כמה השקיע ב'ריגול' ולמידת המערכת ובכלל זה צילום המסכים, הוא אינו יכול לדעת איזה שאלות יקבל.
בנוסף לכך, כששקלנו פיתוח מערכת רנדומלית אל מול מערכת אדפטיבית, לקחנו בחשבון יתרון משמעותי נוסף של מבחנים רנדומליים, והוא האפשרות לקבל מידע על סגנון העבודה של הנבחן.
מאחר שמערכת אדפטיבית למעשה מותאמת לנבחן, הן מבחינת רמת הקושי של השאלות והן מבחינת אורך המבחן כולו, לא ניתן להתרשם ממאפיינים רבים של סגנון העבודה שלו, מאפיינים מהותיים לתפקודו בעבודה. למשל – כיצד מגיב הנבחן אל מול אתגר (מתמיד או מוותר?), כיצד מגיב אל מול שעמום (משקיע או מזלזל?), איך הוא מגיב לכישלון? כיצד הוא מתנהל תחת לחץ כשהזמן אוזל? ועוד ועוד. במבחן רנדומלי המידע הזה נאסף, מנוטר ומנותח באופן אוטומטי, במקביל לבחינת כישורי הנבחן בתחום המבחן הספציפי, והבנו כי המידע הזה על הנבחן שווה זהב.
אבל הבעיה הייתה איך? איך נפתח מערכת רצינית, גדולה ומנורמלת כראוי?
הבנו שכדי להגיע לכך, יהיה עלינו לבחון כמות עצומה, בלתי נתפסת של נבחנים, לא 100 וגם לא 1,000, אלא אלפים רבים לכל מבחן ולכל גרסה...
יתרה מכך, גם בהמשך, לאחר שהמבחן יעלה לאוויר, יהיה עלינו להמשיך ולתחזק מערכת פיילוט אטרקטיבית, שנבחנים וולונטריים יבחנו בה באופן חופשי ובחינם, אם כדי לתרגל, להשתפר או להפחית את חששותיהם לקראת מבחן, כך שנוכל להחליף פריטים כל אימת שנרצה בכך, ולייצר מצב שלא ניתן יהיה להערים עלינו.
וזה מה שעשינו. פיתחנו מערכת מורכבת ואקראית של שאלות ותשובות, כאשר גם עליהן, כלומר על התשובות, חל באופן חלקי כלל האקראיות. כיצד? על ידי ערבול המיקום והמספור של התשובות, כך שגם אם נבחן מסוים יקבל את אותה שאלה בדיוק, הסיכוי שהמיקום של התשובה הנכונה יהיה זהה לפעם הקודמת שבה השאלה הזו הוצגה לנבחן הוא 25% לכל היותר.
שני הדברים האלו ביחד יוצרים אצל הנבחן המתוחכם ביותר תחושה של חוסר שליטה וחוסר בטחון, ובעיקר חוסר מוטיבציה בהשקעה הכרוכה ב'לסדר' את הבוחן.
דוגמה של שלוש שאלות במבחן רנדומלי בחשבון:
יש לנו כאן 9 גרסאות (המינימום במרבית המבחנים שלנו), ושלוש שאלות לדוגמה ברמת קושי עולה. הפריטים בצהוב הם דוגמה לשליפה אקראית של מבחן בן 3 שאלות.
למעשה, אין כאן בפריטים עצמם, בכל פריט בנפרד, שום דבר 'מיוחד'. היופי, אבל גם הקושי, הוא בהסדרתם, בניהול ובשליפה האקראית על כל המשתמע מכך.
כמובן שלא ניתן במצב כזה לנסות וללמוד את כל הפריטים (מדובר ב-25 שאלות עם 9 גרסאות ויותר, וזה רק מבחן אחד מתוך סט המבחנים)
אם נבחן מסוגל הרי להחזיק את כל זה בראש, מדובר בגאון, גאון ממש, וגאון לא זקוק לכל השינון הזה.
חלוקת הפריטים השונים בתוך מבחני לוגיפס לקבוצות נעשית לפי:
- רמת הקושי של הפריט - אחוזי ההצלחה שלו בקרב הנבחנים.
- רמת ההבחנה של הפריט - המידה שבה כל פריט מבחין בין נבחנים עם רמות הצלחה שונות במבחן.
- זמן הביצוע של הפריט - הזמן הממוצע שנדרש לטובת מענה על פריט.
חשוב לציין ששקלנו אפשרות של 'גם וגם', קרי מבחן אדפטיבי שהוא גם רנדומלי, כך שכמות השאלות בגרסה האחת והיחידה תהיה עצומה והפריטים ישלפו באופן רנדומלי, אבל הבנו שמעבר להשלכות הצפויות בערבוב המתודות, המערכת תלקה בכל החסרונות שיש למערכת אדפטיבית, ראו טבלת השוואה בהמשך.
אז בחזרה לאופציה הרנדומלית – הבנו שמערכת כזו מחייבת יכולת טכנולוגית שלא הייתה קיימת בעולמות שלנו, שהיא מחייבת צוות מתכנתים גדול ומקצועי שאינו נופל בחשיבותו מהצוות המקצועי/פסיכולוגי, שזה פיתוח שיצריך מאתנו זהירות רבה, תיעוד מדויק ופתרונות יצירתיים, כדי שרמת הביצועים ושליפת המידע של הדוחות תהיה מהירה ויחד עם זאת מדויקת ועדכנית.
מערכת כזו צריך שיהיה ביכולתה לעשות שינויים לאחור, לשמר את פרטי השאלות שהנבחן קיבל, את סדר התשובות והמסיחים, וכל זה מבלי לגרוע מהבוחנים את האפשרות לשנות את הנורמות שנבחרו בפרופיל התפקיד, את רמת החשיבות שייחסו למבחן זה או אחר, ליצור תמהיל אחר של מבחנים, או לאפשר לנבחן בחינה חוזרת.
נורמות המבחנים במערכת לוגיפס נבנות בכמה שלבים.
- בשלב הראשון, עם תחילת הרצת המבחן, נאספים נתונים של נבחנים שמתרגלים לצרכים שונים.
- בשלב השני, לאחר מכן, לאור הביצוע שלהם, מבצעים תהליכי טיוב של המבחן, על מנת שניתן יהיה להשתמש בו עבור תהליכי מיון.
- בשלב השלישי, לאחר שהמבחן נכנס לשימוש בפועל, נאספים כל הזמן נתונים עדכניים של נבחנים בפועל בתהליכי מיון, וכך הנורמות מתעדכנות באופן רציף ללא התערבות מנהל המערכת.
הרצת פריטים חדשים עבור מבחנים קיימים מתבצעת באחת מבין שתי דרכים:
- הרצת מבחן חדש מלא באמצעות מערכת התרגול, ולאחר מכן שילובו בהתאם לנתונים במבחן הקיים.
- שילוב פריטים חדשים כפריטי הרצה בתוך מבחן נוכחי, כך שמוצגים לנבחנים בפועל, אך לא משפיעים על התוצאות שלהם והנתונים נאספים רק לטובת שילוב בהמשך בתוך המבחן כפריטים מן המניין.
ועכשיו תוסיפו לזה שמדובר במערכת רב שפתית (Multi Language) ורב תרבותית, ותבינו שמדובר במערכת מאוד מאוד מסובכת לפיתוח ולתחזוקה, אבל שזו הדרך הנכונה לביצוע המשימה.
היא נותנת לבוחנים את מה שהכי חשוב להם - את השקט והביטחון המאפשרים לבחון מועמדים אפילו בבית, משום שהנבחן אינו יודע ולא יכול לדעת איזה שאלות יקבל, גם אם נבחן באמצעותה בעבר ואפילו יותר מפעם אחת. זאת במקביל לאיסוף מידע לגבי סגנון העבודה שלו.
טבלת השוואה בין מבחן אדפטיבי למבחן רנדומלי
נושא |
מבחן אדפטיבי |
מבחן רנדומלי |
חשיפת הפריטים |
העתקת הפריטים ולמידתם אפשרית, במיוחד הפריטים הראשונים שמכתיבים את המשך הבחינה והציון הסופי. |
ככל שמספר הגרסאות גדול יותר, כך המשימה של לשנן את השאלות הופכת לקשה יותר, עד לבלתי אפשרית. |
בחינה חוזרת |
מועמד שנבחן במערכת אדפטיבית בפעם השנייה עשוי לקבל חלק מהשאלות שקיבל גם בפעם הראשונה שנבחן. |
ניתן לבחון שוב ללא חשש, הסיכוי ששאלות יחזרו על עצמן קטן וזניח + ערבול המסיחים מאפשר בחינות חוזרות ונשנות. |
בחינת מספר נבחנים במקביל |
היכולת להעתיק פחות נוחה ממבחן רגיל אך רק במעט, מכיוון שהשאלות הראשונות זהות, ורק אם המענה יהיה שונה בהמשך אז חלק מהשאלות הבאות יהיו שונות. |
אין שום בעיה לבחון בו-זמנית כמות גדולה של נבחנים, כל אחד מהם יקבל מבחן שונה לחלוטין. |
סגנון עבודה |
לא ניתן להתרשם מסגנון העבודה של הנבחן, הנבחנים לא נמצאים על אותו 'סרגל' ולכן אין אפשרות השוואה. |
ניתן לאסוף ולנטר מאפיינים רבים ומהותיים הקשורים לסגנון עבודתם של הנבחנים ולהשוות ביניהם, למשל – התמודדות עם קושי, התמודדות עם לחץ, ועוד. |
זמן הבחינה |
לא בר-השוואה, זמן הבחינה עשוי להיות שונה מנבחן לנבחן, ואפילו בבחינה נוספת לאותו נבחן. |
זמן הבחינה המקסימלי ידוע מראש וזהה עבור כל הנבחנים בכל מבחן ספציפי. |
הספק |
לא ניתן להשוואה בין נבחנים, כמות הפריטים וזמן הבחינה אינם קבועים. |
ניתן לאסוף נתוני הספק, הן עבור המועמד באבחון כולו, והן בהשוואה לנבחנים אחרים עבור כל מבחן בפני עצמו. |
תיקון תשובות |
לא ניתן לחזור ולתקן, תיקון כזה משבש את האלגוריתם שבבסיס המבחן, אשר קובע את השאלה הבאה. |
אין בעיה לחזור ולתקן במגבלת הזמן המוקצב למבחן, וזה נתון נוסף שניתן לאיסוף לטובת מסקנות אבחוניות על הנבחן. |
מסגרת הזמן |
המערכת לא יכולה למסור לנבחן את הזמן הנותר לסיום המבחן, ולכן הנבחן פועל מתוך חוסר וודאות של מסגרת הזמן. זאת בשונה מהנדרש בעולם העבודה, כך שתוקף הבחינה נפגע. |
הזמן הנדרש והנותר למבחן מוצגים לנבחן לאורך כל תהליך הבחינה. לאור כך, הנבחן יכול להתארגן בהתאם ולהפגין את יכולותיו באופן אשר מדמה משימות בעולם העבודה. |
לסיכום
מערכת מרובת גרסאות מצריכה השקעה, תחזוקה ופיתוח מאוד יקרים ומורכבים ובמובנים רבים זה דומה למערכת תלת מימדית.
מערכת מרובת גרסאות שהפריטים בה נשלפים באופן רנדומלי מגרסאות שונות, זה כבר אתגר מקצועי וטכנולוגי ברמה אחרת לגמרי כאשר שליפת השאלות זה החלק הקל בהשוואה לאתגרים שיבואו לאחר מכן.
כמות המשתתפים במדגם חייבת להיות עצומה וגם ההשקעה ב-QA, ההשקעה המקצועית (פסיכולוגים) והטכנולוגית (מתכנתים) יקרה מאוד לעומת מערכת של גרסה אחת, ארוכה ככל שתהיה. להבנתנו, רק כך ניתן לתת מענה שלם ועמיד בפני הבעיה של העתקת/לימוד ו'שריפת' פרטי המבחן.
בעידן האינטרנט ובחינת מועמדים מביתם, זו הדרך הטובה והבטוחה לתת למגייסים את מה שהכי חשוב להם – יציבות ואמינות של תוצאות האבחון. מומלץ להוסיף למערכת כזו גם יכולת לצלם את הנבחן במהלכו כגורם הרתעתי ומשלים, אפשרות שקיימת אצלנו בלוגיפס.
היתרונות הנוספים כגון היכולת לבחון מועמדים רבים בו זמנית כאשר לכל נבחן מבחן ייחודי משלו, האפשרות להשוות בין הנבחנים בהקשרים חשובים ונוספים כמו הספק וניטור ההתנהלות במבחן, היכולת לזהות במהלך מבחני הכישורים גם מאפיינים אישיותיים וסגנון עבודה לרבות התמדה, אימפולסיביות, היסוס ועוד, חשובים במידה רבה כפי שדיווחו לנו רבים מלקוחותינו.
מקורות
Rudner, L. M., & Guo, F. (2011). Computer adaptive testing for small scale programs and instructional systems. Journal of Applied Testing Technology, 12(1), 6-10.
Wainer, H., Dorans, N. J., Flaugher, R., Green, B. F., & Mislevy, R. J. (2000). Computerized adaptive testing: A primer. Routledge.
Weiss, D. J., & Kingsbury, G. G. (1984). Application of computerized adaptive testing to educational problems. Journal of educational measurement, 21(4), 361-375.
אופיר שובל, פסיכולוג ומנהל מקצועי בלוגיפס.
גבי אדם, מנכ"ל.
נשמח לשמוע מה דעתך!