Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y
Đánh giá chất lượng của câu hỏi và đề thi trắc nghiệm bằng lý thuyết đáp ứng
câu hỏi (IRT). Đối tượng và phương pháp: Câu hỏi thi trắc nghiệm và đề thi trắc nghiệm học
phần Bệnh học Nhi khoa được xử lý kết quả bằng phần mềm Conquest để đưa ra các thông số
của câu hỏi, đề thi trắc nghiệm. Kết quả: Hệ số tin cậy (Sr - Separation reliability) = 0,905. Câu
hỏi trắc nghiệm được phân thành 3 nhóm: Câu hỏi tốt, câu hỏi chưa tốt cần chỉnh sửa, câu hỏi
cần loại bỏ). Độ khó của câu hỏi được chia thành 3 nhóm: Câu hỏi có độ khó trung bình, câu
hỏi dễ, câu hỏi quá dễ so với năng lực của thí sinh. Kết luận: Câu hỏi thi trắc nghiệm khách
quan có thông số phù hợp, đề thi phù hợp với mô hình Rash, độ tin cậy cao, đánh giá đúng nội
dung, dễ so với năng lực của thí sinh
Trang 1
Trang 2
Trang 3
Trang 4
Trang 5
Trang 6
Trang 7
Trang 8
Trang 9
Tóm tắt nội dung tài liệu: Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 134 PHÂN TÍCH, ĐÁNH GIÁ CÂU HỎI VÀ ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN HỌC PHẦN BỆNH HỌC NHI KHOA BẰNG PHẦN MỀM CONQUEST TẠI HỌC VIỆN QUÂN Y Hoàng Anh Tuấn1, Đặng Văn Cao1, Nguyễn Việt Hưng1 TÓM TẮT Mục đích: Đánh giá chất lượng của câu hỏi và đề thi trắc nghiệm bằng lý thuyết đáp ứng câu hỏi (IRT). Đối tượng và phương pháp: Câu hỏi thi trắc nghiệm và đề thi trắc nghiệm học phần Bệnh học Nhi khoa được xử lý kết quả bằng phần mềm Conquest để đưa ra các thông số của câu hỏi, đề thi trắc nghiệm. Kết quả: Hệ số tin cậy (Sr - Separation reliability) = 0,905. Câu hỏi trắc nghiệm được phân thành 3 nhóm: Câu hỏi tốt, câu hỏi chưa tốt cần chỉnh sửa, câu hỏi cần loại bỏ). Độ khó của câu hỏi được chia thành 3 nhóm: Câu hỏi có độ khó trung bình, câu hỏi dễ, câu hỏi quá dễ so với năng lực của thí sinh. Kết luận: Câu hỏi thi trắc nghiệm khách quan có thông số phù hợp, đề thi phù hợp với mô hình Rash, độ tin cậy cao, đánh giá đúng nội dung, dễ so với năng lực của thí sinh. * Từ khóa: Trắc nghiệm; Lý thuyết khảo thí cổ điển; Thuyết đáp ứng câu hỏi; Phần mềm Conquest. Analysis and Evaluation of Questions and Objective Test of Pediatric Disease Software by Conquest Software at Vietnam Military Medical University Summary Objectives: To evaluate the quality of questions and on multiple-choice questions using question-response theory (IRT). Subjects and methods: Multiple-choice questions and multiple-choice questions in the Pediatric Pathology section were processed using Conquest software to provide the parameters of the questions and multiple-choice questions. Results: Separation reliability = 0.905. Multiple choice questions were divided into 3 groups: Good questions, bad questions that need editing, and questions that need to be eliminated. The difficulty of the question was divided into 3 groups: Medium difficulty questions, easy questions, and too easy questions compared to the competitor's ability. Conclusion: Objective multiple- choice questions with appropriate parameters, exam questions suitable for the Rash model, high reliability, correct content assessment, easy compared to the candidate's capacity. * Keywords: Testing; Classic test theory; Theory of response to the question; Conquest software. 1Phòng Khoa học Quân sự, Học viện Quân y Người phản hồi: Hoàng Anh Tuấn (hoanganhtuan@vmmu.edu.vn) Ngày nhận bài: 20/2/2021 Ngày bài báo được đăng: 28/4/2021 T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 135 ĐẶT VẤN ĐỀ Kiểm tra đánh giá là một khâu rất quan trọng trong quá trình đổi mới đào tạo. Kiểm tra đánh giá khách quan, nghiêm túc, công bằng, đúng cách sẽ tạo động lực cho người học, khích lệ người học trên con đường chiếm lĩnh tri thức. Mặt khác, thông qua hoạt động kiểm tra đánh giá giúp giảng viên và các nhà quản lý đổi mới về phương pháp giảng dạy, phương pháp quản lý để hỗ trợ người học đạt được các mục tiêu trong học tập. Những năm gần đây, tại Học viện Quân y, bên cạnh việc đổi mới chương trình và phương pháp giảng dạy, hoạt động đổi mới phương pháp kiểm tra đánh giá cũng được quan tâm, chú trọng bằng việc thay đổi quan điểm tiếp cận về lý luận kiểm tra đánh giá, thay đổi phương pháp kiểm tra đánh giá phù hợp với yêu cầu của hoạt động giảng dạy. Hình thức thi trắc nghiệm khách quan là phương pháp đánh giá có nhiều ưu điểm được sử dụng trong nhiều kỳ thi quan trọng như: Thi tuyển sinh Đại học, thi tốt nghiệp Trung học phổ thông Quốc gia và ngày càng được áp dụng với nhiều môn thi tại Học viện Quân y trong những năm gần đây. Tuy nhiên, hiện nay các câu hỏi trắc nghiệm khách quan và đề thi trắc nghiệm được sử dụng tại Học viện Quân y chưa được đánh giá một cách khoa học và khách quan. Do đó, việc nâng cao chất lượng của câu hỏi trắc nghiệm, cũng như đánh giá mức độ phù hợp của đề thi với năng lực của sinh viên là rất quan trọng để hoạt động kiểm tra đánh giá thực hiện được vai trò và chức năng của nó. Chúng tôi nghiên cứu đề tài này nhằm: Đánh giá chất lượng câu hỏi trắc nghiệm khách quan và đề thi học phần Bệnh học Nhi khoa. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 1. Đối tượng nghiên cứu Dữ liệu thu thập từ kết quả thi của 86 thí sinh với đề thi 50 câu hỏi trắc nghiệm khách quan môn Bệnh học Nhi khoa tại Học viện Quân y năm 2021. Ngân hàng câu hỏi thi trắc nghiệm sau khi được biên soạn đảm bảo đáp ứng được nội dung yêu cầu của chương trình đào tạo. 2. Phương pháp nghiên cứu Sử dụng phần mềm Conquest xử lý kết quả thi được trích xuất từ phần mềm thi trắc nghiệm sau khi thi xong. Chương trình Conquest cho ra các thông số về mức độ phù hợp của câu hỏi với mô hình Rash, năng lực thí sinh với độ khó của câu hỏi, độ tin cậy của đề thi và các đặc trưng của câu hỏi đó là độ khó, độ phân biệt, hệ số tương quan của câu hỏi với toàn bài, độ tin cậy và sai số. * Các thông số đánh giá câu hỏi và đề thi trắc nghiệm: Sau khi câu hỏi trắc nghiệm khách quan được nghiệm thu về nội dung, cần định lượng các tham số của câu hỏi bằng kết quả trả lời của thí sinh với câu hỏi đó. Theo lý thuyết khảo thí cổ điển, câu hỏi cần đạt được các giá trị về độ khó, độ phân biệt. Các giá trị này được tính toán T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 136 dựa trên kết quả về thống kê mà không xem xét nội dung thuộc vào lĩnh vực nào. - Độ khó của câu hỏi (p): Là tỷ lệ phần trăm thí sinh trả lời đúng câu hỏi/tổng số thí sinh tham gia trả lời. Giá trị của p nằm trong khoảng 0,1, p càng lớn thì câu hỏi càng dễ và ngược lại. Giá trị của có thể chấp nhận được nằm trong khoảng 0,25 - 0,75; câu hỏi có p < 0,25 là quá khó, câu hỏi có p > 0,75 là quá dễ với thí sinh (Lord [2]). - Độ phân biệt của câu hỏi trắc nghiệm hoặc đề thi trắc nghiệm: Là khả năng phân biệt được năng lực của thí sinh: giỏi, khá, trung bình, kém Độ phân biệt của câu hỏi liên quan đến độ khó của câu hỏi. Nếu một câu hỏi quá khó hay quá dễ thì phản ứng của thí sinh có năng lực khác nhau là giống nhau: Hoặc sai hết hoặc đúng hết, do đó không phân biệt được năng lực của thí sinh. Vì vậy, 1 câu hỏi có khả năng phân biệt tốt cần có độ khó ở mức trung bình và 1 đề thi trắc nghiệm tốt cần có nhiều câu hỏi có mức độ trung bình. Khi đó, điểm số của thí sinh có phổ trải rộng. Để xác định độ phân biệt của câu hỏi, tính hệ số tương quan giữa điểm của câu hỏi với điểm của cả bài thi trắc nghiệm (hệ số R-pearson). Thông thường, giá trị Rp > 0,2 (Lord [2]). - Độ tin cậy: Là giá trị dùng để đánh giá chất lượng của đề thi trắc nghiệm, là đại lượng biểu thị mức độ chính xác của phép đo nhờ đề trắc nghiệm. Độ tin cậy của đề trắc nghiệm có thể được đánh giá bằng nhiều phương pháp như: Trắc nghiệm - trắc nghiệm lại; đề thi trắc nghiệm tương đương; phân đôi đề thi trắc nghiệm; phương pháp Kuder-Richardson; hệ số Cronbach alpha: là biểu thức dùng ước lượng độ tin cậy của một đề kiểm tra tổng thể (có thể gồm nhiều đề trắc nghiệm con nhị phân hoặc đa phân, được sử dụng nhiều trong tâm lý và giáo dục). Về lý thuyết, giá trị độ tin cậy nằm trong khoảng 0 - 1. Độ tin cậy cao nghĩa là các câu hỏi có độ gắn kết với nhau. Thí sinh trả lời được câu hỏi này có xu hướng trả lời được các câu hỏi cùng nhóm. Đề thi có độ tin cậy > 0,8 là rất tốt và có thể sử dụng cho đề thi trên lớp; độ tin cậy từ 0,7 - 0,8 là tốt, tuy nhiên cần chỉnh sửa một số câu hỏi; độ tin cậy < 0,7 là tương đối thấp (Brenan [4]). - Độ giá trị của đề thi trắc nghiệm: Là yêu cầu quan trọng nhất vì nó phản ánh đúng giá trị nội dung cần đo, biểu thị mức độ đạt được mục tiêu đề ra cho phép đo nhờ đề trắc nghiệm. Để độ giá trị của đề trắc nghiệm cao, cần xác định tỉ mỉ mục tiêu cần đo và bám sát mục tiêu đó trong quá trình xây dựng ngân hàng câu hỏi. Độ giá trị và độ tin cậy của đề thi trắc nghiệm có liên quan với nhau. Đề thi có độ tin cậy thấp không thể có giá trị. Nhưng ngược lại, độ tin cậy cao chưa chắc có giá trị vì có thể không phản ánh đúng đối tượng cần đo (Samuel Messick [7]). T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 137 * Lý thuyết khảo thí hiện đại và phần mềm Conquest: Thuyết đáp ứng câu hỏi (Item Response Theory), còn gọi là lý thuyết khảo thí hiện đại, được ra đời vào thế kỷ XX và phát triển mạnh mẽ cho đến nay. Lý thuyết khảo thí hiện đại đã khắc phục được một số nhược điểm của lý thuyết khảo thí cổ điển là không tách biệt được các đặc trưng của thí sinh độc lập (năng lực) với đặc trưng của đề trắc nghiệm; thuyết khảo thí cổ điển coi sai số tiêu chuẩn của phép đo năng lực giữa các thí sinh là như nhau, quan tâm mức độ đáp ứng của thí sinh với đề thi mà không chú trọng mức độ đáp ứng của thí sinh với các câu hỏi riêng biệt (Lâm Quang Thiệp [1]). Lý thuyết ứng đáp câu hỏi là mô hình hóa mối quan hệ giữa biến không thể quan sát là năng lực của thí sinh và xác suất mà tại đó thí sinh trả lời đúng 1 câu hỏi (Harris [5]). Hiểu đơn giản hơn, theo Wu và CS [3], lý thuyết ứng đáp câu hỏi là sử dụng mô hình toán học để dự đoán xác suất trả lời đúng 1 câu hỏi, dựa trên chỉ số về năng lực của người trả lời và độ khó của câu hỏi. Câu hỏi trắc nghiệm được đặc trưng bởi 3 thông số là: Độ khó, độ phân biệt và độ phán đoán (đoán mò của thí sinh). Tương ứng các thông số đó, các mô hình đáp ứng được đưa ra bao gồm: Mô hình đáp ứng 1 thông số (mô hình Rash): chỉ sử dụng 1 tham số là độ khó của câu hỏi; mô hình 2 tham số: sử dụng cả 2 biến là độ khó và độ phân biệt của câu hỏi; mô hình 3 tham số: sử dụng cả 3 tham số là độ khó, độ phân biệt và độ phán đoán của thí sinh. Phần mềm Conquest được xây dựng dựa trên lý thuyết IRT, được sử dụng để đánh giá và phân tích câu hỏi, cho phép khảo sát thuộc tính về đánh giá năng lực và đánh giá truyền thống. Phần mềm cung cấp cho người sử dụng các thông tin: Thông số cơ bản của việc phân tích câu hỏi theo mô hình IRT; thông số độ khó, độ phân biệt theo lý thuyết cổ điển; các tham số liên quan đến độ khó, độ phân biệt, độ phỏng đoán theo lý thuyết IRT, độ tin cậy của đề thi, số lượng thí sinh lựa chọn từng phương án trả lời; phân bố độ khó của câu hỏi với năng lực của thí sinh; đường cong đặc trưng của câu hỏi; trường hợp bất thường của người trả lời. KẾT QUẢ NGHIÊN CỨU Đề thi gồm 50 câu hỏi trắc nghiệm khách quan ở học phần Bệnh học Nhi khoa với thời gian 60 phút của 85 sinh viên y khoa năm thứ 5. Đề thi nhằm đánh giá năng lực nhận thức ở 3 mức độ: Nhớ (25 câu), thông hiểu (15 câu) và vận dụng (10 câu). 1. Mức độ phù hợp với mô hình IRT Tiến hành phân tích kết quả trong file SHW cho thấy, các câu hỏi trong bài kiểm tra có giá trị Unweighted fit nằm trong giới hạn 0,7 - 1,30 và chỉ số của Weighted MNSQ của các câu hỏi đều xấp xỉ 1 cho thấy dữ liệu dùng để phân tích phù hợp với mô hình IRT. T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 138 Bảng 1: Mức độ phù hợp của câu hỏi với mô hình IRT. Cả 50 câu hỏi trong đề thi trắc nghiệm hoàn toàn phù hợp, đánh giá đúng nội dung cần đánh giá. Bài thi trắc nghiệm có độ tin cậy cao với hệ số tin cậy Sr = 0,905. 2. Các đặc tính của câu hỏi Câu hỏi trắc nghiệm khách quan tốt là câu hỏi đảm bảo chuẩn về nội dung, các tham số của câu hỏi như độ khó, độ phân biệt, các phương án nhiễu đều hợp lý. Câu hỏi không phù hợp với mô hình, quá khó, quá dễ, phương án nhiễu không hiệu quả cần loại bỏ hoặc điều chỉnh cho phù hợp. - Nhóm câu hỏi tốt (44, 33, 29, 9, 5, 4): Là câu hỏi có độ khó phù hợp, phương án nhiễu có giá trị. Ví dụ phân tích câu hỏi số 9: T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 139 Hình 2: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 9. Câu hỏi có độ khó theo lý thuyết khảo thí cổ điển là 0,65, nằm trong giới hạn (0,25 -0,75), có 65,88% thí sinh trả lời đúng kết quả. Độ phân biệt của câu hỏi ở mức khá (Discrimnation = 0,48 > 0,2), tức câu hỏi có khả năng phân biệt được nhóm học sinh có năng lực cao và nhóm học sinh có năng lực thấp. Chỉ số Pt Bis ở các phương án nhiễu (A, B, C) đều có giá trị âm, trong khi phương án đúng (D) có giá trị dương và cao nhất. Chứng tỏ các phương án nhiễu có giá trị trong việc đánh giá năng lực của thí sinh. So sánh cấu trúc đề thi và ý kiến của chuyên gia về nội dung câu hỏi cho thấy, câu hỏi số 9 dùng để đánh giá năng lực nhận thức ở mức độ vận dụng, do đó độ khó bằng 0,65 là khá phù hợp, độ phân biệt 0,48 ở mức chấp nhận được. Phân tích đường cong đặc trưng của câu hỏi cũng thấy khá phù hợp. - Nhóm câu hỏi cân nhắc điều chỉnh (40, 27, 26, 25, 21, 17, 10, 8, 42): Là câu hỏi có độ phân biệt rất thấp, phương án nhiễu không hiệu quả hoặc có độ khó không phù hợp. Ví dụ phân tích câu hỏi số 27: T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 140 Hình 3: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 27. Kết quả phân tích cho thấy câu hỏi có độ khó 0,77, độ phân biệt 0,1. Tham khảo ý kiến chuyên gia cho thấy câu hỏi được sử dụng để đánh giá năng lực mức thông hiểu. Do câu hỏi dễ nên không có khả năng phân biệt năng lực của thí sinh. Xem xét giá trị Pt Bis thấy các đáp án A, D có chỉ số dương, chỉ có 1/85 thí sinh chọn đáp án A. Chứng tỏ phương án nhiễu không hiệu quả. - Nhóm câu hỏi chưa tốt (32, 30, 24, 23, 20, 15, 6, 2, 41): Là câu hỏi có độ khó, độ phân biệt hoặc phương án nhiễu không hợp lý. Ví dụ phân tích câu hỏi số 20: T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 141 Hình 4: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 20. Kết quả phân tích cho thấy câu hỏi có độ khó 0,85, độ phân biệt -0,11. Có thể thấy, câu hỏi không có khả năng phân biệt năng lực giữa các nhóm thí sinh. Điều này cũng thấy rõ ở chỉ số Pt Bis khi đáp án đúng A có 85,88% sinh viên trả lời đúng nhưng có giá trị -0,01, nhỏ hơn giá trị của đáp án sai B, C. 3. Phân bố độ khó của câu hỏi với năng lực thí sinh Hình 5: Thang phân bố độ khó của câu hỏi với năng lực thí sinh. T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 142 Độ khó của câu hỏi với các mức năng lực của thí sinh từ -2 đến +2 theo đơn vị logic. Câu hỏi trắc nghiệm phân thành 3 nhóm chính: Nhóm câu hỏi có độ khó trung bình, nhóm câu hỏi dễ và nhóm câu hỏi rất dễ. - Nhóm câu hỏi có độ khó trung bình: 36, 47, 24, 11, 29, 44, 8, 4, 3, 42, 21, 33, 38. - Nhóm câu hỏi dễ: 9, 16, 30, 26, 31, 5, 48, 7, 13, 32, 49, 6, 27, 40, 46, 17, 14, 23, 37, 1, 18, 2, 10, 20, 22, 35. - Nhóm có câu hỏi quá dễ: 43, 19, 34, 28, 41, 50, 12, 15, 25, 39. Nhiều thí sinh (16/85 thí sinh) có năng lực cao hơn câu hỏi có độ khó cao nhất. Ngược lại, nhiều câu hỏi ở mức độ quá dễ khi độ khó của câu hỏi nằm dưới năng lực của tất cả thí sinh tham gia kiểm tra (các câu hỏi 43, 28, 41, 50, 12, 15, 25, 39). KẾT LUẬN Từ kết quả phân tích các đặc tính của câu hỏi bằng lý thuyết đáp ứng IRT (mức độ phù hợp mô hình, độ tin cậy, độ giá trị, độ phân biệt và phân bố độ khó của câu hỏi với năng lực thí sinh, đường cong đặc trưng câu hỏi) kết hợp ý kiến chuyên gia, chúng tôi rút ra một số kết luận: - Đề thi phù hợp với mô hình Rash, có độ giá trị và độ tin cậy cao. Tuy nhiên, đề thi còn dễ so với năng lực của thí sinh, thể hiện qua việc nhiều thí sinh (16/85) có năng lực vượt qua mức độ khó của câu hỏi và có 14/50 câu hỏi có mức độ khó dưới năng lực của tất cả các thí sinh. - Phần mềm Conquest hỗ trợ việc phân tích đánh giá chất lượng câu hỏi trắc nghiệm và đề thi trắc nghiệm rất hiệu quả theo lý thuyết khảo thí hiện đại. Qua đó giúp giảng viên và các nhà quản lý lựa chọn được những câu hỏi tốt, đề xuất những câu hỏi cần chỉnh sửa và loại bỏ những câu hỏi không chất lượng, từ đó nâng cao chất lượng ngân hàng câu hỏi, góp phần đánh giá đúng năng lực của người học, nâng cao chất lượng đào tạo. TÀI LIỆU THAM KHẢO 1. Lâm Quang Thiệp. Đo lường và đánh giá hoạt động học tập trong nhà trường. NXB Đại học Sư phạm. Hà Nội 2012. 2. Lord FM. Tài liệu dịch: Psychometrika - Mối quan hệ giữa độ tin cậy của câu hỏi đa lựa chọn và phân bổ độ khó của câu hỏi 1952; 18:181-194. 3. Wu M, Adams R. Applying the Rasch Model to Psycho-social Measurement: A practical approach. Tài liệu tập huấn Thiết kế công cụ đánh giá do Ngân hàng Thế giới phối hợp với ACER tổ chức năm 2007-2008 tại Việt Nam. 2007. 4. Brennan LR. Educational Measurement (4th ed.). American Council on Education. Washington DC 2006. 5. Harris D. Comparison of 1-, 2-, and 3-paramater ITR models. A module in NCME series of Instructional Topics in Educational Measurement. NCME Journal of Educational Measurement: Issues and Practices 1989; 35-41. 6. Margaret L, Wu Raymond J, Adams Mark R, Wilson Samuel A Haldane. ACER Conquest version 2.0: Generalised item response modelling software. ACER Press 2007. 7. Messick S. Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning. American Psychologist 1995; 50:741-749. 8. Rasch G. Probablistic models for some intelligence and attainment tests. Danish Institute for Educational Research. Copenhagen, Denmark 1960.
File đính kèm:
- phan_tich_danh_gia_cau_hoi_va_de_thi_trac_nghiem_khach_quan.pdf