Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y

 Đánh giá chất lượng của câu hỏi và đề thi trắc nghiệm bằng lý thuyết đáp ứng

câu hỏi (IRT). Đối tượng và phương pháp: Câu hỏi thi trắc nghiệm và đề thi trắc nghiệm học

phần Bệnh học Nhi khoa được xử lý kết quả bằng phần mềm Conquest để đưa ra các thông số

của câu hỏi, đề thi trắc nghiệm. Kết quả: Hệ số tin cậy (Sr - Separation reliability) = 0,905. Câu

hỏi trắc nghiệm được phân thành 3 nhóm: Câu hỏi tốt, câu hỏi chưa tốt cần chỉnh sửa, câu hỏi

cần loại bỏ). Độ khó của câu hỏi được chia thành 3 nhóm: Câu hỏi có độ khó trung bình, câu

hỏi dễ, câu hỏi quá dễ so với năng lực của thí sinh. Kết luận: Câu hỏi thi trắc nghiệm khách

quan có thông số phù hợp, đề thi phù hợp với mô hình Rash, độ tin cậy cao, đánh giá đúng nội

dung, dễ so với năng lực của thí sinh

Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y trang 1

Trang 1

Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y trang 2

Trang 2

Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y trang 3

Trang 3

Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y trang 4

Trang 4

Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y trang 5

Trang 5

Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y trang 6

Trang 6

Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y trang 7

Trang 7

Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y trang 8

Trang 8

Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y trang 9

Trang 9

pdf 9 trang minhkhanh 11760
Bạn đang xem tài liệu "Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y

Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm conquest tại học viện quân y
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 
 134
PHÂN TÍCH, ĐÁNH GIÁ CÂU HỎI VÀ ĐỀ THI TRẮC NGHIỆM 
KHÁCH QUAN HỌC PHẦN BỆNH HỌC NHI KHOA BẰNG 
PHẦN MỀM CONQUEST TẠI HỌC VIỆN QUÂN Y 
Hoàng Anh Tuấn1, Đặng Văn Cao1, Nguyễn Việt Hưng1 
TÓM TẮT 
Mục đích: Đánh giá chất lượng của câu hỏi và đề thi trắc nghiệm bằng lý thuyết đáp ứng 
câu hỏi (IRT). Đối tượng và phương pháp: Câu hỏi thi trắc nghiệm và đề thi trắc nghiệm học 
phần Bệnh học Nhi khoa được xử lý kết quả bằng phần mềm Conquest để đưa ra các thông số 
của câu hỏi, đề thi trắc nghiệm. Kết quả: Hệ số tin cậy (Sr - Separation reliability) = 0,905. Câu 
hỏi trắc nghiệm được phân thành 3 nhóm: Câu hỏi tốt, câu hỏi chưa tốt cần chỉnh sửa, câu hỏi 
cần loại bỏ). Độ khó của câu hỏi được chia thành 3 nhóm: Câu hỏi có độ khó trung bình, câu 
hỏi dễ, câu hỏi quá dễ so với năng lực của thí sinh. Kết luận: Câu hỏi thi trắc nghiệm khách 
quan có thông số phù hợp, đề thi phù hợp với mô hình Rash, độ tin cậy cao, đánh giá đúng nội 
dung, dễ so với năng lực của thí sinh. 
* Từ khóa: Trắc nghiệm; Lý thuyết khảo thí cổ điển; Thuyết đáp ứng câu hỏi; Phần mềm Conquest. 
Analysis and Evaluation of Questions and Objective Test of 
Pediatric Disease Software by Conquest Software at Vietnam 
Military Medical University 
Summary 
Objectives: To evaluate the quality of questions and on multiple-choice questions using 
question-response theory (IRT). Subjects and methods: Multiple-choice questions and 
multiple-choice questions in the Pediatric Pathology section were processed using Conquest 
software to provide the parameters of the questions and multiple-choice questions. Results: 
Separation reliability = 0.905. Multiple choice questions were divided into 3 groups: Good 
questions, bad questions that need editing, and questions that need to be eliminated. The 
difficulty of the question was divided into 3 groups: Medium difficulty questions, easy questions, 
and too easy questions compared to the competitor's ability. Conclusion: Objective multiple-
choice questions with appropriate parameters, exam questions suitable for the Rash model, 
high reliability, correct content assessment, easy compared to the candidate's capacity. 
* Keywords: Testing; Classic test theory; Theory of response to the question; Conquest software. 
1Phòng Khoa học Quân sự, Học viện Quân y 
Người phản hồi: Hoàng Anh Tuấn (hoanganhtuan@vmmu.edu.vn) 
 Ngày nhận bài: 20/2/2021 
 Ngày bài báo được đăng: 28/4/2021 
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 
 135 
ĐẶT VẤN ĐỀ 
Kiểm tra đánh giá là một khâu rất quan 
trọng trong quá trình đổi mới đào tạo. 
Kiểm tra đánh giá khách quan, nghiêm 
túc, công bằng, đúng cách sẽ tạo động 
lực cho người học, khích lệ người học 
trên con đường chiếm lĩnh tri thức. Mặt 
khác, thông qua hoạt động kiểm tra đánh 
giá giúp giảng viên và các nhà quản lý đổi 
mới về phương pháp giảng dạy, phương 
pháp quản lý để hỗ trợ người học đạt 
được các mục tiêu trong học tập. Những 
năm gần đây, tại Học viện Quân y, bên 
cạnh việc đổi mới chương trình và 
phương pháp giảng dạy, hoạt động đổi 
mới phương pháp kiểm tra đánh giá cũng 
được quan tâm, chú trọng bằng việc thay 
đổi quan điểm tiếp cận về lý luận kiểm tra 
đánh giá, thay đổi phương pháp kiểm tra 
đánh giá phù hợp với yêu cầu của hoạt 
động giảng dạy. Hình thức thi trắc nghiệm 
khách quan là phương pháp đánh giá có 
nhiều ưu điểm được sử dụng trong nhiều 
kỳ thi quan trọng như: Thi tuyển sinh Đại 
học, thi tốt nghiệp Trung học phổ thông 
Quốc gia và ngày càng được áp dụng 
với nhiều môn thi tại Học viện Quân y 
trong những năm gần đây. Tuy nhiên, 
hiện nay các câu hỏi trắc nghiệm khách 
quan và đề thi trắc nghiệm được sử dụng 
tại Học viện Quân y chưa được đánh giá 
một cách khoa học và khách quan. Do đó, 
việc nâng cao chất lượng của câu hỏi trắc 
nghiệm, cũng như đánh giá mức độ phù 
hợp của đề thi với năng lực của sinh viên 
là rất quan trọng để hoạt động kiểm tra 
đánh giá thực hiện được vai trò và chức 
năng của nó. Chúng tôi nghiên cứu đề tài 
này nhằm: Đánh giá chất lượng câu hỏi 
trắc nghiệm khách quan và đề thi học 
phần Bệnh học Nhi khoa. 
ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP 
NGHIÊN CỨU 
1. Đối tượng nghiên cứu 
Dữ liệu thu thập từ kết quả thi của 86 
thí sinh với đề thi 50 câu hỏi trắc nghiệm 
khách quan môn Bệnh học Nhi khoa tại 
Học viện Quân y năm 2021. Ngân hàng 
câu hỏi thi trắc nghiệm sau khi được biên 
soạn đảm bảo đáp ứng được nội dung 
yêu cầu của chương trình đào tạo. 
2. Phương pháp nghiên cứu 
Sử dụng phần mềm Conquest xử lý 
kết quả thi được trích xuất từ phần mềm 
thi trắc nghiệm sau khi thi xong. 
Chương trình Conquest cho ra các 
thông số về mức độ phù hợp của câu hỏi 
với mô hình Rash, năng lực thí sinh với 
độ khó của câu hỏi, độ tin cậy của đề thi 
và các đặc trưng của câu hỏi đó là độ 
khó, độ phân biệt, hệ số tương quan của 
câu hỏi với toàn bài, độ tin cậy và sai số. 
* Các thông số đánh giá câu hỏi và đề 
thi trắc nghiệm: 
Sau khi câu hỏi trắc nghiệm khách 
quan được nghiệm thu về nội dung, cần 
định lượng các tham số của câu hỏi bằng 
kết quả trả lời của thí sinh với câu hỏi đó. 
Theo lý thuyết khảo thí cổ điển, câu hỏi 
cần đạt được các giá trị về độ khó, độ 
phân biệt. Các giá trị này được tính toán 
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 
 136
dựa trên kết quả về thống kê mà không 
xem xét nội dung thuộc vào lĩnh vực nào. 
- Độ khó của câu hỏi (p): Là tỷ lệ phần 
trăm thí sinh trả lời đúng câu hỏi/tổng số 
thí sinh tham gia trả lời. Giá trị của p nằm 
trong khoảng 0,1, p càng lớn thì câu hỏi 
càng dễ và ngược lại. Giá trị của có thể 
chấp nhận được nằm trong khoảng 
0,25 - 0,75; câu hỏi có p < 0,25 là quá 
khó, câu hỏi có p > 0,75 là quá dễ với thí 
sinh (Lord [2]). 
- Độ phân biệt của câu hỏi trắc nghiệm 
hoặc đề thi trắc nghiệm: Là khả năng 
phân biệt được năng lực của thí sinh: 
giỏi, khá, trung bình, kém Độ phân biệt 
của câu hỏi liên quan đến độ khó của câu 
hỏi. Nếu một câu hỏi quá khó hay quá dễ 
thì phản ứng của thí sinh có năng lực 
khác nhau là giống nhau: Hoặc sai hết 
hoặc đúng hết, do đó không phân biệt 
được năng lực của thí sinh. Vì vậy, 1 câu 
hỏi có khả năng phân biệt tốt cần có độ 
khó ở mức trung bình và 1 đề thi trắc 
nghiệm tốt cần có nhiều câu hỏi có mức 
độ trung bình. Khi đó, điểm số của thí 
sinh có phổ trải rộng. Để xác định độ 
phân biệt của câu hỏi, tính hệ số tương 
quan giữa điểm của câu hỏi với điểm của 
cả bài thi trắc nghiệm (hệ số R-pearson). 
Thông thường, giá trị Rp > 0,2 (Lord [2]). 
- Độ tin cậy: Là giá trị dùng để đánh 
giá chất lượng của đề thi trắc nghiệm, 
là đại lượng biểu thị mức độ chính xác 
của phép đo nhờ đề trắc nghiệm. Độ tin 
cậy của đề trắc nghiệm có thể được 
đánh giá bằng nhiều phương pháp như: 
Trắc nghiệm - trắc nghiệm lại; đề thi trắc 
nghiệm tương đương; phân đôi đề thi trắc 
nghiệm; phương pháp Kuder-Richardson; 
hệ số Cronbach alpha: là biểu thức dùng 
ước lượng độ tin cậy của một đề kiểm tra 
tổng thể (có thể gồm nhiều đề trắc 
nghiệm con nhị phân hoặc đa phân, được 
sử dụng nhiều trong tâm lý và giáo dục). 
Về lý thuyết, giá trị độ tin cậy nằm trong 
khoảng 0 - 1. Độ tin cậy cao nghĩa là các 
câu hỏi có độ gắn kết với nhau. Thí sinh 
trả lời được câu hỏi này có xu hướng trả 
lời được các câu hỏi cùng nhóm. Đề thi 
có độ tin cậy > 0,8 là rất tốt và có thể sử 
dụng cho đề thi trên lớp; độ tin cậy từ 
0,7 - 0,8 là tốt, tuy nhiên cần chỉnh sửa 
một số câu hỏi; độ tin cậy < 0,7 là tương 
đối thấp (Brenan [4]). 
- Độ giá trị của đề thi trắc nghiệm: Là 
yêu cầu quan trọng nhất vì nó phản ánh 
đúng giá trị nội dung cần đo, biểu thị mức 
độ đạt được mục tiêu đề ra cho phép đo 
nhờ đề trắc nghiệm. Để độ giá trị của đề 
trắc nghiệm cao, cần xác định tỉ mỉ mục 
tiêu cần đo và bám sát mục tiêu đó trong 
quá trình xây dựng ngân hàng câu hỏi. 
Độ giá trị và độ tin cậy của đề thi trắc 
nghiệm có liên quan với nhau. Đề thi có 
độ tin cậy thấp không thể có giá trị. 
Nhưng ngược lại, độ tin cậy cao chưa 
chắc có giá trị vì có thể không phản ánh 
đúng đối tượng cần đo (Samuel Messick 
[7]). 
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 
 137 
* Lý thuyết khảo thí hiện đại và phần 
mềm Conquest: 
Thuyết đáp ứng câu hỏi (Item Response 
Theory), còn gọi là lý thuyết khảo thí hiện 
đại, được ra đời vào thế kỷ XX và phát 
triển mạnh mẽ cho đến nay. Lý thuyết 
khảo thí hiện đại đã khắc phục được một 
số nhược điểm của lý thuyết khảo thí cổ 
điển là không tách biệt được các đặc 
trưng của thí sinh độc lập (năng lực) với 
đặc trưng của đề trắc nghiệm; thuyết 
khảo thí cổ điển coi sai số tiêu chuẩn của 
phép đo năng lực giữa các thí sinh là như 
nhau, quan tâm mức độ đáp ứng của thí 
sinh với đề thi mà không chú trọng mức 
độ đáp ứng của thí sinh với các câu hỏi 
riêng biệt (Lâm Quang Thiệp [1]). 
Lý thuyết ứng đáp câu hỏi là mô hình 
hóa mối quan hệ giữa biến không thể 
quan sát là năng lực của thí sinh và xác 
suất mà tại đó thí sinh trả lời đúng 1 câu 
hỏi (Harris [5]). Hiểu đơn giản hơn, theo 
Wu và CS [3], lý thuyết ứng đáp câu hỏi 
là sử dụng mô hình toán học để dự 
đoán xác suất trả lời đúng 1 câu hỏi, dựa 
trên chỉ số về năng lực của người trả lời 
và độ khó của câu hỏi. Câu hỏi trắc 
nghiệm được đặc trưng bởi 3 thông số là: 
Độ khó, độ phân biệt và độ phán đoán 
(đoán mò của thí sinh). Tương ứng các 
thông số đó, các mô hình đáp ứng được 
đưa ra bao gồm: Mô hình đáp ứng 1 
thông số (mô hình Rash): chỉ sử dụng 1 
tham số là độ khó của câu hỏi; mô hình 2 
tham số: sử dụng cả 2 biến là độ khó và 
độ phân biệt của câu hỏi; mô hình 3 tham 
số: sử dụng cả 3 tham số là độ khó, độ 
phân biệt và độ phán đoán của thí sinh. 
Phần mềm Conquest được xây dựng 
dựa trên lý thuyết IRT, được sử dụng để 
đánh giá và phân tích câu hỏi, cho phép 
khảo sát thuộc tính về đánh giá năng lực 
và đánh giá truyền thống. Phần mềm 
cung cấp cho người sử dụng các thông 
tin: Thông số cơ bản của việc phân tích 
câu hỏi theo mô hình IRT; thông số độ 
khó, độ phân biệt theo lý thuyết cổ điển; 
các tham số liên quan đến độ khó, độ 
phân biệt, độ phỏng đoán theo lý thuyết 
IRT, độ tin cậy của đề thi, số lượng thí 
sinh lựa chọn từng phương án trả lời; 
phân bố độ khó của câu hỏi với năng lực 
của thí sinh; đường cong đặc trưng của 
câu hỏi; trường hợp bất thường của 
người trả lời. 
KẾT QUẢ NGHIÊN CỨU 
Đề thi gồm 50 câu hỏi trắc nghiệm 
khách quan ở học phần Bệnh học Nhi 
khoa với thời gian 60 phút của 85 sinh 
viên y khoa năm thứ 5. Đề thi nhằm đánh 
giá năng lực nhận thức ở 3 mức độ: Nhớ 
(25 câu), thông hiểu (15 câu) và vận dụng 
(10 câu). 
1. Mức độ phù hợp với mô hình IRT 
Tiến hành phân tích kết quả trong file 
SHW cho thấy, các câu hỏi trong bài kiểm 
tra có giá trị Unweighted fit nằm trong giới 
hạn 0,7 - 1,30 và chỉ số của Weighted 
MNSQ của các câu hỏi đều xấp xỉ 1 cho 
thấy dữ liệu dùng để phân tích phù hợp 
với mô hình IRT. 
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 
 138
Bảng 1: Mức độ phù hợp của câu hỏi với mô hình IRT. 
Cả 50 câu hỏi trong đề thi trắc nghiệm hoàn toàn phù hợp, đánh giá đúng nội dung 
cần đánh giá. Bài thi trắc nghiệm có độ tin cậy cao với hệ số tin cậy Sr = 0,905. 
2. Các đặc tính của câu hỏi 
Câu hỏi trắc nghiệm khách quan tốt là câu hỏi đảm bảo chuẩn về nội dung, các 
tham số của câu hỏi như độ khó, độ phân biệt, các phương án nhiễu đều hợp lý. Câu 
hỏi không phù hợp với mô hình, quá khó, quá dễ, phương án nhiễu không hiệu quả 
cần loại bỏ hoặc điều chỉnh cho phù hợp. 
- Nhóm câu hỏi tốt (44, 33, 29, 9, 5, 4): Là câu hỏi có độ khó phù hợp, phương án 
nhiễu có giá trị. Ví dụ phân tích câu hỏi số 9: 
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 
 139 
Hình 2: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 9. 
Câu hỏi có độ khó theo lý thuyết khảo thí cổ điển là 0,65, nằm trong giới hạn 
(0,25 -0,75), có 65,88% thí sinh trả lời đúng kết quả. Độ phân biệt của câu hỏi ở mức 
khá (Discrimnation = 0,48 > 0,2), tức câu hỏi có khả năng phân biệt được nhóm học 
sinh có năng lực cao và nhóm học sinh có năng lực thấp. Chỉ số Pt Bis ở các phương 
án nhiễu (A, B, C) đều có giá trị âm, trong khi phương án đúng (D) có giá trị dương và 
cao nhất. Chứng tỏ các phương án nhiễu có giá trị trong việc đánh giá năng lực của thí 
sinh. So sánh cấu trúc đề thi và ý kiến của chuyên gia về nội dung câu hỏi cho thấy, 
câu hỏi số 9 dùng để đánh giá năng lực nhận thức ở mức độ vận dụng, do đó độ khó 
bằng 0,65 là khá phù hợp, độ phân biệt 0,48 ở mức chấp nhận được. Phân tích đường 
cong đặc trưng của câu hỏi cũng thấy khá phù hợp. 
- Nhóm câu hỏi cân nhắc điều chỉnh (40, 27, 26, 25, 21, 17, 10, 8, 42): Là câu hỏi có 
độ phân biệt rất thấp, phương án nhiễu không hiệu quả hoặc có độ khó không phù 
hợp. Ví dụ phân tích câu hỏi số 27: 
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 
 140
Hình 3: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 27. 
Kết quả phân tích cho thấy câu hỏi có độ khó 0,77, độ phân biệt 0,1. Tham khảo ý 
kiến chuyên gia cho thấy câu hỏi được sử dụng để đánh giá năng lực mức thông hiểu. 
Do câu hỏi dễ nên không có khả năng phân biệt năng lực của thí sinh. Xem xét giá trị 
Pt Bis thấy các đáp án A, D có chỉ số dương, chỉ có 1/85 thí sinh chọn đáp án A. 
Chứng tỏ phương án nhiễu không hiệu quả. 
- Nhóm câu hỏi chưa tốt (32, 30, 24, 23, 20, 15, 6, 2, 41): Là câu hỏi có độ khó, độ 
phân biệt hoặc phương án nhiễu không hợp lý. Ví dụ phân tích câu hỏi số 20: 
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 
 141 
Hình 4: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 20. 
Kết quả phân tích cho thấy câu hỏi có độ khó 0,85, độ phân biệt -0,11. Có thể thấy, 
câu hỏi không có khả năng phân biệt năng lực giữa các nhóm thí sinh. Điều này cũng 
thấy rõ ở chỉ số Pt Bis khi đáp án đúng A có 85,88% sinh viên trả lời đúng nhưng có 
giá trị -0,01, nhỏ hơn giá trị của đáp án sai B, C. 
3. Phân bố độ khó của câu hỏi với năng lực thí sinh 
Hình 5: Thang phân bố độ khó của câu hỏi với năng lực thí sinh. 
T¹p chÝ y - d−îc häc qu©n sù sè 4-2021 
 142
Độ khó của câu hỏi với các mức năng 
lực của thí sinh từ -2 đến +2 theo đơn vị 
logic. 
Câu hỏi trắc nghiệm phân thành 3 
nhóm chính: Nhóm câu hỏi có độ khó 
trung bình, nhóm câu hỏi dễ và nhóm câu 
hỏi rất dễ. 
- Nhóm câu hỏi có độ khó trung bình: 
36, 47, 24, 11, 29, 44, 8, 4, 3, 42, 21, 33, 38. 
- Nhóm câu hỏi dễ: 9, 16, 30, 26, 31, 5, 
48, 7, 13, 32, 49, 6, 27, 40, 46, 17, 14, 23, 
37, 1, 18, 2, 10, 20, 22, 35. 
- Nhóm có câu hỏi quá dễ: 43, 19, 34, 
28, 41, 50, 12, 15, 25, 39. 
Nhiều thí sinh (16/85 thí sinh) có năng 
lực cao hơn câu hỏi có độ khó cao nhất. 
Ngược lại, nhiều câu hỏi ở mức độ quá 
dễ khi độ khó của câu hỏi nằm dưới năng 
lực của tất cả thí sinh tham gia kiểm tra 
(các câu hỏi 43, 28, 41, 50, 12, 15, 25, 39). 
KẾT LUẬN 
Từ kết quả phân tích các đặc tính của 
câu hỏi bằng lý thuyết đáp ứng IRT (mức 
độ phù hợp mô hình, độ tin cậy, độ giá trị, 
độ phân biệt và phân bố độ khó của câu 
hỏi với năng lực thí sinh, đường cong đặc 
trưng câu hỏi) kết hợp ý kiến chuyên gia, 
chúng tôi rút ra một số kết luận: 
- Đề thi phù hợp với mô hình Rash, có 
độ giá trị và độ tin cậy cao. Tuy nhiên, đề 
thi còn dễ so với năng lực của thí sinh, 
thể hiện qua việc nhiều thí sinh (16/85) có 
năng lực vượt qua mức độ khó của câu 
hỏi và có 14/50 câu hỏi có mức độ khó 
dưới năng lực của tất cả các thí sinh. 
- Phần mềm Conquest hỗ trợ việc 
phân tích đánh giá chất lượng câu hỏi 
trắc nghiệm và đề thi trắc nghiệm rất hiệu 
quả theo lý thuyết khảo thí hiện đại. Qua 
đó giúp giảng viên và các nhà quản lý lựa 
chọn được những câu hỏi tốt, đề xuất 
những câu hỏi cần chỉnh sửa và loại bỏ 
những câu hỏi không chất lượng, từ đó 
nâng cao chất lượng ngân hàng câu hỏi, 
góp phần đánh giá đúng năng lực của 
người học, nâng cao chất lượng đào tạo. 
TÀI LIỆU THAM KHẢO 
1. Lâm Quang Thiệp. Đo lường và đánh 
giá hoạt động học tập trong nhà trường. NXB 
Đại học Sư phạm. Hà Nội 2012. 
2. Lord FM. Tài liệu dịch: Psychometrika - 
Mối quan hệ giữa độ tin cậy của câu hỏi đa 
lựa chọn và phân bổ độ khó của câu hỏi 1952; 
18:181-194. 
3. Wu M, Adams R. Applying the Rasch 
Model to Psycho-social Measurement: A practical 
approach. Tài liệu tập huấn Thiết kế công cụ 
đánh giá do Ngân hàng Thế giới phối hợp với 
ACER tổ chức năm 2007-2008 tại Việt Nam. 
2007. 
4. Brennan LR. Educational Measurement 
(4th ed.). American Council on Education. 
Washington DC 2006. 
5. Harris D. Comparison of 1-, 2-, and 
3-paramater ITR models. A module in NCME 
series of Instructional Topics in Educational 
Measurement. NCME Journal of Educational 
Measurement: Issues and Practices 1989; 35-41. 
6. Margaret L, Wu Raymond J, Adams 
Mark R, Wilson Samuel A Haldane. ACER 
Conquest version 2.0: Generalised item response 
modelling software. ACER Press 2007. 
7. Messick S. Validity of psychological 
assessment: Validation of inferences from 
persons’ responses and performances as 
scientific inquiry into score meaning. American 
Psychologist 1995; 50:741-749. 
8. Rasch G. Probablistic models for some 
intelligence and attainment tests. Danish 
Institute for Educational Research. Copenhagen, 
Denmark 1960. 

File đính kèm:

  • pdfphan_tich_danh_gia_cau_hoi_va_de_thi_trac_nghiem_khach_quan.pdf