Rõ ràng đó là một dấu hiệu. Trong mọi khả năng có thể xảy ra, bạn thường
không có đủ thời gian bởi vì các bài kiểm tra sẽ được chuyển đi ngay sau
khi kết thúc giờ kiểm tra. Vì vậy những gì bạn có thể làm là lựa chọn một
chuỗi từ 8-10 câu hỏi khó và điền vào các câu trả lời đúng cho một nửa
hoặc hai phần ba số học trò. Bạn có thể dễ dàng nhớ đáp án đúng, và sẽ
nhanh hơn rất nhiều so với việc tẩy xoá và sửa từng bài kiểm tra của học
sinh. Bạn có thể nghĩ cách tập trung công việc của mình vào phần cuối bài
kiểm tra, phần thường có các câu hỏi khó hơn những câu hỏi phía trên.
Bằng cách này, bạn hầu như có thể bù đắp điểm số của những câu trả lời
đúng cho những câu trả lời sai.
Nếu kinh tế học là một ngành khoa học chủ yếu quan tâm tới các động
cơ thì thật may mắn khi cũng sử dụng các công cụ thống kê để đo lường
cách thức mà người ta phản ứng lại với những động cơ đó. Tất cả những gì
bạn cần là sử dụng dữ liệu.
Trong trường hợp này, hệ thống CPS là bắt buộc. Một cơ sở dữ liệu
các câu trả lời cho bài kiểm tra được tạo sẵn cho mỗi một học sinh của hệ
thống, các bậc học từ lớp ba tới lớp bảy và từ năm 1993 đến năm 2000. Cơ
sở dữ liệu này đã lên đến khoảng 30.000 học sinh mỗi bậc học mỗi năm,
hơn 700.000 bộ câu trả lời cho bài thi và gần 100 triệu câu trả lời. Số liệu
được sắp xếp theo lớp học, đã bao gồm bài kiểm tra của mỗi học sinh dành
cho các môn toán và bài đọc. (Những bài kiểm tra giấy thực tế không còn
nữa; chúng thường được huỷ ngay sau khi kiểm tra xong). Dữ liệu cũng
thường bao gồm một số thông tin về từng giáo viên và thông tin về các học
sinh, cũng như điểm số thi trước đây và sau này của học sinh đó − những
thông tin đó sẽ chứng minh một nhân tố chính để phát hiện gian lận của
giáo viên.
Bây giờ là lúc để xây dựng một thuật toán mà có thể nó sẽ làm rối
những kết luận từ kho dữ liệu này. Lớp học của một giáo viên gian lận sẽ
như thế nào?