đặt trước năm 1930. Mặc dù hồ sơ được lưu giữ từ những năm
1880, nhưng chúng ở những dạng rất hỗn độn - và chưa bao giờ
được tạo ra để phục vụ cho việc phân tích dữ liệu. Chúng đến từ
bộ phận kế toán hoặc điều phối khẩn cấp nên được viết tay trên
các “phiếu sự cố”. Nếu chỉ nói rằng dữ liệu hỗn độn nghĩa là đã
nói giảm một cách trắng trợn. Một ví dụ: các nhà thống kê
tường trình rằng cái gọi là “tủ điện”, một bộ phận phổ biến của
cơ sở hạ tầng, có ít nhất 38 biến thể, chẳng hạn SB, S, S/B, S.B, S?
B, S.B., SBX, S/BX, SB/X, S/XB, /SBX, S.BX, S&BX, S?BX, S BX,
S/B/X, S BOX, SVBX, SERV BX, SERV-BOX, SERV/BOX, và SERVICE
BOX. Một thuật toán máy tính phải hình dung ra tất cả những
thứ đó.
“Các dữ liệu là vô cùng thô”, người đứng đầu dự án Cynthia
Rudin, nhà thống kê và khai thác dữ liệu, nay ở MIT, nhớ lại. “Tôi
đã có một bản in của tất cả các bảng cáp khác nhau. Nếu mở ra,
bạn thậm chí không thể giữ nó mà không bị rơi xuống sàn nhà.
Và bạn phải tìm được ý nghĩa từ tất cả những thứ đó - để đào bới
chúng lên mà tìm vàng, hoặc làm bất cứ điều gì để có được một
mô hình dự đoán thực sự tốt”.
Để làm việc, Rudin và nhóm của cô đã phải sử dụng tất cả các dữ
liệu có sẵn, không chỉ là một mẫu, vì bất kỳ cái nào trong số
hàng chục ngàn hố ga đều có thể là một quả bom nổ chậm đang
đếm giờ. Vì vậy, nó nhất thiết hướng đến N = tất cả. Và mặc dù
việc đưa ra được các lý lẽ mang tính nhân quả chắc hẳn rất hay
ho, nhưng điều đó có thể cần cả một thế kỷ và kết quả vẫn sẽ sai
hoặc không đầy đủ. Cách tốt hơn để thực hiện công việc là tìm
các mối tương quan. Rudin ít quan tâm đến tại sao hơn cái nào -
dù cô biết rằng khi nhóm ngồi đối diện các nhà điều hành của
Con Edison, các chuyên viên thống kê phải biện minh cho cơ sở
cách xếp thứ hạng của họ. Các dự đoán có thể được thực hiện bởi