Anh ban đầu của IBM vào năm 1954, một người có thể dễ dàng
hiểu tại sao phần mềm lại thay thế một từ bằng một từ khác.
Nhưng Google Translate kết hợp hàng tỷ trang dịch vào đánh
giá của nó như liệu từ tiếng Anh “light” cần được dịch thành
“lumière (ánh sáng)” hay “léger (nhẹ)” trong tiếng Pháp (có
nghĩa là liệu từ đó đề cập đến độ sáng hay trọng lượng). Một con
người không thể nào lần ra những lý do chính xác cho các lựa
chọn từ ngữ của chương trình bởi vì chúng được dựa trên số
lượng đồ sộ của dữ liệu và rất nhiều tính toán thống kê.
Dữ liệu lớn hoạt động ở quy mô vượt quá sự hiểu biết thông
thường của chúng ta. Ví dụ mối liên hệ Google đã phát hiện giữa
một số ít các thuật ngữ tìm kiếm và dịch cúm là kết quả của thử
nghiệm 450 triệu mô hình toán học. Ngược lại, Cynthia Rudin
ban đầu đã thiết kế 106 dự đoán cho việc liệu một hố ga có thể
phát nổ, và cô có thể giải thích cho các nhà quản lý của Con
Edison lý do chương trình của cô lại ưu tiên các địa điểm kiểm
tra như nó đã làm. Tính chất “có thể giải thích được” là vô cùng
quan trọng đối với chúng ta, những người có xu hướng muốn
biết tại sao, chứ không chỉ là cái gì. Nhưng điều gì sẽ xảy ra nếu
thay vì 106 dự đoán, hệ thống tự động đưa ra con số 601 dự
đoán, mà phần lớn trong đó có mức ưu tiên rất thấp, nhưng khi
gộp với nhau lại cải thiện độ chính xác của mô hình? Cơ sở cho
bất kỳ dự đoán nào cũng có thể vô cùng phức tạp. Vậy cô ấy có
thể nói gì với các nhà quản lý để thuyết phục họ tái phân bổ
ngân sách hạn chế của họ?
Trong những kịch bản này, chúng ta có thể nhìn thấy rủi ro rằng
các dự đoán dữ-liệu-lớn, cùng các thuật toán và các bộ dữ liệu
phía sau chúng, sẽ trở thành những hộp đen chẳng hề có trách
nhiệm gì với chúng ta, chẳng có khả năng truy xuất nguồn gốc,
chẳng khiến chúng ta tự tin. Để ngăn chặn điều này, dữ liệu lớn
sẽ đòi hỏi sự giám sát và minh bạch, mà đến phiên chúng lại đòi