một cỗ máy, nhưng khách hàng lại là con người, và con người có
xu hướng muốn tìm lý do, muốn hiểu.
Và việc khai thác dữ liệu làm lộ ra những thoi vàng mà Rudin hy
vọng tìm thấy. Sau khi định dạng dữ liệu hỗn độn để máy tính
có thể xử lý được, nhóm nghiên cứu bắt đầu với 106 dự đoán
của một thảm họa hố ga lớn. Sau đó họ cô đọng danh sách cho
một số ít các dấu hiệu mạnh nhất. Trong một thử nghiệm với
mạng lưới điện của Bronx, họ đã phân tích tất cả các dữ liệu có
trong tay, đến giữa năm 2008. Sau đó, họ sử dụng dữ liệu đó để
dư đoán các điểm có vấn đề cho năm 2009. Nó đã đạt kết quả
xuất sắc. Lần này nhóm 10 phần trăm hố ga nằm trên cùng
trong danh sách của họ đã bao gồm tới 44 phần trăm các hố ga
mà sau đó gặp sự cố nghiêm trọng.
Xét cho cùng, các yếu tố quan trọng nhất là tuổi của các dây cáp
và liệu các hố ga đã trải qua những sự cố trước đó chưa. Những
điều này hóa ra rất hữu ích, vì nó có nghĩa là dây cáp đồng của
Con Edison có thể dễ dàng làm cơ sở cho việc xếp thứ hạng. Mà
khoan. Tuổi và những sự cố trước đây sao? Chẳng phải chuyện
đó hiển nhiên quá còn gì? Vâng, có và không. Một mặt, như nhà
lý thuyết mạng Duncan Watts thường nói, “Một khi bạn đã biết
câu trả lời thì mọi thứ đều tỏ ra hiển nhiên cả”. Nhưng mặt khác,
điều quan trọng là phải nhớ rằng ngay từ đầu đã có tới 106 kiểu
dự đoán trong mô hình. Việc đánh giá tầm quan trọng của
chúng, sau đó xếp thứ tự ưu tiên cho hàng chục ngàn hố ga, mỗi
hố với vô số biến đã tạo ra đến hàng triệu điểm dữ liệu, chưa kể
bản thân dữ liệu không phải ở dạng có thể phân tích được.
Chuyện này chẳng hề hiển nhiên hay rõ ràng.
Trường hợp những hố ga nổ nêu bật lên một điểm là dữ liệu
đang được đưa vào sử dụng theo một cách mới để giải quyết các
bài toán khó khăn trong thế-giới-thực. Tuy nhiên để đạt được