hoảng loạn từ phòng y tá trực vào lúc nửa đêm thông báo rằng
điều cực kỳ bi thảm đã xảy ra và bản năng của họ đã được đặt
không đúng chỗ.
Dữ liệu của McGregor cho thấy rằng sự ổn định của các trẻ thiếu
tháng, thay vì là một dấu hiệu của sự cải thiện, lại giống như sự
bình lặng trước con bão - cứ như cơ thể của trẻ sơ sinh nói cho
các cơ quan nhỏ xíu của mình hãy sẵn sàng cho điều tệ hại sắp
xảy ra. Chúng ta không thể biết chắc chắn, vì những gì dữ liệu
cho thấy là một tương quan, chứ không phải quan hệ nhân quả.
Nhưng chúng ta biết rằng nó đòi hỏi các phương pháp thống kê
được áp dụng cho một lượng lớn các dữ liệu để tiết lộ sự liên hợp
ẩn này. Nếu có ai còn nghi ngờ thì đây: dữ liệu lớn cứu được
nhiều mạng sống.
Ảo tưởng và sự soi sáng
Trong một thế giới dữ-liệu-nhỏ, vì có rất ít dữ liệu, nên cả
những nghiên cứu về nguyên nhân lẫn phân tích tương quan
đều bắt đầu với một giả thuyết, sau đó được kiểm nghiệm để
hoặc thấy sai hoặc xác minh. Nhưng vì cả hai phương pháp đòi
hỏi một giả thuyết để bắt đầu, nên cả hai đều nhạy cảm với
thành kiến và trực giác sai lầm. Và các dữ liệu cần thiết thường
không có sẵn. Ngày nay, với rất nhiều dữ liệu xung quanh và
nhiều hơn nữa sẽ tới, những giả thuyết như vậy không còn quan
trọng đối với phân tích tương quan.
Có một sự khác biệt mới đang dần trở nên quan trọng. Trước
thời dữ liệu lớn, một phần do sức mạnh tính toán không đầy đủ,
nên phần lớn việc phân tích tương quan sử dụng những tập hợp
lớn dữ liệu bị giới hạn vào việc tìm kiếm các mối quan hệ tuyến
tính. Trong thực tế, tất nhiên, nhiều mối quan hệ là phức tạp