sự cân bằng. Để bù đắp cho sự nới lỏng về tiêu chuẩn với các lỗi
cho phép, người ta có thể có được nhiều dữ liệu hơn. Nó không
chỉ mang ý nghĩa “nhiều hơn thì tốt hơn”, mà thật ra đôi khi nó
sẽ là “nhiều hơn thì tốt hơn cả tốt hơn”.
Chúng ta phải đối mặt với nhiều loại hỗn độn khác nhau. Hỗn
độn có thể mang một ý nghĩa đơn giản là khả năng sai sót tăng
lên khi bạn thêm điểm dữ liệu. Khi số lượng tăng lên gấp hàng
ngàn lần thì khả năng một số trong đó có thể sai cũng tăng lên.
Nhưng bạn cũng có thể làm tăng hỗn độn bằng cách kết hợp
nhiều loại thông tin khác nhau từ các nguồn khác nhau, không
luôn luôn tương thích với nhau một cách hoàn hảo. Ví dụ, nếu
sử dụng phần mềm nhận dạng giọng nói để mô tả các khiếu nại
đến một trung tâm tiếp nhận cuộc gọi, và so sánh dữ liệu này
với khi dùng nhân viên để xử lý các cuộc gọi, người ta có thể có
được một sự hình dung thực tế, tuy không hoàn hảo nhưng hữu
ích. Hỗn độn cũng có thể tham chiếu tới sự không thống nhất
định dạng, trong đó các dữ liệu cần được “làm sạch” trước khi
được xử lý. Ví dụ chuyên gia dữ liệu lớn DJ Patil nhận xét từ viết
tắt IBM có rất nhiều cách diễn đạt, như hoặc Phòng thí nghiệm
T.J. Watson, hoặc International Business Machines. Và hỗn độn
có thể phát sinh khi chúng ta trích xuất hoặc xử lý dữ liệu, vì
khi làm như vậy, chúng ta đang chuyển đổi nó, biến nó thành
một cái gì đó khác, chẳng hạn như khi chúng ta thực hiện phân
tích cảm nghĩ các tin nhắn Twitter để dự đoán doanh thu phòng
vé của Hollywood. Chính bản thân sự hỗn độn cũng mang tính
hỗn độn.
Giả sử chúng ta cần đo nhiệt độ trong một vườn nho. Nếu chúng
ta chỉ có một cảm biến nhiệt độ cho toàn bộ lô đất, chúng ta phải
chắc chắn rằng nó chính xác và hoạt động được tại mọi thời
điểm: sự hỗn độn không được tồn tại. Ngược lại, nếu chúng ta có
một cảm biến cho mỗi cây trong vườn hàng trăm cây nho,