phiên bản duy nhất của sự thật chẳng những không thể tồn tại,
mà việc theo đuổi nó là một sự điên rồ. Để gặt hái những lợi ích
của việc khai thác dữ liệu với quy mô, chúng ta phải chấp nhận
sự hỗn độn như một điều hiển nhiên, chứ không phải một cái gì
đó chúng ta nên cố gắng loại bỏ.
Thậm chí chúng ta đang nhìn thấy những đặc tính của sự
không chính xác xâm nhập vào một trong những lĩnh vực ít cỏi
mở nhất đối với nó: thiết kế cơ sở dữ liệu. Các hệ thống cơ sở dữ
liệu truyền thống đòi hỏi dữ liệu phải có cấu trúc và tính chính
xác rất cao. Dữ liệu không chỉ đơn giản được lưu trữ, chúng được
chia thành “bản ghi” có chứa các trường. Mỗi trường lưu trữ
thông tin với một kiểu và một độ dài nhất định. Ví dụ nếu một
trường có độ dài bảy chữ số, khi đó số lượng 10 triệu hoặc lớn
hơn sẽ không thể ghi lại được. Hoặc nếu muốn nhập cụm từ
“không xác định” vào một trường cho số điện thoại cũng không
thể được. Cấu trúc của cơ sở dữ liệu phải được thay đổi để có thể
chấp nhận những mục kiểu này. Chúng ta vẫn phải đánh vật với
những hạn chế như vậy trên máy tính và điện thoại thông minh
của mình, khi phần mềm không chấp nhận các dữ liệu chúng ta
muốn nhập.
Các chỉ số truyền thống cũng được xác định trước, và như vậy
hạn chế những gì người ta có thể tìm kiếm. Khi thêm một chỉ số
mới thì phải tạo lập lại từ đầu, rất tốn thời gian. Những cơ sở dữ
liệu thông thường, còn gọi là cơ sở dữ liệu quan hệ, được thiết kế
cho một thế giới trong đó dữ liệu là thưa thót, và do đó có thể và
sẽ được sửa chữa cẩn thận. Đó là một thế giới mà các câu hỏi
người ta muốn trả lời bằng cách sử dụng dữ liệu phải rõ ràng
ngay từ đầu, để cơ sở dữ liệu được thiết kế nhằm trả lời chúng -
và chỉ có chúng - một cách hiệu quả.