Tuy nhiên, quan điểm này của lưu trữ và phân tích ngày càng
mâu thuẫn với thực tế. Ngày nay chúng ta có những lượng lớn
dữ liệu với các loại và chất lượng khác nhau. Hiếm khi nó phù
hợp với những phân loại được xác định trước một cách quy củ.
Và các câu hỏi chúng ta muốn hỏi thường chỉ xuất hiện khi
chúng ta thu thập và làm việc với các dữ liệu mình có.
Những thực tế này đã dẫn đến những thiết kế cơ sở dữ liệu mới
mẻ phá vỡ các nguyên tắc cũ - những nguyên tắc của bản ghi và
các trường được thiết đặt trước, phản ánh những phân cấp được
xác định một cách quy củ của thông tin. Ngôn ngữ phổ biến
nhất để truy cập cơ sở dữ liệu từ lâu đã là SQL, hoặc “ngôn ngữ
truy vấn có cấu trúc”. Cái tên gợi lên sự cứng nhắc của nó.
Nhưng sự thay đổi lớn trong những năm gần đây là hướng tới
một cái gì đó gọi là NoSQL, không đòi hỏi một cấu trúc bản ghi
cài đặt sẵn để làm việc. Nó chấp nhận dữ liệu với kiểu và kích
thước khác nhau và giúp tìm kiếm chúng thành công. Để đổi lại
việc cho phép sự hỗn độn về cấu trúc, những thiết kế cơ sở dữ
liệu này đòi hỏi nhiều tài nguyên xử lý và dung lượng lưu trữ
hơn. Tuy nhiên, đó là một sự cân bằng mà chúng ta có thể kham
nổi, trên cơ sở chi phí cho lưu trữ và xử lý đã giảm mạnh.
Pat Helland, một trong những chuyên gia hàng đầu thế giới về
thiết kế cơ sở dữ liệu, mô tả sự thay đổi cơ bản này trong một bài
báo có tựa đề “Nếu bạn có quá nhiều dữ liệu, thì ‘đủ tốt’ là đủ
tốt” (“if You Have Too Much Data, Then ‘Good enough’ is Good
enough.”). Sau khi xác định một số nguyên tắc cốt lõi của thiết
kế truyền thống mà nay đã bị xói mòn bởi dữ liệu lộn xộn với
nguồn gốc và độ chính xác khác nhau, ông đưa ra các hệ quả:
“Chúng ta không còn có thể giả vờ rằng mình đang sống trong
một thế giới sạch”. Việc xử lý dữ liệu lớn đòi hỏi một sự mất mát
thông tin không thể tránh khỏi - Helland gọi đó là “tổn hao”.
Nhưng bù lại, nó cho ra một kết quả nhanh chóng. “Nếu chúng