ta bị tổn hao một số câu trả lời cũng không sao - đó vẫn luôn là
những gì việc kinh doanh cần”, Helland kết luận.
Thiết kế cơ sở dữ liệu truyền thống hứa hẹn sẽ cung cấp những
kết quả luôn luôn nhất quán. Ví dụ nếu yêu cầu số dư tài khoản
ngân hàng, bạn trông đợi sẽ nhận được con số chính xác. Và nếu
yêu cầu nó một vài giây sau đó, bạn muốn hệ thống đưa ra cùng
kết quả, với giả thuyết là không có thay đổi gì. Tuy nhiên, khi
lượng dữ liệu thu thập phát triển và lượng người truy cập hệ
thống tăng lên thì việc duy trì sự nhất quán này trở nên khó
khăn hơn.
Các bộ dữ liệu lớn không tồn tại ở một nơi, chúng có xu hướng
được phân bổ trên nhiều ổ đĩa cứng và máy tính. Để đảm bảo độ
tin cậy và tốc độ, một bản ghi có thể được lưu trữ ở hai hoặc ba
địa điểm khác nhau. Nếu bạn cập nhật bản ghi tại một địa điểm,
dữ liệu ở các địa điểm khác sẽ không còn đúng nữa cho đến khi
bạn cũng cập nhật nó. Trong khi các hệ thống truyền thống có
một độ trễ để thực hiện tất cả các cập nhật, thì điều này không
thực tế với dữ liệu được phân bổ rộng rãi và máy chủ phải bận
rộn với hàng chục ngàn truy vấn mỗi giây. Khi đó, việc chấp
nhận tính hỗn độn chính là một dạng giải pháp.
Sự thay đổi này được đặc trưng bởi sự phổ biến của Hadoop, một
đối thủ mã nguồn mở của hệ thống MapReduce của Google, rất
tốt khi xử lý những lượng lớn dữ liệu. Nó thực hiện điều này
bằng cách chia dữ liệu thành những phần nhỏ hơn và chia
chúng ra cho các máy khác. Vì dự kiến phần cứng sẽ hỏng hóc,
nên nó tạo ra sự dư thừa. Nó đặt giả thuyết dữ liệu không được
sạch sẽ và trật tự - trong thực tế, nó cho rằng dữ liệu là quá lớn
để được làm sạch trước khi xử lý. Mặc dù việc phân tích dữ liệu
điển hình đòi hỏi một chuỗi thao tác được gọi là “trích xuất,
chuyển giao, và tải”, hoặc ETL (extract, transfer, and load) để