điều hành của Xoom, giải thích. Xét riêng thì mỗi giao dịch có
vẻ hợp pháp. Nhưng cuối cùng thì hóa ra chúng đến từ một
nhóm tội phạm. Cách duy nhất để phát hiện sự bất thường là
khảo sát tất cả dữ liệu - việc lấy mẫu có thể đã bỏ sót nó.
Sử dụng tất cả các dữ liệu không nhất thiết phải là một công
việc rất lớn. Dữ liệu lớn không cần thiết phải lớn một cách tuyệt
đối, mặc dù thường thì nó là như vậy. Xu hướng Dịch cúm của
Google điều chỉnh các dự đoán của nó trên hàng trăm triệu bài
tập mô hình hóa toán học sử dụng hàng tỷ điểm dữ liệu. Việc
xác định trình tự đầy đủ của một gen người đưa đến con số ba tỷ
cặp cơ sở. Nhưng chỉ xét riêng con số tuyệt đối của các điểm dữ
liệu, kích thước của bộ dữ liệu, thì không phải là điều làm cho
những thứ này thành những ví dụ của dữ liệu lớn. Thứ xếp loại
chúng thành dữ liệu lớn là thay vì sử dụng đường tắt của một
mẫu ngẫu nhiên, cả Xu hướng Dịch cúm và các bác sĩ của Steve
Jobs đều đã sử dụng toàn bộ dữ liệu ở mức nhiều nhất mà họ có
thể.
Phát hiện ra chuyện gian lận trong thi đấu của môn thể thao
quốc gia của Nhật Bản, đấu vật sumo, là một minh họa hay tại
sao sử dụng N = tất cả không nhất thiết có nghĩa là lớn. Những
trận đấu bị dàn xếp vốn luôn bị buộc tội phá hoại môn thể thao
của các hoàng đế, và người ta luôn hùng hồn chối biến. Steven
Levitt, một nhà kinh tế tại Đại học Chicago, đã xem xét những
sai trái trong bộ hồ sơ hơn một thập kỷ của các trận đấu gần đây
- tất cả các trận đấu. Trong một bài nghiên cứu thú vị được công
bố trên tờ American Economic Review và được đăng lại trong
cuốn sách Freakonomics, ông và một đồng nghiệp đã mô tả tính
hữu ích của việc khảo sát nhiều dữ liệu như vậy.
Họ đã phân tích 11 năm số liệu của các trận đấu sumo, hơn
64.000 trận đấu vật, để săn lùng những sự bất thường. Và họ đã