dàng hiểu lý do. Giả sử bạn thăm dò ý kiến một mẫu ngẫu nhiên
của 1.000 người về ý định bỏ phiếu của họ trong cuộc bầu cử sắp
tói. Nếu mẫu của bạn là đủ ngẫu nhiên, khả năng có thể xảy ra là
ý kiến của toàn bộ dân số sẽ ở trong phạm vi 3 phần trăm của
các quan điểm trong mẫu. Nhưng sẽ ra sao nếu cộng hoặc trừ 3
phần trăm là không đủ chính xác? Hoặc sẽ ra sao nếu sau đó bạn
muốn chia nhóm thành những nhóm nhỏ hơn, với giới tính, địa
lý, hoặc thu nhập?
Và điều gì sẽ xảy ra nếu bạn muốn kết hợp các phân nhóm này
để nhắm tới một nhóm dân số thích hợp? Trong một mẫu tổng
thể của 1.000 người, một phân nhóm như “nữ cử tri giàu có ở
vùng Đông Bắc” sẽ nhỏ hơn 100 nhiều. Chỉ sử dụng vài chục
quan sát để dự đoán những ý định bỏ phiếu của tất cả các nữ cử
tri giàu có ở vùng Đông Bắc sẽ là không chính xác ngay cả với sự
ngẫu nhiên gần như hoàn hảo. Và những thành kiến nhỏ nhất
trong mẫu tổng thể sẽ làm cho các lỗi trở thành rõ rệt hơn ở mức
độ phân nhóm.
Do đó, việc lấy mẫu một cách nhanh chóng không còn hữu ích
khi bạn muốn đi sâu hơn, để có một cái nhìn gần hơn đối với
một số tiểu thể loại hấp dẫn trong dữ liệu. Những gì hoạt động
được ở tầm vĩ mô lại thất bại hoàn toàn ở tầm vi mô. Lấy mẫu
giống như một bức in ảnh analog. Nó trông đẹp từ một khoảng
cách, nhưng khi bạn ngắm gần hơn, phóng to một chi tiết đặc
biệt thì nó bị mờ. Lấy mẫu cũng đòi hỏi phải lập kế hoạch và
thực hiện cẩn thận. Người ta thường không thể “hỏi” mẫu
những câu hỏi mới nếu chúng chưa được dự liệu ngay từ đầu. Vì
vậy, mặc dù là một đường tắt rất hữu ích, sự đánh đổi ở đây quả
thực chỉ đơn thuần là một đường tắt. Khi là một mẫu chứ không
phải tất cả, tập dữ liệu thiếu khả năng mở rộng nhất định hoặc
tính mềm dẻo, theo đó cùng một dữ liệu có thể được phân tích