DỮ LIỆU LỚN - Trang 38

cải tiến trở nên dễ dàng hơn và ít tốn kém hơn. Kiểm tra chất
lượng toàn diện lúc đầu đòi hỏi phải nhìn vào từng sản phẩm
đơn lẻ đi ra từ băng chuyền; bây giờ một mẫu ngẫu nhiên để
kiểm tra cho một loạt sản phẩm là đủ. Tương tự như vậy,
phương pháp mới đã mở ra các cuộc khảo sát người tiêu dùng
trong bán lẻ và các cuộc thăm dò trong chính trị. Nó đã chuyển
đổi một phần đáng kể những gì chúng ta vẫn gọi là các ngành
nhân văn trở thành các ngành khoa học xã hội.

Lấy mẫu ngẫu nhiên đã là một thành công lớn và là xương sống
của đo lường hiện đại có quy mô lớn. Nhưng nó chỉ là một
đường tắt, một lựa chọn tốt thứ hai để thu thập và phân tích tập
dữ liệu đầy đủ. Nó đi kèm với một số điểm yếu cố hữu. Độ chính
xác của nó phụ thuộc vào việc đảm bảo tính ngẫu nhiên khi thu
thập dữ liệu mẫu, nhưng đạt được ngẫu nhiên như vậy là khó
khăn. Những thành kiến có hệ thống trong cách thức dữ liệu
được thu thập có thể dẫn đến các kết quả ngoại suy rất sai.

Có những dẫn chứng cho những vấn đề như vậy trong phỏng
vấn bầu cử sử dụng điện thoại cố định. Mẩu bị thành kiến đối
với những người chỉ sử dụng điện thoại di động (những người
trẻ hơn và tự do hơn), như nhà thống kê Nate Silver đã chỉ ra.
Điều này đã dẫn đến những dự đoán bầu cử không chính xác.
Trong cuộc bầu cử tổng thống năm 2008 giữa Barack Obama và
John McCain, các tổ chức thăm dò chính của Gallup, Pew, và
ABC/Washington Post tìm thấy sự khác biệt từ một đến ba điểm
phần trăm, khi họ thăm dò có và không có sự điều chỉnh cho
người sử dụng điện thoại di động - một biên độ đáng kể nếu xét
tới độ sát sao của cuộc đua.

Rắc rối nhất là lấy mẫu ngẫu nhiên không dễ dàng mở rộng
được để bao gồm các tiểu thể loại, vì khi chia kết quả thành các
nhóm con nhỏ hơn sẽ làm tăng khả năng dự đoán sai. Thật dễ

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.