DỮ LIỆU LỚN - Trang 42

động; máy tính có thể nghiền các con số này ngày càng dễ dàng
hơn.

Tuy nhiên, việc lấy mẫu đi kèm với một chi phí mà từ lâu đã
được thừa nhận nhưng bị đẩy sang một bên: Nó làm mất đi chi
tiết. Trong một số trường hợp, rõ ràng không có cách nào khác
ngoài lấy mẫu. Tuy nhiên, trong nhiều lĩnh vực đang diễn ra
một sự thay đổi từ thu thập một số dữ liệu sang thu thập càng
nhiều càng tốt, và nếu có thể, thì lấy tất cả mọi thứ: N = tất cả.

Như chúng ta đã thấy, sử dụng N = tất cả có nghĩa chúng ta có
thể đi sâu vào dữ liệu; mẫu không thể làm được điều đó. Thứ
hai, hãy nhớ lại rằng trong ví dụ về lấy mẫu ở trên, chúng ta chỉ
có một biên độ 3 phần trăm lỗi khi ngoại suy cho toàn bộ dân số.
Đối với một số tình huống, biên độ lỗi đó là tốt. Nhưng bạn bị
mất các chi tiết, độ chi tiết, khả năng xem xét kỹ hơn ở những
phân nhóm nhất định. Một phân phối chuẩn, than ôi, chỉ đạt
mức tiêu chuẩn. Thông thường, những điều thực sự thú vị trong
cuộc sống lại được tìm thấy ở những nơi mà mẫu không nắm
bắt được đầy đủ.

Do đó Xu hướng Dịch cúm của Google không dựa trên một mẫu
ngẫu nhiên nhỏ, mà thay vào đó sử dụng hàng tỷ truy vấn
Internet ở Mỹ. Việc sử dụng tất cả .dữ liệu chứ không phải chỉ
một mẫu nhỏ đã cải thiện việc phân tích sâu xuống tới mức dự
đoán được sự lây lan của bệnh cúm trong một thành phố cụ thể
chứ không phải chỉ trong một tiểu bang hay toàn bộ quốc gia.

Oren Etzioni của Farecast ban đầu đã sử dụng 12 ngàn điểm dữ
liệu, một mẫu, và nó đã hoạt động tốt.

Nhưng khi Etzioni thêm nhiều dữ liệu hơn, chất lượng của các
dự báo được cải thiện. Cuối cùng, Farecast đã sử dụng các hồ sơ
chuyến bay nội địa của hầu hết các tuyến đường trong cả một

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.