DỮ LIỆU LỚN - Trang 36

trong dữ liệu: số lượng thông tin được thu thập đã hoàn toàn
tràn ngập các công cụ được sử dụng để xử lý chúng, và người ta
bắt buộc cần tới những kỹ thuật mới. Trong những năm 1880
tình hình nghiêm trọng tới mức Cục Điều tra Dân số ký hợp
đồng với Herman Hollerith, một nhà phát minh người Mỹ, để sử
dụng ý tưởng của ông về thẻ đục lỗ và máy lập bảng cho điều tra
dân số năm 1890.

Với nỗ lực rất lớn, ông đã thành công trong việc rút ngắn thời
gian lập bảng từ tám năm xuống dưới một năm. Đó là một
thành tích tuyệt vời, đánh dấu việc bắt đầu xử lý dữ liệu tự động
(và cung cấp nền tảng cho những gì sau này trở thành IBM).

Nhưng như một phương pháp thu nhận và phân tích dữ liệu
lớn, nó vẫn còn rất tốn kém. Rốt cuộc, mỗi người tại Hoa Kỳ đều
phải điền vào một mẫu đơn và các thông tin được chuyển vào
một thẻ đục lỗ, được sử dụng để lập bảng. Với các phương pháp
tốn kém như vậy, thật khó tưởng tượng nổi có thể thực hiện
một cuộc điều tra dân số trong bất kỳ khoảng thời gian nào
ngắn hơn một thập kỷ, mặc dù sự chậm trễ là không có ích lợi
cho một quốc gia đang phát triển nhảy vọt.

Vấn đề là ở chỗ: Sử dụng tất cả dữ liệu, hay chỉ một chút ít? Lấy
tất cả dữ liệu về những gì đang được đo đạc chắc chắn là điều
hợp lý nhất. Nó chỉ không phải lúc nào cũng thực tế khi quy mô
là rất lớn. Nhưng làm thế nào để chọn một mẫu? Một số người
cho rằng việc xây dựng có mục đích một mẫu đại diện được cho
toàn bộ sẽ là cách phù hợp nhất. Nhưng vào năm 1934, Jerzy
Neyman, một nhà thống kê Ba Lan, đã chứng minh một cách ấn
tượng rằng cách tiếp cận như vậy dẫn đến những sai sót rất lớn.
Chìa khóa để tránh chúng là nhằm vào sự ngẫu nhiên để chọn
thành phần đưa vào mẫu.

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.