DỮ LIỆU LỚN - Trang 46

phải sử dụng mẫu nào. Ngược lại, Levitt và đồng nghiệp của ông
đã phát hiện ra nó bằng cách sử dụng một tập hợp dữ liệu lớn
hơn nhiều - cố gắng kiểm tra toàn bộ các trận đấu. Một cuộc
điều tra sử dụng dữ liệu lớn gần giống như một chuyên đi câu:
ngay từ đầu nó đã không rõ ràng, kể cả chuyện liệu có câu được
món nào chăng và món đó có thể là cái gì.

Bộ dữ liệu không cần lớn tới tera byte. Trong trường hợp sumo,
toàn bộ bộ dữ liệu chứa đựng ít bit hơn so với một bức ảnh kỹ
thuật số điển hình ngày nay. Nhưng vì phân tích dữ-liệu-lớn, nó
xem xét nhiều hơn so với một mẫu ngẫu nhiên điển hình. Khi
nói về dữ liệu lớn, chúng ta có ý nói “lớn” trong tương đối hơn là
trong tuyệt đối: tương đối so với tập hợp toàn diện của dữ liệu.

Trong một thời gian dài, lấy mẫu ngẫu nhiên là một cách đi tắt
hiệu quả. Nó làm cho việc phân tích các bài toán dữ liệu lớn
nhất thành khả hiện trong thời kỳ tiền kỹ thuật số. Nhưng cũng
giống như khi chuyển đổi một tấm ảnh hoặc bài hát kỹ thuật số
vào một tập tin nhỏ hơn, thông tin bị mất khi lấy mẫu. Việc có
đầy đủ (hoặc gần đầy đủ) tập dữ liệu sẽ tạo điều kiện tốt hơn để
khám phá, để nhìn vào dữ liệu từ các góc độ khác nhau hoặc để
xem xét kỹ hơn các khía cạnh nhất định của nó. Một cách so
sánh phù hợp có thể là máy ảnh Lytro, không chỉ chụp một mặt
phảng ánh sáng đơn nhất, như với những máy ảnh thông
thường, mà chụp tất cả các tia từ toàn bộ trường ánh sáng,
khoảng 11 triệu phần tử. Người chụp hình sau đó có thể quyết
định tập trung vào yếu tố nào của ảnh trong tập tin kỹ thuật số.
Như vậy, không cần phải tập trung ngay từ đầu, bởi việc thu
thập tất cả các thông tin cho phép có thể làm điều đó về sau.

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.