DỮ LIỆU LỚN - Trang 80

Trong quá khứ, một ai đó tại công ty sẽ cần có linh cảm trước để
thu thập dữ liệu và thử nghiệm ý tưởng. Bây giờ, bởi có quá
nhiều dữ liệu và những công cụ tốt hơn, các mối tương quan có
thể được phát hiện một cách nhanh chóng hơn và ít tốn kém.
(Nhưng cần nói rõ rằng chúng ta phải thận trọng: khi số lượng
các điểm dữ liệu tăng với cấp độ lớn, chúng ta cũng thấy nhiều
mối tương quan giả mạo hơn - những hiện tượng có vẻ như có
mối liên hệ ngay cả khi chúng không phải như vậy. Điều này đòi
hỏi chúng ta phải lưu tâm nhiều hơn, vì chúng ta chỉ mới bắt
đầu đánh giá nó.)

Từ lâu trước khi có dữ liệu lớn, việc phân tích mối tương quan
đã chứng tỏ là có giá trị. Khái niệm này được Ngài Francis
Galton, người anh em họ của Charles Darwin, đưa ra vào năm
1888 sau khi ông nhận thấy một mối quan hệ giữa chiều cao và
chiều dài cánh tay của những người đàn ông. Tính toán học
đằng sau nó là tương đối đơn giản và chắc chắn - đó hóa ra là
một trong những đặc tính quan trọng, và đã giúp làm cho nó trở
thành một trong những phép đo thống kê được sử dụng rộng
rãi. Tuy nhiên, trước dữ liệu lớn, tính hữu dụng của nó bị hạn
chế. Vì dữ liệu khan hiếm và việc thu thập tốn kém, nên các nhà
thống kê thường chọn một phương tiện đo lường thay thế, sau
đó thu thập các dữ liệu có liên quan và thực hiện phân tích
tương quan để tìm hiểu xem phương tiện đó tốt tới đâu. Nhưng
làm thế nào để chọn phương tiện đúng?

Để hướng dẫn họ, các chuyên gia sử dụng những giả thuyết dựa
trên các lý thuyết - những ý tưởng trừu tượng về phương thức
hoạt động của sự vật. Dựa trên những giả thuyết như vậy, họ
thu thập dữ liệu và sử dụng phân tích tương quan để xác minh
xem các phương tiện thay thế có phù hợp không. Nếu chúng
không phù hợp, sau đó các nhà nghiên cứu thường cố gắng kiên
định thực hiện lại, vì biết đâu các dữ liệu đã bị thu thập một

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.