DỮ LIỆU LỚN - Trang 71

số lượng lớn dữ liệu bị thiếu”. Ma trận thông tin do ZestFinance
tập hợp là vô cùng tản mạn, một tập tin cơ sở dữ liệu đầy ắp
những trường bị thiếu. Vì vậy, công ty “quy trách nhiệm” cho
các dữ liệu bị thiếu. Ví dụ khoảng 10 phần trăm khách hàng của
ZestFinance được liệt kê là đã chết - nhưng hóa ra điều đó chẳng
ảnh hưởng đến việc trả nợ. “Vì vậy, rõ ràng là khi chuẩn bị hủy
diệt những thây ma, hầu hết mọi người cho rằng không có
khoản nợ nào sẽ được hoàn trả. Nhưng từ dữ liệu của chúng tôi,
có vẻ như các thây ma đều trả lại khoản vay của mình”, Merrill
lém lỉnh kể tiếp.

Đổi lại việc sống chung với sự hỗn độn, chúng ta có được những
dịch vụ rất có giá trị, những thứ lẽ ra không thể có ở phạm vi và
quy mô của chúng với những phương pháp và công cụ truyền
thống. Theo một số ước tính thì chỉ 5 phần trăm của tất cả dữ
liệu kỹ thuật số là “có cấu trúc” - nghĩa là ở dạng thích hợp để
đưa vào một cơ sở dữ liệu truyền thống. Nếu không chấp nhận
sự hỗn độn thì 95 phần trăm còn lại của dữ liệu phi cấu trúc,
chẳng hạn các trang web và phim, sẽ hoàn toàn ở trong bóng
tối. Bằng cách cho phép sự không chính xác, chúng ta mở cửa
vào một thế giới đầy những hiểu biết chưa được khai thác.

Xã hội đã thực hiện hai sự đánh đổi ngấm ngầm đã trở nên quen
thuộc trong cách chúng ta ứng xử đến nỗi ta thậm chí không
xem chúng như những sự đánh đổi, mà chỉ như trạng thái tự
nhiên của sự vật. Thứ nhất, chúng ta cho rằng mình không thể
sử dụng được thật nhiều dữ liệu, vì vậy chúng ta không sử dụng.
Nhưng sự hạn chế đó ngày càng mất đi ý nghĩa, và có rất nhiều
thứ có thể đạt được nếu sử dụng một cái gì đó tiệm cận N = tất
cả.

Sự đánh đổi thứ hai là về chất lượng của thông tin. Trong kỷ
nguyên của dữ liệu nhỏ, khi chúng ta chỉ thu thập được một ít

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.