kiếm không phổ biến đòi hỏi nhiều dữ liệu. Đa số mọi người sử dụng
Google cho những tìm kiếm không phổ biến và tìm kiếm phổ biến. Việc có
khả năng tìm kiếm dù chỉ là tốt hơn một chút có thể dẫn đến sự cách biệt to
lớn về thị phần và doanh thu.
Vì vậy, khi dữ liệu về mặt kỹ thuật giảm theo hiệu suất quy mô – kết quả
tìm kiếm thứ một tỷ sẽ ít hữu ích cho việc cải thiện công cụ tìm kiếm hơn
kết quả tìm kiếm đầu tiên – từ quan điểm kinh doanh, dữ liệu có thể sẽ có
giá trị nhất nếu bạn có nhiều dữ liệu tốt hơn so với đối thủ cạnh tranh. Một
vài người lập luận rằng nhiều dữ liệu độc đáo sẽ lại những lợi ích không
cân xứng trên thị trường.6 Sự gia tăng lượng dữ liệu mang đến những lợi
ích không cân xứng trên thị trường. Do vậy, từ quan điểm kinh tế, dữ liệu
trong những trường hợp đó đã tăng theo hiệu suất quy mô.
NHỮNG ĐIỂM CHÍNH
• Máy dự đoán tận dụng ba loại dữ liệu: (1) dữ liệu đào tạo để đào tạo AI,
(2) dữ liệu đầu vào để dự đoán và (3) dữ liệu phản hồi để cải thiện độ chính
xác của sự dự đoán.
• Việc thu thập dữ liệu là tốn kém; nhưng đó là một khoản đầu tư. Chi phí
của việc thu thập dữ liệu phụ thuộc vào lượng bạn cần và mức độ xâm nhập
của quá trình thu thập như thế nào. Việc cân bằng chi phí thu thập dữ liệu
với lợi ích của việc nâng cao độ chính xác của sự dự đoán là vô cùng quan
trọng. Việc xác định cách tiếp cận tốt nhất yêu cầu ước tính ROI của mỗi
loại dữ liệu: chi phí để có được nó là bao nhiêu và mức độ giá trị gia tăng
liên quan đến độ chính xác của sự dự đoán sẽ như thế nào?
• Những lý giải về mặt thống kê và về mặt kinh tế định hình việc liệu có
thêm nhiều dữ liệu sẽ mang lại giá trị hơn hay không. Từ quan điểm thống
kê, dữ liệu đã giảm theo hiệu suất quy mô. Mỗi đơn vị dữ liệu bổ sung cải
thiện sự dự đoán ít hơn những dữ liệu trước đó; lần quan sát thứ 10 cải
thiện sự dự đoán nhiều hơn so với lần quan sát thứ 100. Về mặt kinh tế,