Thu thập loại dữ liệu này là một sự đầu tư tốn kém. Bệnh nhân phải đeo
thiết bị mọi lúc nên nó ảnh hưởng đến hoạt động hằng ngày của họ (đặc
biệt là với những người không có Apple Watch). Bởi vì nó liên quan đến dữ
liệu sức khoẻ, nhiều sự lo ngại về vấn đề quyền riêng tư đã nảy sinh, vì vậy
Cardiogram đã phát triển hệ thống để cải thiện quyền riêng tư nhưng với
chi phí phát triển gia tăng và làm giảm khả năng của máy để cải thiện sự dự
đoán từ phản hồi. Nó thu thập dữ liệu sử dụng để dự đoán thông qua ứng
dụng; dữ liệu vẫn lưu lại trên máy.
Tiếp đến, chúng tôi sẽ thảo luận về điểm khác biệt giữa suy nghĩ về mặt
thống kê và suy nghĩ về mặt kinh tế liên quan đến số lượng dữ liệu thu thập
được. (Chúng tôi sẽ xem xét những vấn đề liên quan đến quyền riêng tư khi
bàn về chiến lược ở phần thứ tư).
Quy mô kinh tế
Nhiều dữ liệu cải thiện sự dự đoán. Nhưng bạn cần bao nhiêu dữ liệu? Lợi
ích của việc có thêm thông tin (cho dù là về số lượng đơn vị, loại biến hay
tần suất) có thể sẽ làm tăng hoặc giảm với số lượng dữ liệu hiện có. Dưới
góc nhìn của chuyên gia kinh tế, dữ liệu có thể tăng hoặc giảm theo hiệu
suất quy mô.
Từ quan điểm thống kê đơn thuần, dữ liệu đã giảm theo hiệu suất quy mô.
Bạn có nhiều thông tin hữu ích từ lần quan sát thứ 3 hơn là lần quan sát thứ
100 và bạn học hỏi nhiều hơn từ lần thứ 100 hơn là lần thứ 1 triệu. Khi bạn
bổ sung các lần quan sát vào dữ liệu đào tạo của mình, nó sẽ trở nên ít hữu
ích hơn trong việc cải thiện sự dự đoán của bạn.
Mỗi quan sát là một sự bổ sung dữ liệu cho sự dự đoán của bạn. Trong
trường hợp của Cardiogram, sự quan sát là thời gian giữa những nhịp tim
được ghi lại. Khi chúng tôi nói “dữ liệu đã giảm theo hiệu suất quy mô”,
chúng tôi muốn nói rằng nhịp tim thứ 100 đầu tiên sẽ cho bạn biết liệu