Để có thể đưa ra sự dự đoán tốt, máy cần có đủ cá thể (hoặc đơn vị phân
tích) trong dữ liệu đào tạo. Số cá thể cần có phụ thuộc vào hai yếu tố: đầu
tiên, độ nhạy của “tín hiệu” với “tiếng ồn”, và thứ hai, độ chính xác của sự
dự đoán để trở nên hữu dụng. Hay nói cách khác, số lượng cá thể cần có
phụ thuộc vào việc nhịp tim là yếu tố dự đoán nhịp tim bất thường mạnh
hay yếu và sự tốn kém mà sai sót có thể gây ra. Nếu nhịp tim là yếu tố dự
đoán mạnh và sai sót không quan trọng, vậy thì chúng ta chỉ cần một vài
người. Nếu nhịp tim là yếu tố dự đoán yếu và mỗi sai sót có thể gây nguy
hiểm cho tính mạng, thì chúng ta cần hàng nghìn thậm chí là hàng triệu cá
thể. Cardiogram đã sử dụng thông tin của 6.000 người trong nghiên cứu sơ
bộ của họ, bao gồm chỉ 200 người với nhịp tim bất thường. Theo thời gian,
một cách để thu thập thêm dữ liệu là từ phản hồi của việc liệu những người
sử dụng ứng dụng có nhịp tim bất thường hay không.
Vậy con số 6.000 từ đâu ra? Những nhà khoa học dữ liệu có những công cụ
tuyệt vời để đánh giá khối lượng dữ liệu cần có để thu được sự dự đoán
đáng tin và chính xác. Những công cụ này được gọi là “tính toán công suất”
và chúng sẽ nói cho bạn biết cần bao nhiêu đơn vị phân tích để cho ra sự dự
đoán hữu ích.5 Điểm quản lý nổi bật là bạn cần phải thực hiện một sự đánh
đổi: sự dự đoán càng chính xác sẽ yêu cầu nhiều đơn vị hơn để nghiên cứu,
và để có được những đơn vị bổ sung này có thể sẽ rất tốn kém.
Cardiogram yêu cầu tần suất cao của việc thu nhập dữ liệu. Công nghệ của
họ sử dụng Apple Watch để thu nhập dữ liệu trên nền tảng từng giây. Họ
cần tần suất cao như vậy vì nhịp tim dao động trong ngày và sự đo lường
chính xác yêu cầu sự đánh giá lặp đi lặp lại để xem liệu tỷ lệ đo được có
phải là giá trị đúng với người họ đang làm nghiên cứu không. Để hoạt
động, thuật toán của Cardiogram sử dụng dòng đo lường ổn định mà một
thiết bị đeo tay có thể cung cấp, thay vì sự đo lường chỉ có thể làm được
khi bệnh nhân ở phòng khám của bác sĩ.