tập dữ liệu đào tạo lưu trữ thông tin của hàng trăm biến cho hàng chục
nghìn khách hàng. Với những biến và khách hàng được bổ sung thêm này,
những phương pháp máy tự học bắt đầu được thực hiện, thậm chí là tốt hơn
hồi quy.
Hiện giờ những nhà nghiên cứu dự đoán tỉ lệ churn dựa vào hàng nghìn
biến và hàng triệu khách hàng. Sự cải thiện trong sức mạnh máy tính đồng
nghĩa với việc có thể sử dụng lượng lớn dữ liệu, bao gồm văn bản, hình ảnh
và những con số. Ví dụ, trong mô hình tỉ lệ churn ở điện thoại, những nhà
nghiên cứu tận dụng dữ liệu của những cuộc gọi từng giờ bên cạnh những
biến tiêu chuẩn như kích thước hoá đơn và thanh toán đúng hạn.
Những phương pháp máy tự học cũng trở nên tốt hơn ở việc tận dụng
những dữ liệu có sẵn. Trong cuộc thi Duke, yếu tố quan trọng của thành
công là lựa chọn trong số hàng trăm biến có sẵn và lựa chọn mô hình thống
kê nào để sử dụng. Các phương pháp tốt nhất ở thời điểm đó, cho dù là máy
tự học hay sự hồi quy kinh điển, đều sử dụng sự kết hợp của trực giác và
những bài kiểm tra thống kê để lựa chọn các biến và mô hình. Hiện giờ,
những phương pháp máy tự học, và đặc biệt là những phương pháp học
sâu, đều cho phép tính linh hoạt trong mô hình và điều này có nghĩa là các
biến có thể kết hợp với nhau theo những cách bất ngờ. Những tổ hợp đó rất
khó để dự đoán, nhưng chúng có thể hỗ trợ sự dự đoán rất nhiều. Bởi vì
chúng rất khó để có thể đoán trước, những người lập mô hình sẽ không sử
dụng chúng khi dự đoán với những kỹ thuật hồi quy tiêu chuẩn. Máy tự học
đưa ra những lựa chọn mà sự kết hợp và tương tác có thể quan trọng đối
với máy móc, chứ không phải với lập trình viên.
Sự cải thiện trong phương pháp máy tự học nói chung và học sâu nói riêng,
có nghĩa rằng khả năng biến những dữ liệu có sẵn thành những dự đoán tỉ
lệ churn chính xác là hoàn toàn có thể. Và những phương pháp máy tự học
hiện giờ rõ ràng đã chiếm ưu thế hơn so với sự hồi quy và những kỹ thuật
khác.