tái chế, để cải thiện một dịch vụ hiện có hoặc phát triển những
dịch vụ mới. Google là người dẫn đầu không thể tranh cãi. Nó áp
dụng nguyên tắc đệ quy “học hỏi từ dữ liệu” cho nhiều dịch vụ
của mình. Mọi hành động người dùng thực hiện được xem là
một tín hiệu để phân tích và đưa trở lại vào hệ thống.
Ví dụ Google nhận thức được một cách sâu sắc việc bao nhiêu
lần người dùng tìm kiếm một từ khóa cũng như những từ liên
quan, và mức độ thường xuyên họ bấm vào một liên kết nhưng
sau đó quay trở lại trang tìm kiếm vì không hài lòng với những
gì họ tìm thấy, để tìm kiếm một lần nữa. Nó biết liệu họ đang
bấm vào liên kết thứ tám trên trang đầu tiên hay liên kết đầu
tiên trên trang thứ tám - hay họ đã từ bỏ hoàn toàn việc tìm
kiếm. Google có thể không phải là công ty đầu tiên có cái nhìn
sâu sắc này, nhưng là công ty thực hiện điều này với hiệu quả
đặc biệt xuất sắc.
Thông tin này rất có giá trị. Nếu nhiều người dùng có xu hướng
bấm vào kết quả tìm kiếm ở dưới cùng của hang kết quả, điều
này cho thấy nó phù hợp hơn những kết quả được xếp trên, và
thuật toán xếp hạng của Google sẽ biết để tự động đặt nó lên cao
hơn trong những lần tìm kiếm tiếp theo. (Và nó thực hiện điều
này cho cả những quảng cáo.) “Chúng tôi thích học hỏi từ
những tập hợp dữ liệu lớn, ‘ồn ào’”, một chuyên gia của Google
nhận xét.
Dữ liệu xả là cơ chế đằng sau rất nhiều dịch vụ như nhận dạng
giọng nói, lọc thư rác, dịch ngôn ngữ, và nhiều nữa. Khi người
sử dụng chỉ cho một chương trình nhận dạng giọng nói rằng nó
đã hiểu lầm những gì họ nói, họ thực chất đã “huấn luyện” hệ
thống để nó tốt hơn. Nhiều doanh nghiệp đang bắt đầu thiết kế
hệ thống của họ để thu thập và sử dụng thông tin theo cách này.
Trong những ngày đầu của Facebook, “nhà khoa học dữ liệu”