tiểu bang. Google có thể đạt được điều này bằng cách xem xét
những gì người sử dụng đã tìm kiếm trên Internet. Bởi Google
nhận được hơn ba tỷ câu hỏi tìm kiếm mỗi ngày và lưu giữ tất cả
chúng, nên nó có vô số dữ liệu để phân tích.
Google lấy 50 triệu cụm từ được tìm kiếm phổ biến nhất của
người Mỹ và so sánh chúng với dữ liệu của CDC về sự lây lan của
bệnh cúm mùa giữa các năm 2003 và 2008. Ý tưởng là để xác
định các khu vực bị lây nhiễm vi-rút cúm thông qua những gì
người ta tìm kiếm trên Internet, và không ai khác có nhiều dữ
liệu, năng lực tính toán và hiểu biết về thống kê như Google.
Dù các chuyên viên của Google phỏng đoán các lệnh tìm kiếm có
thể nhằm thu lượm thông tin về cúm - gõ các câu đại loại như
“thuốc ho và sốt” - nhưng không phải vậy: họ không biết, và họ
đã thiết kế một hệ thống không quan tâm tới điều đó. Tất cả
những gì hệ thống của họ làm là phát hiện mối tương quan giữa
tần suất của một số câu hỏi tìm kiếm và sự lây lan của bệnh cúm
theo thời gian và không gian. Tổng cộng, họ xử lý một lượng
đáng kinh ngạc 450 triệu mô hình toán học khác nhau để kiểm
tra các điều kiện tìm kiếm, so sánh các dự đoán của họ với các
trường hợp bệnh thực tế từ CDC trong năm 2007 và 2008. Và họ
đã vớ được vàng: phần mềm của họ tìm thấy một sự kết hợp của
45 điều kiện tìm kiếm mà khi sử dụng cùng với một mô hình
toán học, có một mối tương quan mạnh mẽ giữa phỏng đoán
của họ và các số liệu chính thức trên toàn quốc. Giống như CDC,
họ có thể cho biết cúm đã lây lan tới đâu, nhưng khác với CDC,
họ có thể nói điều đó gần như trong thời gian thực, chứ không
phải trễ một hoặc hai tuần.
Do vậy, khi dịch bệnh H1N1 tấn công vào năm 2009, hệ thống
của Google đã chứng tỏ là một chỉ báo có ích hơn và nhanh hơn