Bản thân Dữ liệu lớn được hình thành dựa trên lý thuyết. Ví dụ,
nó sử dụng các lý thuyết thống kê và toán học, và đôi khi sử
dụng cả khoa học máy tính. Đúng, chúng không phải là những
lý thuyết về động lực quan hệ nhân quả của một hiện tượng đặc
biệt như trọng lực, nhưng dù sao chúng vẫn là những lý thuyết.
Và, như chúng ta đã chỉ ra, các mô hình dựa trên chúng có khả
năng dự đoán rất hữu ích. Thật ra, dữ liệu lớn có thể cung cấp
một cái nhìn tươi mát và những hiểu biết mới mẻ một cách
chính xác vì nó không bị cản trở bởi lối suy nghĩ thông thường
và những thành kiến cố hữu tiềm ẩn trong các lý thuyết của
một lĩnh vực cụ thể.
Hơn nữa, vì việc phân tích dữ-liệu-lớn được dựa trên các lý
thuyết, ta không thể thoát khỏi chúng. Chúng định hình cả các
phương pháp và các kết quả của chúng ta. Trước tiên là cách
chúng ta lựa chọn dữ liệu. Các quyết định của chúng ta có thể
được định hướng bởi sự tiện lợi: Phải chăng dữ liệu đã có sẵn?
Hoặc bởi tính kinh tế: Liệu có thể thu thập được dữ liệu một
cách ít tốn kém? Lựa chọn của chúng ta bị ảnh hưởng bởi các lý
thuyết. Những gì chúng ta chọn sẽ ảnh hưởng tới những gì
chúng ta tìm thấy, như các nhà nghiên cứu công nghệ số Danah
Boyd và Kate Crawford đã lập luận. Xét cho cùng, Google đã sử
dụng các từ khóa tìm kiếm như một phương tiện đo lường cho
dịch cúm, chứ không sử dụng độ dài của tóc người. Tương tự
như vậy, khi phân tích dữ liệu, chúng ta chọn những công cụ
dựa trên các lý thuyết. Và khi giải thích kết quả, chúng ta lại áp
dụng các lý thuyết. Thời đại của dữ liệu lớn rõ ràng không phải
là không có lý thuyết - chúng có mặt khắp mọi nơi, với tất cả
những gì chúng thừa hưởng.
Anderson xứng đáng được vinh danh khi nêu lên những câu hỏi
xác đáng - và đặc biệt là ông đã làm thế sớm hơn những người