Rất dễ ngoại suy mối nguy hại đến tính riêng tư từ mức tăng
trưởng trong dữ liệu kỹ thuật số và thấy sự tương tự với địa
ngục bị giám sát của Orwell trong tác phẩm 1984. Nhưng tình
hình phức tạp hơn thế. Trước tiên, không phải tất cả dữ liệu lớn
đều chứa thông tin cá nhân. Dữ liệu cảm biến từ những nhà
máy lọc dầu, cũng như dữ liệu về máy móc từ sàn các nhà máy,
dữ liệu về các vụ nổ hố ga hay về thời tiết sân bay không chứa
những thông tin như vậy. BP và Con Edison không cần (hoặc
muốn) thông tin cá nhân để đạt được giá trị từ các phân tích mà
họ thực hiện. Phân tích dữ-liệu-lớn của những loại thông tin
này thực tế không đặt ra rủi ro cho sự riêng tư.
Tuy nhiên, phần lớn các dữ liệu hiện giờ được tạo ra là có bao
gồm thông tin cá nhân. Và các công ty có khá nhiều động lực để
thu thập nhiều hơn, giữ nó lâu hơn, và tái sử dụng nó thường
xuyên. Dữ liệu có thể thậm chí không rõ ràng giống như là
thông tin cá nhân, nhưng với những quá trình dữ-liệu-lớn, nó
có thể dễ dàng được truy trở lại về cá nhân mà nó đề cập đến.
Hoặc những chi tiết riêng tư về đời sống của một người có thể
được rút ra.
Ví dụ các công ty dịch vụ tiện ích đang tung ra những “đồng hồ
điện thông minh” ở Hoa Kỳ và Châu Âu để thu thập dữ liệu suốt
ngày, có lẽ với tần suất mỗi sáu giây - nhiều hơn so với dòng
chảy nhỏ giọt thông tin về việc sử dụng năng lượng tổng thể mà
những đồng hồ truyền thống thu thập. Điều quan trọng là cách
các thiết bị điện tiêu thụ năng lượng tạo ra một “chìa khóa tải”
duy nhất cho thiết bị đó. Thế nên một máy đun nước nóng sẽ
khác với một máy tính, và khác với đèn nuôi cần sa. Vì vậy, sự sử
dụng năng lượng của một hộ gia đình sẽ tiết lộ thông tin cá
nhân, có thể là cả các hành vi hàng ngày, điều kiện sức khỏe
hoặc các hoạt động bất hợp pháp của cư dân. Tuy nhiên câu hỏi
quan trọng không nằm ở chỗ dữ liệu lớn có làm tăng rủi ro đối