về việc làm thế nào để đưa ra được quyết định và hiểu được thực
tế.
Dữ liệu lớn đánh dấu bước khởi đầu của một biến đổi lớn. Giống
như nhiều công nghệ mới, dữ liệu lớn chắc chắn sẽ trở thành
nạn nhân của chu kỳ thổi phồng khét tiếng của Thung Lũng
Silicon: sau khi được tiếp đón trên trang đầu của các tạp chí và
tại các hội nghị công nghiệp, xu hướng này sẽ bị ruồng bỏ và rất
nhiều công ty khởi động say mê dữ liệu sẽ bị lúng túng. Nhưng
cả thái độ say mê và nguyền rủa đều hiểu lầm một cách khá sâu
tầm quan trọng của những gì đang xảy ra. Đúng như kính thiên
văn tạo điều kiện cho chúng ta hiểu biết được vũ trụ và kính
hiển vi cho phép chúng ta hiểu biết được vi trùng, các kỹ thuật
mới để thu thập và phân tích những tập hợp lớn dữ liệu sẽ giúp
chúng ta tìm ra ý nghĩa của thế giới theo những cách thức mà
chúng ta mới chỉ vừa bắt đầu ưa thích. Trong cuốn sách này,
chúng tôi không hẳn là những kẻ truyền giáo của dữ liệu lớn mà
chỉ là những người đưa tin. Và, một lần nữa xin nhấn mạnh,
cuộc cách mạng thật sự không phải ở những chiếc máy tính
toán dữ liệu mà ở chính dữ liệu và cách ta sử dụng chúng.
Để đánh giá mức độ một cuộc cách mạng thông tin đã tiến triển
tới đâu, ta hãy xem xét các xu hướng xuyên suốt các lĩnh vực
của xã hội. Lấy ví dụ thiên văn học. Khi Sloan Digital Sky Survey
(SDSS - Trạm quan sát bầu trời bằng kỹ thuật số Sloan) bắt đầu
hoạt động vào năm 2000, kính thiên văn của nó tại New Mexico
trong mấy tuần đầu tiên đã thu thập nhiều dữ liệu hơn những gì
được thu thập trong toàn bộ lịch sử của ngành thiên văn. Đến
năm 2010, lưu trữ của trạm đã bạt ngàn với con số khổng lồ 140
tera (10 mũ 12) byte thông tin. Nhưng kẻ kế nhiệm, kính thiên
văn của Large Synoptic Survey (LSST) ở Chile, dự kiến vận hành
vào năm 2016, cứ mỗi năm ngày sẽ thu thập được lượng dữ liệu
tương đương như thế.