DỮ LIỆU LỚN - Trang 161

đúng, chứ không dựa trên những điều sống động, hiện hữu của
việc tương tác với người dùng.

Chỉ mỗi Google nhận ra những mảnh vụn của mối tương tác với
người dùng là bụi vàng thực sự, có thể được thu thập lại và đúc
thành một phôi sáng bóng. Một trong những kỹ sư hàng đầu
của Google ước tính rằng bộ kiểm tra chính tả của nó thực hiện
tốt hơn so với của Microsoft ở mức độ rất cao (mặc dù khi được
chất vấn, ông thừa nhận đã không đo lường điều này một cách
đáng tin cậy). Và ông chế giễu ý kiến cho rằng nó được phát
triển “miễn phí”. Có thể nguyên liệu thô - lỗi chính tả - tự đến
mà không cần một chi phí trực tiếp nào, nhưng Google nhiều
khả năng đã chi nhiều hơn hẳn so với Microsoft để phát triển hệ
thống, ông thừa nhận với một nụ cười sảng khoái.

Các phương pháp tiếp cận khác nhau của hai công ty là vô cùng
đáng chú ý. Microsoft chỉ nhìn thấy giá trị của việc kiểm tra
chính tả cho một mục đích: xử lý từ. Google lại hiểu được ích lợi
sâu hơn của nó. Google không chỉ sử dụng các lỗi chính tả nhằm
phát triển bộ kiểm tra chính tả tốt nhất và được cập nhật tốt
nhất thế giới để cải thiện việc tìm kiếm, mà nó còn áp dụng hệ
thống vào nhiều dịch vụ khác, chẳng hạn như tính năng “tự
động hoàn chỉnh” trong tìm kiếm, Gmail, Google Docs, và thậm
chí cả hệ thống dịch thuật của mình.

Một thuật ngữ nghệ thuật đã xuất hiện để mô tả dấu vết kỹ
thuật số mà người sử dụng để lại: “dữ liệu xả”. Nó đề cập đến dữ
liệu được tạo ra như một sản phẩm phụ của các hành vi và các
chuyển động của con người trong thế giới. Với Internet, nó mô
tả những tương tác trực tuyến của người sử dụng: nơi họ nhấp
chuột, họ xem một trang bao lâu, nơi con trỏ chuột qua lại,
những gì họ nhập từ bàn phím, và nhiều nữa. Nhiều công ty
thiết kế hệ thống của họ để có thể thu hoạch được dữ liệu xả và

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.