DỮ LIỆU LỚN - Trang 160

công cụ tìm kiếm mỗi ngày. Gõ nhầm “iPad”? Đã có trong dữ
liệu. “Obamacare”? Nó biết luôn rồi.

Hơn nữa, Google dường như có được bộ kiểm tra chính tả mà
chẳng tốn phí, do tái sử dụng các lỗi chính tả được gõ vào công
cụ tìm kiếm của ba tỷ yêu cầu mà nó xử lý mỗi ngày. Một vòng
phản hồi thông minh dạy cho hệ thống từ nào là từ người sử
dụng thực sự muốn gõ vào. Người sử dụng đôi khi “nói” một
cách rõ ràng cho Google câu trả lời khi nó đặt ra câu hỏi ở trên
cùng của trang kết quả - ví dụ “Ý của bạn là epidemioiogy?” -
bằng cách nhấp vào đó để bắt đầu một lệnh tìm kiếm mới với từ
khóa đúng. Hoặc trang web mà người dùng muốn nhắm tới sẽ
giả định việc viết đúng chính tả, có thể vì như vậy sẽ tương hợp
hơn so với từ khóa viết sai. (Điều này là quan trọng hơn nhiều
người tưởng: Khi bộ kiểm tra chính tả của Google được liên tục
cải tiến, người ta không cần gõ các từ khóa tìm kiếm của họ một
cách chính xác nữa, bởi Google vẫn có thể xử lý chúng được.)

Hệ thống kiểm tra chính tả của Google cho thấy dữ liệu “xấu”,
“không đúng”, hoặc “khiếm khuyết” vẫn có thể rất hữu ích. Điều
thú vị là Google không phải là nơi đầu tiên có ý tưởng này.
Khoảng năm 2000 Yahoo đã nhìn thấy khả năng tạo ra một bộ
kiểm tra chính tả từ các truy vấn gõ sai của người sử dụng.
Nhưng ý tưởng này chẳng đi được tới đâu. Dữ liệu câu hỏi tìm
kiếm cũ đã bị xử lý chủ yếu như là rác. Tương tự như vậy,
Infoseek và Alta Vista, những công cụ tìm kiếm phổ biến sớm
hơn, đều có cơ sở dữ liệu toàn diện nhất thế giới về các từ viết sai
chính tả khi đó, nhưng họ đã không đánh giá cao giá trị của
chúng. Các hệ thống của họ, trong một quá trình ẩn đối với
người sử dụng, đã xem những từ viết sai như “những từ có liên
quan” và vẫn tiến hành cuộc tìm kiếm. Nhưng cuộc tìm kiếm đó
được dựa trên các từ điển nói rõ ràng với hệ thống những gì là

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.