DỮ LIỆU LỚN - Trang 123

vết có thể định lượng được”. Từ ngữ cũng giống như hóa thạch
được bọc trong các trang viết thay vì trầm tích đá. Các nhà
nghiên cứu culturomics có thể khai thác chúng như các nhà
khảo cổ.

Việc chuyển từ ngữ thành dữ liệu mở ra rất nhiều công dụng.
Tất nhiên, dữ liệu có thể được con người sử dụng để đọc, còn
máy móc dùng chúng để phân tích. Nhưng là mẫu mực của một
công ty dữ-liệu-lớn, Google biết rằng thông tin còn có nhiều khả
năng tiềm ẩn khác, có thể giúp ích cho bộ sưu tập của mình và
cho dữ liệu hóa. Vì vậy, Google khéo léo sử dụng các văn bản
được dữ liệu hóa từ dự án quét sách để cải thiện dịch vụ dịch
máy của mình. Như đã giải thích trong Chương Ba, hệ thống sẽ
lấy những cuốn sách được dịch và phân tích những từ và cụm từ
nào được các dịch giả sử dụng như những lựa chọn thay thế từ
một ngôn ngữ sang một ngôn ngữ khác. Hiểu biết được điều này
thì sau đó có thể xử lý việc dịch như một vấn đề toán học khổng
lồ, với các máy tính tìm ra xác suất để xác định từ nào là thay
thế tốt nhất cho từ kia giữa các ngôn ngữ.

Tất nhiên Google không phải là tổ chức duy nhất mơ ước mang
đến sự phong phú của di sản in ấn của thế giới vào thời đại máy
tính, và nó hầu như không phải là nơi đầu tiên thử việc này. Dự
án Gutenberg, một sáng kiến tình nguyện để đưa các tác phẩm
thuộc sở hữu công cộng lên trực tuyến sớm có từ năm 1971,
nhằm giúp mọi độc giả dễ tiếp cận các văn bản này. Tuy nhiên,
dự án đã không xem xét một chức năng phụ trợ của từ ngữ nên
không xem chúng như dữ liệu. Tương tự như vậy, các nhà xuất
bản trong nhiều năm qua đã thử nghiệm với các phiên bản sách
điện tử. Họ cũng nhìn thấy giá trị cốt lõi của sách là nội dung,
chứ không phải là dữ liệu - mô hình kinh doanh của họ dựa vào
điều này. Vì vậy, họ không bao giờ sử dụng hoặc cho phép người
khác sử dụng các dữ liệu vốn có trong văn bản của một cuốn

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.