DỮ LIỆU LỚN - Trang 56

phần trăm chính xác. “Những kết quả này cho thấy chúng ta có
thể nên xem xét lại sự cân bằng giữa việc tiêu tốn thời gian và
tiền bạc vào phát triển thuật toán so với việc chi tiêu vào phát
triển ngữ liệu”, Banko và Brill đã viết trong một tài liệu nghiên
cứu của họ về chủ đề này.

Vậy là nhiều hơn đã thắng ít hơn. Và đôi khi nhiều hơn còn thắng
cả thông minh hơn. Còn sự hỗn độn thì sao? Một vài năm sau khi
Banko và Brill đào bới tất cả những dữ liệu này, các nhà nghiên
cứu đối thủ Google đã suy nghĩ dọc theo dòng tương tự - nhưng
với quy mô lớn hơn. Thay vì thử các thuật toán với một tỷ từ, họ
đã sử dụng một ngàn tỷ từ. Google làm điều này không phải để
phát triển một bộ kiểm tra ngữ pháp, nhưng để giải quyết một
trở ngại thậm chí còn phức tạp hơn: dịch thuật. Cái gọi là dịch
máy đã ở trong tầm nhìn của những nhà tiên phong máy tính
ngay từ buổi bình minh của tính toán trong những năm 1940,
khi các thiết bị được làm bằng đèn chân không và chứa đầy cả
một căn phòng. Ý tưởng được nâng lên thành cấp bách đặc biệt
trong Chiến tranh Lạnh, khi Hoa Kỳ thu được một lượng lớn tư
liệu viết và nói tiếng Nga nhưng thiếu nhân lực để dịch nó một
cách nhanh chóng.

Lúc đầu, các nhà khoa học máy tính đã lựa chọn một sự kết hợp
của các quy tắc ngữ pháp và một từ điển song ngữ. Một máy
tính IBM đã dịch sáu mươi câu từ tiếng Nga sang tiếng Anh vào
năm 1954, sử dụng 250 cặp từ trong từ vựng của máy tính và
sáu quy tắc ngữ pháp. Kết quả rất hứa hẹn. “Mi pyeryedayem
mislyỉ posryedstvom ryechyi”,
được nhập vào máy IBM 701 qua
bìa đục lỗ, và đầu ra có “Chúng tôi truyền suy nghĩ bằng lời nói”.
Sáu mươi câu đã được “dịch trơn tru”, theo một thông cáo báo
chí của IBM kỷ niệm sự kiện này. Giám đốc chương trình nghiên
cứu, Leon Dostert của Đại học Georgetown, dự đoán rằng dịch
máy sẽ trở thành “thực tế” trong “năm, hay có thể là ba năm

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.