DỮ LIỆU LỚN - Trang 57

nữa”. Nhưng thành công ban đầu hóa ra lại tạo một sự hiểu lầm
khá sâu sắc. Đến năm 1966 một ủy ban của các đại thụ trong
làng dịch máy đã phải thừa nhận thất bại. Vấn đề khó hơn họ
tưởng. Dạy máy tính dịch là dạy chúng không chỉ các quy tắc,
mà cả các trường hợp ngoại lệ nữa. Dịch không chỉ là ghi nhớ và
nhớ lại, nó là về việc chọn những từ thích hợp từ nhiều lựa chọn
thay thế. Liệu “bonjour” có thực sự là “chào buổi sáng”? Hay đó
là “ngày tốt”, hay “xin chào”, hay “hi”? Câu trả lời là “còn tùy”.

Cuối những năm 1980, các nhà nghiên cứu tại IBM đã có một ý
tưởng mới lạ. Thay vì cố gắng nạp những quy tắc ngôn ngữ rõ
ràng vào máy tính cùng với một từ điển, họ đã quyết định để
cho máy tính sử dụng xác suất thống kê để tính toán xem từ
hoặc câu nào trong một ngôn ngữ là thích hợp nhất với từ hoặc
câu trong một ngôn ngữ khác. Trong những năm 1990 dự án
Candide của IBM đã sử dụng các văn bản quốc hội Canada công
bố bằng tiếng Pháp và tiếng Anh trong vòng mười năm - khoảng
ba triệu cặp câu. Do chúng là văn bản chính thức, nên các bản
dịch đã được thực hiện với chất lượng đặc biệt cao. Và theo các
tiêu chuẩn lúc đó, số lượng dữ liệu là rất lớn. Dịch máy thống kê,
như kỹ thuật này được biết đến, đã khéo léo biến những thách
thức của dịch thuật thành một bài toán lớn của toán học. Và nó
dường như thành công. Đột nhiên, dịch máy trở thành tốt hơn
rất nhiều. Tuy nhiên, sau thành công của bước nhảy vọt về khái
niệm, IBM chỉ thu được những cải thiện nhỏ mặc dù phải ném
ra rất nhiều tiền. Cuối cùng IBM đã dừng dự án.

Nhưng chưa đầy một thập kỷ sau đó, vào năm 2006, Google đã
nhảy vào dịch thuật, như một phần của nhiệm vụ “tổ chức
thông tin của thế giới và làm cho chúng trở thành có thể tiếp
cận được và hữu ích một cách phổ dụng”. Thay vì dịch các trang
văn bản thành hai ngôn ngữ, Google tự giúp mình với một bộ dữ
liệu lớn hơn nhưng cũng hỗn độn hơn nhiều: toàn bộ mạng

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.