DỮ LIỆU LỚN - Trang 58

Internet toàn cầu và nhiều hơn nữa. Hệ thống của Google đã thu
lượm bất kể bản dịch nào có thể tìm thấy, để huấn luyện máy
tính. Chúng bao gồm các trang web của các công ty viết ở nhiều
ngôn ngữ khác nhau, các bản dịch đồng nhất của các văn bản
chính thức, và các báo cáo của các tổ chức liên chính phủ như
Liên hợp quốc và Liên minh châu Âu. Thậm chí các bản dịch
sách từ dự án sách của Google cũng được thu nhận. Trong khi
Candide sử dụng ba triệu câu được dịch một cách cẩn thận, thì
hệ thống của Google khai thác hàng tỷ trang các bản dịch rất
khác nhau về chất lượng, theo người đứng đầu của Google
Translate, Franz Josef Och, một trong những chuyên gia uy tín
nhất trong lĩnh vực này. Hàng nghìn tỷ từ đã được chuyển
thành 95 tỷ câu tiếng Anh, mặc dù chất lượng không rõ ràng.

Bất chấp sự hỗn độn của đầu vào, dịch vụ của Google hoạt động
tốt nhất. Các bản dịch của nó là chính xác hơn so với của các hệ
thống khác (mặc dù vẫn còn kém). Và nó phong phú hơn rất
nhiều. Vào giữa năm 2012 bộ dữ liệu của nó bao gồm hơn 60
ngôn ngữ. Nó thậm chí có thể chấp nhận nhập văn bản vào bằng
giọng nói trong 14 ngôn ngữ để dịch. Và vì nó xử lý ngôn ngữ
đơn giản như là dữ liệu hỗn độn để đánh giá xác suất, nó thậm
chí có thể dịch giữa các ngôn ngữ, chẳng hạn như giữa tiếng
Hindi và Catalan, mà trong đó có rất ít bản dịch trực tiếp để phát
triển hệ thống. Trong những trường hợp này, nó sử dụng tiếng
Anh như một cầu nối. Và nó linh hoạt hơn nhiều so với những
cách tiếp cận khác, vì nó có thể thêm và bớt các từ qua kinh
nghiệm chúng được hay không được sử dụng.

Lý do hệ thống dịch thuật của Google hoạt động tốt không phải
vì nó có một thuật toán thông minh hơn. Nó hoạt động tốt bởi
vì tác giả của nó, như Banko và Brill tại Microsoft, nạp vào nhiều
dữ liệu hơn - và không chỉ dữ liệu chất lượng cao. Google đã có
thể sử dụng một bộ dữ liệu hàng chục ngàn lần lớn hơn hơn

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.