DỮ LIỆU LỚN - Trang 55

hoàn toàn đầy đủ và tất cả các bước đi có thể (N = tất cả) đã được
thể hiện trong một bảng lớn, khi không nén sẽ lấp đầy hơn một
tera byte dữ liệu. Điều này cho phép các máy tính có thể chơi cờ
tàn một cách hoàn hảo. Không bao giờ con người có thể chơi
thắng được hệ thống.

Ý nghĩa của lập luận rằng “có nhiều dữ liệu hơn sẽ hiệu quả hơn
việc có các thuật toán tốt hơn” đã được thể hiện mạnh mẽ trong
lĩnh vực xử lý ngôn ngữ tự nhiên: cách các máy tính học phân
tích cú pháp các từ như chúng ta sử dụng chúng trong giao tiếp
hàng ngày. Khoảng năm 2000, các nhà nghiên cứu Michele
Banko và Eric Brill của Microsoft tìm kiếm một phương pháp để
cải thiện bộ kiểm tra ngữ pháp, một thành phần của chương
trình Microsoft Word. Họ không chắc liệu sẽ hữu ích hơn nếu
dành nỗ lực của mình vào việc cải thiện các thuật toán sẵn có,
hay tìm kiếm các kỹ thuật mới, hay bổ sung thêm những tính
năng phức tạp hơn. Trước khi đi theo bất kỳ con đường nào, họ
quyết định xem xét những gì sẽ xảy ra khi họ cung cấp thêm rất
nhiều dữ liệu cho các phương pháp hiện có. Hầu hết các thuật
toán học tập của máy dựa trên những tập sao lục văn bản đạt tới
một triệu từ hoặc ít hơn. Banko và Brill lấy bốn thuật toán thông
thường và cung cấp nhiều dữ liệu hơn ở ba cấp độ khác nhau: 10
triệu từ, sau đó 100 triệu, và cuối cùng là 1 tỷ từ.

Kết quả thật đáng kinh ngạc. Khi có nhiều dữ liệu đi vào, hiệu
suất của tất cả bốn loại thuật toán đều được cải thiện một cách
đáng kể. Trong thực tế, một thuật toán đơn giản hoạt động kém
hiệu quả nhất với một nửa triệu từ lại hoạt động tốt hơn những
thuật toán khác khi có một tỷ từ. Độ chính xác của nó đã tăng từ
75 phần trăm lên trên 95 phần trăm. Ngược lại, thuật toán làm
việc tốt nhất với ít dữ liệu lại hoạt động kém nhất với lượng dữ
liệu lớn hơn, mặc dù cũng giống như những thuật toán khác nó
được cải thiện rất nhiều, tăng từ khoảng 86 phần trăm lên 94

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.