DỮ LIỆU LỚN - Trang 59

Candide của IBM vì nó chấp nhận sự hỗn độn. Cả nghìn tỷ ngữ
liệu Google phát hành năm 2006 được biên soạn từ đủ thứ, kể cả
đồ tạp nham và đồ bỏ đi của Internet - có thể nói là “dữ liệu
thượng vàng hạ cám”. Đây là các “tập huấn luyện” để hệ thống
có thể tính toán xác suất, ví dụ một từ trong tiếng Anh đi tiếp
sau một từ khác. Đó là một mong ước xa vời của ông tổ trong
lĩnh vực này, dự án Brown Corpus nổi tiếng vào những năm
1960, đã tập hợp được tổng cộng một triệu từ tiếng Anh. Việc sử
dụng bộ dữ liệu lớn hơn cho phép những bước tiến lớn trong xử
lý ngôn ngữ tự nhiên, mà các hệ thống nhận dạng tiếng nói và
dịch máy dựa vào. “Mô hình đơn giản và rất nhiều dữ liệu thắng
thế những mô hình phức tạp hơn nhưng dựa trên ít dữ liệu
hơn”, chuyên gia trí tuệ nhân tạo của Google, Peter Norvig và
các đồng nghiệp đã viết như vậy trong một bài báo có tựa đề
“Hiệu quả phi lý của dữ liệu” (“The Unreasonable e ectiveness
of Data”): “Có thể nói ngữ liệu này là một bước lùi từ Brown
Corpus: nó được lấy từ các trang web chưa được hiệu đính và do
đó chứa những câu chưa đầy đủ, lỗi chính tả, lỗi ngữ pháp, và tất
cả các loại lỗi khác. Nó không được chú thích cẩn thận với
những thẻ bài được chỉnh sửa. Nhưng việc nó lớn hơn một triệu
lần so với Brown Corpus đã đủ bù đắp cho những hạn chế này”.

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.