DỮ LIỆU LỚN - Trang 121

việc quét hàng triệu cuốn sách vừa có thể thực hiện được và vừa
khả thi về mặt tài chính.

Đầu tiên, Google số hóa văn bản: từng trang được quét và ghi
trong một tập tin hình ảnh có độ phân giải kỹ thuật số cao, được
lưu trữ trên máy chủ của Google. Trang sách được chuyển thành
một bản sao kỹ thuật số có thể dễ dàng được bất kỳ ai ở bất kỳ
đâu truy cập thông qua Web. Tuy nhiên, việc truy cập sẽ đòi hỏi
người đọc phải biết cuốn sách nào có thông tin mình quan tâm,
hoặc phải đọc nhiều để tìm ra thông tin cần thiết. Người ta
không thể tìm kiếm văn bản theo từ khóa, hoặc phân tích nó,
bởi vì văn bản chưa được dữ liệu hóa. Tất cả những gì Google có
là những hình ảnh mà chỉ con người mới có thể biến đổi thành
thông tin hữu ích - bằng cách đọc.

Dù nó vẫn là một công cụ tuyệt vời - một Thư viện Alexandria
kỹ thuật số hiện đại, toàn diện hơn bất kỳ thư viện nào trong
lịch sử - Google vẫn muốn nhiều hơn nữa. Họ hiểu rằng thông
tin chứa đựng những giá trị mà chỉ có thể được chuyển tải một
khi nó được dữ liệu hóa. Và do vậy Google đã sử dụng phần mềm
nhận dạng ký tự quang học để đọc một hình ảnh kỹ thuật số và
nhận dạng ra các chữ cái, từ, câu, và đoạn văn trên đó. Kết quả là
văn bản đã được dữ liệu hóa chứ không chỉ là một hình ảnh kỹ
thuật số của trang sách.

Bây giờ các thông tin trên trang sách mới có thể được sử dụng
không chỉ cho người đọc, mà còn cho các máy tính để xử lý và
cho các thuật toán để phân tích. Dữ liệu hóa làm cho văn bản có
thể lập chỉ mục và do đó có thể tìm kiếm được. Và nó cho phép
một dòng phân tích văn bản bất tận. Bây giờ chúng ta có thể
khám phá khi nào thì những từ hoặc cụm từ nhất định được sử
dụng lần đầu tiên, hoặc trở nên phổ biến. Đó chính là thứ kiến
thức làm sáng tỏ sự lan truyền của những ý tưởng và quá trình

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.