DỮ LIỆU LỚN - Trang 122

tiến hóa của tư duy con người qua nhiều thế kỷ và trong nhiều
ngôn ngữ khác nhau. Bạn có thể tự thử nghiệm. Ngram Viewer
của Google (http://books.google.com/ngrams) sẽ tạo ra một đồ
thị của việc sử dụng các từ hoặc cụm từ theo thời gian, bằng
cách sử dụng toàn bộ chỉ mục Sách của Google như một nguồn
dữ liệu. Trong vòng vài giây chúng ta khám phá ra rằng cho đến
năm 1900 thuật ngữ “nhân quả” được sử dụng thường xuyên
hơn “tương quan”, nhưng sau đó tỷ lệ này đã đảo ngược. Chúng
ta có thể so sánh phong cách văn bản và xác định được tác giả
khi có tranh chấp tác quyền. Dữ liệu hóa cũng giúp cho việc
phát hiện đạo văn trong các công trình hàn lâm trở nên dễ dàng
hơn, kết quả là một số chính trị gia châu Âu, trong đó có một bộ
trưởng quốc phòng Đức, đã bị buộc phải từ chức.

Ước tính có khoảng 130 triệu đầu sách đã được xuất bản kể từ
khi in ấn được phát minh ra vào giữa thế kỷ XV. Đến năm 2012,
bảy năm sau khi Google bắt đầu dự án sách, họ đã sao chụp hơn
20 triệu đầu sách, hơn 15 phần trăm di sản in ấn của thế giới -
một khối lượng đáng kể. Điều này đã tạo ra một ngành học mới
được gọi là “Culturomics”: từ vựng học tính toán để cố gắng
hiểu hành vi con người và các xu hướng văn hóa thông qua việc
phân tích định lượng các văn bản số hóa.

Trong một nghiên cứu, các chuyên gia tại Đại học Harvard khảo
sát hàng triệu cuốn sách (tương đương với hơn 500 tỷ từ) và
phát hiện ra rằng chỉ có chưa đến một nửa số lượng các từ tiếng
Anh xuất hiện trên sách là có trong các từ điển. Thay vào đó, họ
viết, sự dồi dào của từ ngữ “bao gồm cả từ vựng‘ngoài lề’ vốn
không được ghi chép trong các nguồn tham khảo chuẩn”. Hơn
nữa, bằng việc phân tích theo thuật toán các tài liệu tham khảo
về nghệ sĩ Marc Chagall, người có các tác phẩm bị Đức Quốc xã
cấm vì là người Do Thái, các nhà nghiên cứu đã chỉ ra rằng sự
đàn áp hoặc kiểm duyệt một ý tưởng hoặc cá nhân để lại “dấu

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.