PHÂN TÍCH DỮ LIỆU TINH GỌN - Trang 540

các công ty như Google và Facebook còn trả tiền cho người ta toàn thời gian
để quét nội dung tìm ra các nội dung phạm tội hoặc chống đối, đây có thể là
một công việc rất mệt mỏi

12

. Jeremy Edberg ước tính 50% thời gian phát

triển của reddit tập trung vào ngăn chặn spam hoặc gian lận bình chọn – mặc
dù trong 18 tháng đầu của trang này, bình chọn của người dùng đã đủ để
chặn mọi spam và không có bảo vệ chống spam nào được thiết lập.

11

Phương pháp tiếp cận bằng cảm tính, mang tính kinh nghiệm, dùng trong

phương pháp thử và sai để giải quyết tương đối các bài toàn khó. (BTV)

12

http://www.buzzfeed.com/reyhan/tech-confessional-the-googler-who-

looks-at-the-wo

Người spam thường tạo các tài khoản dùng một lần rất dễ phát hiện. Các tài
khoản bị cướp lại khó xác định hơn, nhưng hầu hết các trang UGC cho phép
người dùng gắn cờ các nội dung spam giúp đánh giá dễ dàng hơn. Nhưng
mặc cho sự đầy hứa hẹn của một cộng đồng tự bảo vệ, người dùng vẫn chưa
phải là cách hay để tìm ra nội dung xấu. Nhiều bài đăng bị gắn cờ trên reddit
thực chất lại là do những kẻ spam gắn cờ mọi người khác với hy vọng phô
trương nội dung của riêng kẻ đó. Jeremy cho biết ở reddit, “chúng tôi phải
xây dựng một hệ thống phân tích chất lượng báo cáo từ mỗi người dùng
(bao nhiêu báo cáo hóa ra trở thành spam đã xác minh)”.

Tại reddit, các bộ lọc tự động cùng với bộ kiểm duyệt bắt được hầu hết các
spam – trong năm 2011 số spam chiếm đến khoảng nửa nội dung được gửi
đi. Jeremy nói: “Con số 50% nội dung đó đến từ không tới nổi 50% số người
dùng. Gần như cách phát triển mọi chiến lược chống gian lận là bằng cách
tìm một trường hợp có kẻ gian lận thành công, phân tích nguyên nhân kẻ đó
thành công, tìm những ví dụ khác trong chứng cứ thu thập, sau đó xây dựng
mô hình để tìm ra hình thức gian lận đó.”

Cuối cùng, spam còn gợi ý một mô hình doanh thu quảng cáo cho trang.
Jeremy nhớ lại: “Chúng tôi nhận thấy những kẻ spam luôn cố để khiến

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.