TIẾP THỊ SỐ TỪ A ĐẾN Z - Trang 125

này bằng cách sử dụng c|c chương trình tự động hóa được gọi l{ “bot” (viết tắt của robot) – hay
các “spider” (nhện) – được chúng thả ra để “bò” trên web. Spider lần theo các siêu liên kết và
thu thập thông tin về những trang mà chúng tìm thấy.

Khi một trang bị “nhện bò”, công cụ tìm kiếm lưu trữ thông tin chi tiết về nội dung của trang đó
và các liên kết cả ra lẫn vào trang web, trong một cơ sở dữ liệu khổng lồ được gọi là chỉ mục. Chỉ
mục n{y được tối ưu hóa cao để kết quả của bất kỳ yêu cầu tìm kiếm nào trong số h{ng trăm
triệu yêu cầu tìm kiếm nhận được mỗi ngày có thể được trích xuất gần như ngay lập tức.

Đó l{ một nhiệm vụ vô cùng lớn lao. Dù không ai biết con số thực tế của các trang web được
truy cập trên mạng và công cụ tìm kiếm thường không công bố quy mô của các chỉ mục, nhưng
một b{i đăng trên blog chính thức của Google v{o th|ng 7 năm 2008 đ~ đưa ra một số quan sát
hiếm hoi về quy mô của trang web:

Chỉ mục Google đầu tiên trong năm 1998 đ~ có 26 triệu trang v{ đến năm 2000 chỉ mục Google
cán mốc 1 tỷ. Trong 8 năm qua, chúng tôi đ~ thấy có một lượng lớn nội dung được cung cấp.
Gần đ}y, ngay cả các kỹ sư tìm kiếm của chúng tôi cũng thôi kiêng nể quy mô lớn của của các
trang web ngày nay – khi mà hệ thống của chúng tôi xử lý các liên kết trên web để tìm kiếm đ~
cán cột mốc quan trọng: 1 nghìn tỷ (1.000.000.000.000) URL truy cập web cùng lúc!

Tất nhiên, các công cụ tìm kiếm không đ|nh chỉ mục từng URL trong hàng tỷ tỷ URL này. Nhiều
URL trong số đó chứa những thông tin tương tự, trùng lặp nhau hoặc không thực sự phù hợp
với tìm kiếm (h~y nghĩ đến một lịch sự kiện trực tuyến được tạo ra tự động với các liên kết đến
“ng{y trước” hoặc “ng{y sau” – về lý thuyết, bạn có thể tiếp tục nhấp chuột m~i m~i, nhưng chỉ
các trang chứa thông tin sự kiện có liên quan mới xuất hiện trong các kết quả tìm kiếm), do đó
một số URL không được đưa v{o chỉ mục.

Chúng tôi không biết có bao nhiêu trang trên web, do đó, có bao nhiêu trang được lưu trữ trong
các chỉ mục của công cụ tìm kiếm (thông tin hiếm khi được cung cấp một cách tự nguyện),
nhưng có thể nói rằng chúng tôi đang xử lý những con số rất lớn.

Danh sách kết quả cho bất kỳ truy vấn tìm kiếm n{o thường chứa hàng triệu trang, được chạy
qua thuật toán xếp hạng phức tạp của các công cụ tìm kiếm: những chương trình đặc biệt có sử
dụng một loạt các công thức độc quyền được bảo vệ nghiêm ngặt để “chấm điểm” sự phù hợp
của một trang đối với truy vấn ban đầu của người dùng. Kết quả sau đó sẽ được sắp xếp theo
thứ tự phù hợp và trình bày trước người dùng trong SERP.

Liên Kết Chia Sẽ

** Đây là liên kết chia sẻ bới cộng đồng người dùng, chúng tôi không chịu trách nhiệm gì về nội dung của các thông tin này. Nếu có liên kết nào không phù hợp xin hãy báo cho admin.