Phân tích một vài yếu tố của thuật toán tìm kiếm " freshness"
badseo > 11-09-2011, 04:42 AM
Theo cập nhất mới nhất từ ngày 3/11/2011 thì thuật toán tìm kiếm mới nhất của google “ Freshness “ đã được áp dụng, có khoảng 35% kết quả tìm kiếm trên google sẽ bị ảnh hưởng của thuật toán. Vậy “ Freshness” là gì? Nguyên lý hoạt động ra sao? Chúng ta hãy đi phân tích một vài yếu tố liên quan.
“ Freshness”theo tiếng việt nghĩa là tươi mát , tươi mới nhất, như thế chúng ta cũng hình dung được một ít nguyên lý hoạt động của thuật toán này rồi.
Kết quả tìm kiếm cũng giống như một chiếc bánh nóng mới được đưa từ trong lò vào buổi sáng mùa đông, hay như một cốc nước trái cây mát lạnh vào một buổi chiều hè nắng nực. Xuất phát từ nhu cầu của người tìm kiếm, google đã áp dụng thuật toán trên, google dường như đoán ý nghĩa của bạn để đưa ra kết quả tìm kiếm sao cho phù hợp với ý định của bạn nhất và thông tin mới nhất.
Ví dụ nếu tôi tìm kiếm thông tin cho từ “olympics” ,mà ý định của tôi là tìm các thông tin về thế vận hội mùa hè Olympics vào mùa hè năm 2012 sắp tới. Các thông tin về Olympics của mùa hè 2012 chứ không phải năm 1900 các bạn nhé. Trong trường hợp này cỗ máy tìm kiếm google sẽ sử dụng thuật toán “ Freshness” nghĩa là google tự động hiển thị các thông tin mới nhất liên quan đến Olympics của tương lai ( năm 2012), mặc dù tôi không có chỉ định thêm yếu tố ” 2012” ( không cần gõ “ Olympics 2012” hay “ Olympics +2012”) khi tôi tìm kiếm.
Với tốc độ lan truyền thông tin cực nhanh như ngày hôm nay trên thế giới thì gần như toàn bộ thông tin mới nhất liên tục được cập nhật theo tuần, ngày hoặc thậm chí là phút và nó phụ thuộc vào các từ mà bạn tìm kiếm. Thuật toán tìm kiếm cần có khả năng tìm ra các thông tin đó. Nếu kết quả tìm kiếm của một chương trình TV show hoặc kết quả tìm kiếm của một thông tin nổi bật nào đó mà lại là kết quả của 1 tuần trước đấy thì thật đáng thất vọng.
Google đã hoàn thiện thuật toán tìm kiếm Caffeine vào năm 2010, thuật toán Caffeine cho phép google thu thập dữ liệu ( crawl) và index ( lập chỉ mục) cho nội dung mới của các website một cách nhanh nhất trên quy mô lớn. Lấy động lực từ thuật toán Caffeine mà google đã cải tiến đáng kể thuật toán xếp hạng và nó ảnh hưởng đến khoảng 35 % các tìm kiếm và xác định chính xác hơn các kết quả tìm kiếm mới nhất có liên quan đến từ khóa tìm kiếm với các mức độ khác nhau của “ độ mới” các thông tin.
- Gần nhất và hot nhất:
Đối với các sự kiện mới nhất, các chủ đề nóng nhất có xu hướng lan truyền trên web và bạn muốn tìm kiếm thông tin mới nhất ngay lập tức. Ngay bây giờ bạn có thể tìm kiếm các sự kiện chẳng hạn như “ sea game” thì bạn sẽ thấy kết quả tìm kiếm là các trang có chất lượng cao sẽ được hiển thị với các mẩu tin tức mới được cập nhật cách đây ít phút.
- Sự kiện diễn ra theo định kỳ:
Một số sự kiện diễn ra thường xuyên theo định kỳ, chẳng hạn như các hội nghị hàng năm như “ICALP” hoặc một sự kiện như các cuộc bầu cử tổng thống. Nếu không có quy định cụ thể với từ khoá của bạn thì google ngụ ý rằng bạn mong đợi để xem các sự kiện gần đây nhất,chứ không phải từ 50 năm trước đây. Ngoài ra còn có những sự kiện tái diễn thường xuyên hơn, vì vậy bây giờ khi bạn muôn tìm kiếm các thông tin mới nhất ví dụ như “ thi hoa hậu” thì bạn sẽ nhận được kết quả là các thông tin mới nhất.
- Cập nhật thường xuyên.
Ngoài ra còn có tìm kiếm các thông tin thay đổi thường xuyên nhưng nó không phải là các sự kiện hot nhất hay các sự kiện có tính chất thường niên. Ví dụ bạn muốn có một website chuyên nghiệp bạn sẽ tìm kiếm “ thiết kế website chuyên nghiệp” or bạn muốn thiết kế một website du lịch bạn sẽ tìm “ thiết kế website du lịch” và bạn cũng nhận được các thông tin mới được cập nhật nhất.
Có nhiều trường hợp các kết quả tìm kiếm mặc dù là của 50 năm trước hoặc lâu hơn vẫn có ích cho bạn thì sao? Các tìm kiếm khác nhau thì sẽ bị ảnh hưởng của thuật toán “ freshness” khác nhau. Thuật toán tìm kiếm “ Freshness” được cải tiến để hiểu được sự khác nhau giữa các kiểu tìm kiếm khác nhau và mức độ “ Freshness” mà bạn cần.
Thuật toán này ảnh hưởng đến 35% các tìm kiếm tuy nhiên tùy thuộc vào ngôn ngữ, và tên miền bạn tìm kiếm thì trong phạm vi như nhau nó có thể ảnh hưởng từ 6-10%.
Kết luận:
- Thuật toán trên của google đã đi sâu hơn vào yếu tố thời gian thực trong kết quả tìm kiếm, điều đó cũng có nghĩa thuật toán đã đánh mạnh vào yếu tố nội dung của website.
- Như một vài phân tích nhỏ ở trên thì các bạn cũng nhận ra rằng các website về tin tức sẽ bị ảnh hưởng nhiều nhất.
Xin vui lòng ghi rõ nguồn :Thietkewebsiteonline[.]com khi phát tán nội dung này đi các website khác.