搜索引擎技術的三個核心問題
 
  雖然,搜索引擎的技術并不是我們SEOer應該考慮的事情,但我們還是應該了解一下,他們到底在研究哪些問題。
搜索引擎技術的三個核心問題
 
  一、搜索引擎相關性技術
 
 ?、?相關性概念
 
  搜索引擎要準確地判斷用戶查詢詞與頁面的相關性,按相關性強弱完成頁面集合的初步篩選和排序。
 
 ?、?相關性分類
 
  1、查詢詞相關性
 
  搜索引擎首先要判斷用戶查詢詞的語義,因為同一個詞在不同的場景下,可以代表不同的意思,只有正確判斷語義后,才能更好地去匹配相關性強的頁面。如果判斷錯誤,那么就可能造成搜索結果頁面全完不是用戶所需的內容,這樣會大大降低用戶的搜索體驗。
 
  例如,用戶搜索“蘋果”,搜索引擎給出的都是iPhone的結果,但那個用戶可能真的只想搜索普通的蘋果。
 
  當然,搜索引擎結果中大部分都顯示iPhone是正常的,因為大部分用戶去搜索“蘋果”這個詞的時候,其語義也是iPhone。當然,也會顯示一些真正的蘋果的結果頁面。
 
  2、用戶相關性
 
  某個用戶看到過哪篇文章,哪個網站,則這個用戶在此搜索某個詞時,這篇文章和這個網站會有不一樣的排名。
 
  某個用戶是某個領域的專家,或者說經常關注這方面的愛好者,當他搜索這個領域的某些詞時,他可能會對多次進入的網站的排名產生積極的作用。
 
  當然,這些用戶相關性可能就是SEO中常說的個性化搜索或個人化搜索。
 
 ?、?檢索模型
 
  為了檢索頁面與用戶搜索詞的相關性,搜索引擎研究人員提出了各種檢索模式,其中最為廣泛使用的為“TF-IDF”。
 
  TF-IDF的核心概念是一定程度上增加TF(關鍵詞頻率或密度、和IDF(關鍵詞的反文檔頻率、的值,最終得到的兩者成績就是判斷頁面相關性的值。
 
  簡單來講,增加關鍵詞頻率或密度,同時尋找一些百度相關搜索結果數小的詞。
 
  二、搜索引擎評價技術
 
  搜索引擎評價體系非常重要,相關性的研究僅僅是最初的篩選和排序,但是否是用戶真正期望的,還需要通過評價體系來完成。
 
 ?、?用戶點擊生成的日志數據
 
  搜索引擎可以將用戶點擊的數據在后臺記錄下來,生成大量的日志數據,再利用這些數據對搜索引擎進行評價。
 
 ?、?搜索引擎評價方法
 
  其中一種為Cyril Cleverdon的評價方法。
 
  評價中有兩種指標:
 
  1、準確率
 
  準確率,是指檢索出來的文檔中相關文檔所占比例。
 
  2、召回率
 
  召回率,是指全部文檔中中被檢測出來的文檔比例。
 
  三、搜索引擎用戶搜索體驗技術
 
  搜索引擎是面向用戶的,用戶搜索體驗是評價搜索引擎好壞的最重要因素之一,這也是目前搜索引擎為什么非常重視用戶搜索體驗的因素。
 
  搜索引擎通過數據可以分析出哪些頁面或網站的用戶搜索體驗好,則將提升其排名或整站權重,對于哪些不好的,則會降低排名或整站權重。
 
  這就好比,我們優化網站,點展比高、PV遠大于UV等數據,證明了我們網站的用戶體驗度比較好,搜索引擎也會給予這樣的網站更好的排名。