視索引第用戶輸入的查詢請求非常問短, 查詢的平均長度是 2.7個單調(diào)。如何從如此知的查詢請求里供知隱藏兒的真實用廣需求7這是搜索引擎首需要解決的非常原要的問題。如果不能在取用戶真正的搜索意圖,搜索的準(zhǔn)確性無從談起,即使續(xù)內(nèi)容匹配算法再精巧也無濟于事,
從另外,個角度看,即使是同個查詢詞,不同用戶的搜索目的是不同的,如何識別這種差異7如果更進步, 即使是間個用戶發(fā)出的網(wǎng) 個查詢詞 也可能因為用戶所處場景不同,其目的存在差異,義如何識別?
所有這些把是搜索引繁需要解決的核心問題,即用戶在此時此地發(fā)出某個查詢,他的真實搜索意圖到是什么。

哪些信息是和用戶需求真正相關(guān)的?
上述第個核心問題是從用戶需求角度出發(fā)的,另外兩個核心問題則是從數(shù)據(jù)角度考慮的。搜索引擎本質(zhì)上是個匹配過程, 即從海量數(shù)據(jù)里面找到能夠匹配用戶需求的內(nèi)容。 所以,在明確用戶真實意圖這個前提條件做到,如何找到能夠滿足用戶需求的信息則成為關(guān)鍵因素。
判斷內(nèi)容和用戶查詢關(guān)鍵詞的相關(guān)性,直是信息檢索領(lǐng)域的核心研究課題,不斷提出的信息檢索模型即在試圖解決這個問題。相關(guān)研究歷時近60年,盡管不斷有方法提出,檢效果總體而言也在逐步改進,但是這個領(lǐng)域的基本指導(dǎo)思想還是基于關(guān)鍵詞的匹配,包括現(xiàn)在所有搜索引擎的相關(guān)性計算部分,其基本計算思路和幾十年前相比并無本質(zhì)差異。
如何能夠在這個核心問題上有所突破?這個問題將會越來越重要,而從關(guān)鍵詞匹配到讓機器真正理解信息所代表的含義是解決這個問題必須邁過的門檻。從目前來看,盡管包括人I工智能在內(nèi)的很多相關(guān)研究領(lǐng)域?qū)Υ擞兴M展,但是短期內(nèi)還未能看到解決這問題的清晰技術(shù)思路。
哪些信息是用戶可以信賴的?
搜索本質(zhì)上是找到能夠滿足用戶需求的信息,盡管相關(guān)性是衡量信息是否滿足用戶需求的個重要方面,但并非全部,信息是否值得信賴是另個重要的衡量標(biāo)準(zhǔn)。