收集的網(wǎng)頁數(shù)量和其數(shù)據(jù)庫的更新速度存在著不可調(diào)和的矛盾。用戶經(jīng)常無法打開查詢的結(jié)果。網(wǎng)絡(luò)信息時(shí)刻變動(dòng),實(shí)時(shí)搜索幾乎不可能。就是剛剛瀏覽過的網(wǎng)頁,也隨時(shí)都有更新、過期、刪除的可能。網(wǎng)絡(luò)信息收集與整理是搜索引擎工作的重要一部分。搜索引擎需要定期不斷地訪問網(wǎng)絡(luò)資源。目前網(wǎng)絡(luò)帶寬不足,網(wǎng)絡(luò)速度不夠理想,遍歷如此龐雜的網(wǎng)絡(luò)時(shí)間花費(fèi)是非常龐大的,這就是不能實(shí)時(shí)搜索的原因。
對(duì)多媒體內(nèi)容的處理尚不成熟。迄今為止,搜索對(duì)象主要是文本。基于語義的多媒體搜索技術(shù)還不成熟,比如搜索圖片時(shí)還只能通過周圍相關(guān)的文字進(jìn)行判斷,而無法根據(jù)圖片本身的信息提供檢索。多媒體技術(shù)的發(fā)展,對(duì)搜索引擎提出了更多的要求。人們期望引擎不僅能挑出自己需要的文章,還能挑出自己所關(guān)心的圖片、電影、音樂等。
搜索引擎的“智能”有待提高。一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自動(dòng)排序軟件Spiders蜘蛛程序,只能接受這種格式的網(wǎng)頁。這意味著,在企業(yè)內(nèi)部的局域網(wǎng)上,任何沒有使用HTML格式的信息將無法被外部的搜索引擎查到。這就是為什么像PPT、Word、PDF、電子郵件等文件,以及ERP、CRM等應(yīng)用軟件的數(shù)據(jù)庫的信息會(huì)長(zhǎng)期的“沉沒”在信息的海底中。智能搜索引擎具有跨平臺(tái)工作和處理多種混合文檔結(jié)構(gòu)的能力。譬如既能處理HTML(Hyper Text Markup Language,超文本標(biāo)志語言),又能處理SGML(Standard for General Markup Language,通用標(biāo)志語言標(biāo)準(zhǔn))和XML(Extended Marked Language,擴(kuò)展標(biāo)志語言)文檔以及其他類型的文檔,譬如Word、WPS等。智能搜索引擎應(yīng)該可以支持多語言搜索。
搜索引擎應(yīng)更好地支持動(dòng)態(tài)網(wǎng)頁,許多蜘蛛軟件不敢去碰動(dòng)態(tài)網(wǎng)頁,怕被變化無窮的動(dòng)態(tài)系統(tǒng)黑洞吸進(jìn)去出不來。然而,網(wǎng)站使用動(dòng)態(tài)網(wǎng)頁生成工具乃是大事所趨,解決動(dòng)態(tài)網(wǎng)頁查找的問題已經(jīng)迫在眉睫。
如何解決這些難題已成為第三代搜索引擎探索的方向。一個(gè)好的搜索引擎不再僅憑借數(shù)據(jù)庫大小、更新頻率、檢索速度、對(duì)多語言的支持這幾個(gè)基本特性來衡量,隨著數(shù)據(jù)庫容量的不斷膨脹,如何從龐大的資料庫中精確地找到正確的資料,被公認(rèn)為是下一代搜索技術(shù)的競(jìng)爭(zhēng)要點(diǎn)。
掃一掃關(guān)注官方微信