中文搜索引擎的幾大誤區(qū)
寶雞網(wǎng)絡(luò)公司 2010-01-23 17:37:52
一、網(wǎng)站目錄就是搜索引擎網(wǎng)站目錄通常是經(jīng)過人工分類的有系統(tǒng)的網(wǎng)站列表,通常附帶有搜索功能。網(wǎng)站目錄就是搜索引擎的名詞始于雅虎,雅虎初創(chuàng)時就是只有一個網(wǎng)站目錄。當(dāng)然很快就通過外包的形式增加了網(wǎng)頁級的搜索。中文網(wǎng)站提供目錄搜索的遠多于提供網(wǎng)頁搜索的,加之媒體的各種炒作,許多網(wǎng)民誤以為網(wǎng)站目錄的搜索功能就是搜索引擎。在美國,因特網(wǎng)搜索引擎通常指的是收集了因特網(wǎng)上幾千萬到幾億個網(wǎng)頁并對網(wǎng)頁中的每一個詞進行索引的搜索服務(wù)系統(tǒng),是基于網(wǎng)頁的全文檢索系統(tǒng)。
二、搜索引擎就是門戶站點如果你要提供搜索服務(wù),大家就認(rèn)為你是一個門戶網(wǎng)站,你就要吸引用戶、提高頁視率(PageView)。實際上,搜索引擎完全可以為內(nèi)容提供商(ICP)、門戶網(wǎng)站提供專業(yè)的搜索服務(wù),而不必直接面對用戶,這是一種典型的應(yīng)用服務(wù)提供(ASP)模式。
三、搜索引擎的概念已經(jīng)過時 搜索引擎是互聯(lián)網(wǎng)上最先商業(yè)化的一個應(yīng)用服務(wù),它對于幫助網(wǎng)民快速尋找到所需要的信息非常關(guān)鍵。因特網(wǎng)搜索引擎是一個全自動的軟件服務(wù),并且非常容易在搜索結(jié)果網(wǎng)頁中插入具有很高針對性的廣告,CPM最高可達70美元;所以一旦投入運轉(zhuǎn),其收益與成本的比率遠高于一般的網(wǎng)站內(nèi)容服務(wù)。根據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)2000年1月的統(tǒng)計結(jié)果,在中國網(wǎng)民中,搜索是排在電子郵件之后的第二大互聯(lián)網(wǎng)應(yīng)用。
四、中文搜索引擎技術(shù)已經(jīng)成熟不要說中文,即使英文的搜索引擎也沒有發(fā)展成熟。這一方面表現(xiàn)在新的搜索引擎公司層出不窮,如Google, AskJeeves等;另一方面更表現(xiàn)在美國前三大網(wǎng)站都外包了它們的網(wǎng)頁搜索部分。實際上,美國在線、雅虎和微軟網(wǎng)絡(luò)的搜索服務(wù)都是由一家叫Inktomi的公司提供的。這是因為搜索引擎技術(shù)變化非?,這些網(wǎng)站無法自行跟蹤最前沿的技術(shù)。之所以有人會有搜索引擎技術(shù)已經(jīng)成熟的概念,其實是因為網(wǎng)站門戶公司意識到了它們的長處并不是搜索技術(shù)的創(chuàng)新,而是互聯(lián)網(wǎng)上大眾品牌的建立。中文搜索引擎技術(shù)出現(xiàn)的時間并不比英文的晚多少,然而發(fā)展速度卻遠遠趕不上英文,這是由于網(wǎng)頁級搜索引擎的開發(fā)難度相當(dāng)大,該方面的專業(yè)人才奇缺,有開發(fā)這種搜索引擎經(jīng)驗的人,即使在硅谷也屬鳳毛麟角,開發(fā)所需要的硬件要求也比一般的網(wǎng)頁制作高出很多。百度公司結(jié)合硅谷搜索引擎人才精英,依托北京最優(yōu)秀的軟件人才,開發(fā)了大型商業(yè)化的中文搜索引擎,中文搜索從此與英文站在了同一起跑線上。
五、中文搜索引擎速度很慢某些中文網(wǎng)站的網(wǎng)頁搜索服務(wù)外包給了一些服務(wù)器在境外的應(yīng)用服務(wù)提供商(ASP),如AltaVista或Openfind等, 由于用戶搜索需要占用出國帶寬,因而速度極慢。這不是中文搜索引擎的錯,而是這些網(wǎng)站沒有選對ASP 所致。
六、中英文混合檢索詞是不被支持的 當(dāng)你輸入“MP3”時,有些網(wǎng)站會認(rèn)為你在查找英文網(wǎng)頁,進而自動將你送到一個英文搜索引擎上;更多的網(wǎng)頁搜索服務(wù)不能對“甲A”、“F-1一級方程式”等中英混合查詢作出恰當(dāng)?shù)姆磻?yīng)。然而搜索技術(shù)并非對此無能為力,百度搜索就完全解決了中英文混查的問題。
七、中文搜索引擎的相關(guān)性無法與英文相媲美中文與英文最大的不同之處在于中文中有詞的概念,檢索字串與網(wǎng)頁中文字的簡單匹配并不見得就是語義上的匹配;要想提高中文搜索的相關(guān)性,必須結(jié)合中文詞和中文字,并使用一些先進的算法,如新一代信息檢索(IR)算法、超鏈分析(LinkAnalysis)等。中文 搜索也有許多英文搜索望塵莫及之處,如中文網(wǎng)頁極少有針對搜索引擎的欺騙(Spamming)行為,中文沒有單復(fù)數(shù)、時態(tài)等的變化,大多數(shù)先進的算法也完全適用于中文。中文搜索的相關(guān)性完全可以與英文媲美。百度搜索使用了目前國際上先進的搜索引擎技術(shù),并結(jié)合中文的語言特點和文化特點,成功地解決了中文搜索的相關(guān)性問題。