久久99精品久久久久久琪琪,久久人人爽人人爽人人片亞洲,熟妇人妻无码中文字幕,亚洲精品无码久久久久久久

網(wǎng)絡(luò)信息檢索技術(shù)(5篇材料)

時(shí)間:2019-05-14 20:52:58下載本文作者:會(huì)員上傳
簡(jiǎn)介:寫(xiě)寫(xiě)幫文庫(kù)小編為你整理了多篇相關(guān)的《網(wǎng)絡(luò)信息檢索技術(shù)》,但愿對(duì)你工作學(xué)習(xí)有幫助,當(dāng)然你在寫(xiě)寫(xiě)幫文庫(kù)還可以找到更多《網(wǎng)絡(luò)信息檢索技術(shù)》。

第一篇:網(wǎng)絡(luò)信息檢索技術(shù)

網(wǎng)絡(luò)信息檢索技術(shù)

網(wǎng)絡(luò)信息檢索中,基本的檢索技術(shù)有布爾邏輯檢索、截詞檢索、位置檢索、限制檢索等。

一、布爾邏輯檢索

邏輯檢索是一種開(kāi)發(fā)較早、比較成熟、在信息檢索系統(tǒng)中廣泛應(yīng)用的技術(shù)。布爾邏輯檢索就是采用布爾關(guān)系運(yùn)算符來(lái)表達(dá)檢索詞與檢索詞之間邏輯關(guān)系的檢索方法,目前最常用的布爾邏輯運(yùn)算符主要包括邏輯“與”(AND)、邏輯“或”(OR)、邏輯“非”(NOT)。

(一)邏輯“與”

邏輯“與”,也稱(chēng)為邏輯乘,用AND表示,是用來(lái)組配不同含義檢索詞之間的限定關(guān)系。檢索詞A、B以AND(或“*”)相連,即A AND B(或A*B),表示同時(shí)包含A、B兩詞的文獻(xiàn)才是命中記錄,因而邏輯“與”運(yùn)算用于對(duì)檢索詞進(jìn)行限定,從而縮小檢索范圍,提高檢索結(jié)果的查準(zhǔn)率。

例如,要查找children education(兒童教育)方面的文獻(xiàn),檢索邏輯式可表示為“children * education”或者“children AND education”。運(yùn)算的結(jié)果是同時(shí)含有檢索詞children和檢索詞education的文獻(xiàn)才被檢索出來(lái)。

(二)邏輯“或”

邏輯“或”,也稱(chēng)為邏輯加,用OR或者“+”表示,是用來(lái)組配同義或者同族檢索詞之間的并列關(guān)系。檢索詞A、B若以O(shè)R或“+”相連,即A OR B(或A+B),表示只要含有A、B之一或者同時(shí)包含A、B的文獻(xiàn)都是命中記錄。因而邏輯“或”運(yùn)算可用于擴(kuò)大檢索范圍。

例如,要查找“汽車(chē)”方面的文獻(xiàn),因?yàn)槠?chē)在英語(yǔ)中可以用car或者automobile表示,所以為了將有關(guān)汽車(chē)的文獻(xiàn)全部檢出,避免漏檢,檢索邏輯式就可表示為“car OR automobile”或者“car + automobile”。運(yùn)算的結(jié)果是含有car或者automobile任意一個(gè)或者同時(shí)兩個(gè)的文獻(xiàn)均被檢索出來(lái)。

(三)邏輯“非”

邏輯“非”用NOT或者“-”來(lái)表示,是用來(lái)組配概念的包含關(guān)系,可以從原檢索范圍中排除一部分,因而使用邏輯“非”運(yùn)算可以縮小檢索范圍。檢索詞A、B若以NOT(或“-”)相連,即A NOT B(或A-B),表示只含有檢索詞A而不含有B的文獻(xiàn)才是命中記錄。邏輯“非”可用于縮小檢索范圍,但是不一定能提高文獻(xiàn)命中的準(zhǔn)確率。在使用時(shí)要注意,避免將相關(guān)的有用文獻(xiàn)排除在外。

例如,要查找有關(guān)“energy(能源)”,但又不涉及“nuclear(核能)”方面的文獻(xiàn),檢索邏輯式可表示為“energy NOT nuclear”“energy-nuclear”。運(yùn)算的結(jié)果是含有energy,但不含有nuclear的文獻(xiàn)將被檢索出來(lái)。

這三種邏輯式的文氏圖如下:

圖3-1布爾邏輯文氏圖

上面三種檢索邏輯式是最為簡(jiǎn)單的布爾邏輯運(yùn)算。在檢索實(shí)踐中,可以根據(jù)實(shí)際需要,組合使用多個(gè)布爾運(yùn)算符,以準(zhǔn)確表達(dá)檢索主題。

布爾邏輯檢索與人們的思維習(xí)慣一致,表達(dá)清晰,方便用戶(hù)進(jìn)行擴(kuò)檢和縮檢,而且易于計(jì)算機(jī)實(shí)現(xiàn),因此,在計(jì)算機(jī)信息檢索系統(tǒng)中得到廣泛使用。但是它無(wú)法反映檢索詞對(duì)于檢索的重要性,無(wú)法反映概念之間內(nèi)在的語(yǔ)義聯(lián)系,因而檢索結(jié)果不能按照用戶(hù)定義的重要性排序輸出。

使用布爾邏輯運(yùn)算符的注意事項(xiàng):

布爾邏輯檢索在聯(lián)機(jī)檢索、光盤(pán)檢索和網(wǎng)絡(luò)檢索中都有廣泛的應(yīng)用,但是不同的檢索工具的布爾邏輯檢索技術(shù)存在一定的差異,因此,使用布爾邏輯檢索需要注意以下問(wèn)題:

1、布爾邏輯檢索的執(zhí)行順序。三種布爾邏輯檢索運(yùn)算符之間的運(yùn)算順序?yàn)镹OT、AND、OR。有括號(hào)時(shí),先執(zhí)行括號(hào)內(nèi)的邏輯運(yùn)算。

2、不同檢索工具的布爾邏輯檢索有不同的表現(xiàn)形式和使用規(guī)則。首先,不同檢索工具表示布爾邏輯關(guān)系的符號(hào)不同,有的用“+”、“-”表示AND、NOT,有的用ANDNOT代替NOT(如Excite搜索引擎),有的要求運(yùn)算符必須大寫(xiě),有的則要求為小寫(xiě)形式;其次,不同檢索工具的檢索詞之間的默認(rèn)布爾邏輯關(guān)系不同,有的檢索工具檢索詞之間的默認(rèn)關(guān)系是AND,有的檢索工具的檢索詞之間的默認(rèn)關(guān)系是OR;此外,不同檢索工具支持布爾邏輯的方式不同,有的檢索工具使用符號(hào)來(lái)實(shí)現(xiàn)布爾邏輯關(guān)系,一些檢索工具則完全省略了任何符號(hào),直接用文字和表格來(lái)體現(xiàn)不同的邏輯關(guān)系,如用All of These Words表示AND,用Any of These Words表示OR,用None of These Words表示NOT。

二、截詞檢索

截詞檢索是指在檢索式中使用專(zhuān)門(mén)的符號(hào)(截詞符號(hào))表示檢索詞的某一部分允許有一定的詞形變化,用檢索詞的詞干或不完整的詞形查找信息的一種檢索方法。并認(rèn)為凡滿(mǎn)足這個(gè)詞局部中的所有字符的文獻(xiàn),都為命中的文獻(xiàn)。在實(shí)際檢索的過(guò)程中,為了減少檢索詞的輸入量,同時(shí)又?jǐn)U大檢索范圍,保證查全率,可以使用截詞檢索。

截詞的方式有多種。按截?cái)嗟奈恢脕?lái)分,可分為后截?cái)唷⒅薪財(cái)嗪颓敖財(cái)啵话唇財(cái)嗟淖址麛?shù)量來(lái)分,可分為有限截?cái)嗪蜔o(wú)限截?cái)唷S邢藿財(cái)嗍侵刚f(shuō)明具體截去字符的數(shù)量,通常用“?”表示;而無(wú)限截?cái)嗍侵覆徽f(shuō)明具體截去字符的數(shù)量,通常用“x”表示。

(一)后截?cái)?/p>

后截?cái)嗍亲畛S玫慕卦~檢索技術(shù),是將截詞符號(hào)放置在一個(gè)字符串右方,以表示其右的有限或無(wú)限個(gè)字符將不影響該字符串的檢索,是一種前方一致的檢索。這種方法可以省略輸入各種詞尾有變化的檢索詞的麻煩,有助于提高查全率。

例如,輸入“inform x”,則前6個(gè)字符為inform的所有詞均滿(mǎn)足條件,因而能檢索出含有informant、informal、information、informative、informed、informer等詞的文獻(xiàn)。而輸入“inform??”,可檢索出含有inform、informal、informed、informer的文獻(xiàn)。(二)前截?cái)?/p>

前截?cái)嗍菍⒔卦~符號(hào)放置在一個(gè)字符串左方,以表示其左方的有限或無(wú)限個(gè)字符不影響該字符串檢索,是一種后方一致的檢索。這種檢索方法在各種詞頭有變化的復(fù)合詞的檢索中應(yīng)用比較多,有助于提高查全率。

例如,輸入“x magnetic”,可以檢索出含magnetic、electro-magnetic等詞的文獻(xiàn)。

(三)中截?cái)?/p>

中截?cái)嗍前呀財(cái)喾?hào)放置在一個(gè)檢索詞的中間。一般地,中截?cái)嘀辉试S有限截?cái)唷V薪財(cái)嘀饕鉀Q一些英文單詞拼寫(xiě)不同,單復(fù)數(shù)形式不同的詞的輸入。

例如,輸入“c?t”,可以檢索出含有詞cat、cut的文獻(xiàn);輸入“mod?ation”可以檢索出含有詞moderation、modernization、modification的文獻(xiàn)。

利用截詞檢索技術(shù)可以減少檢索詞的輸入量,簡(jiǎn)化檢索,擴(kuò)大檢索范圍,提高查全率。但是,不同的檢索工具有不同的截詞規(guī)則,使用的截詞符號(hào)也沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),如Dialog系統(tǒng)用“?”,BRS系統(tǒng)用“$”,ORBIT系統(tǒng)用“#”等。

三、位置檢索

位置檢索,也稱(chēng)臨近檢索,主要是通過(guò)位置運(yùn)算符來(lái)規(guī)定和限制檢索詞之間的相對(duì)位置或者檢索詞在記錄中的特定位置來(lái)實(shí)施檢索的技術(shù)。這里我們只介紹位置檢索中的詞位置檢索。

詞位置檢索主要是利用位置邏輯算符限定檢索詞之間的位置,來(lái)反映要檢索的信息概念。常用的詞位置算符有(W)與(nW)、(N)與(nN)以及(X)與(nX)三類(lèi)。

(一)(W)算符與(nW)算符

(W)算符是Word和With的縮寫(xiě),它表示在此算符兩側(cè)的檢索詞必須按輸入時(shí)的前后順序排列,而且所連接的詞之間除可以有一個(gè)空格、一個(gè)標(biāo)點(diǎn)符號(hào)或一個(gè)連接號(hào)外,不得夾有任何其他單詞或字母,且詞序不能顛倒。(nW)算符的含義是允許在連接的兩個(gè)詞之間最多夾入n個(gè)其他單元詞。

例如,“VISUAL(W)FOXPRO”可以檢出

VISUALFOXPRO 或VISUAL FOXPRO;“control(1W)system”可以檢出含有contro1 system、control of system和contro1 in system的文獻(xiàn)。

(二)(N)算符與(nN)算符

(N)算符是Near的縮寫(xiě),它表示在此算符兩側(cè)的檢索詞必須緊密相連,所連接的檢索詞之間不允許插入任何其他單詞或字母,但詞序可以顛倒。(nN)算符表示在兩個(gè)檢索詞之間最多可以插入n個(gè)單詞,且這兩個(gè)檢索詞的詞序任意。

例如,“control(1N)system”不僅可以檢出含有control system、control of systcm和control in system 的文獻(xiàn),還可以檢出含有system of control、system without control等的文獻(xiàn)。

(三)(X)算符與(nX)算符

(X)算符要求其兩側(cè)的檢索詞完全一致,并以指定的順序相鄰,且中間不允許插入任何其他單詞或字母。它常用來(lái)限定兩個(gè)相同且必須相鄰的詞。(nX)算符的含義是要求其兩側(cè)的檢索詞完全一致,并以指定的順序相鄰,兩個(gè)檢索詞之間最多可以插入n個(gè)單元詞。

例如,“side(1X)side”可以檢索到含有side by side的文獻(xiàn)。

四、限制檢索

限制檢索是通過(guò)限制檢索范圍,從而達(dá)到約束和優(yōu)化檢索結(jié)果的一種方法。限制檢索的方式有多種,常用的有字段限制檢索和限制符限制檢索。

(一)字段檢索

數(shù)據(jù)庫(kù)記錄是由若干個(gè)字段組成的,字段檢索是把檢索詞限定在數(shù)據(jù)庫(kù)記錄的特定字段中的檢索方法,如果記錄的相應(yīng)字段中含有輸入的檢索詞則為命中記錄。字段限制檢索可以縮小檢索范圍,提高查準(zhǔn)率。

數(shù)據(jù)庫(kù)中提供的可供檢索的字段通常分為基本索引字段和輔助索引字段兩大類(lèi)。基本索引字段表示文獻(xiàn)的內(nèi)容特征,有TI(篇名、題目)、AB(摘要)、DE(敘詞)、ID(自由標(biāo)引詞)等;輔助索引字段表示文獻(xiàn)的外部特征,有AU(作者)、CS(作者單位)、JN(刊物名稱(chēng))、PY(出版年份)、LA(語(yǔ)言)等。在檢索提問(wèn)式中,可以利用后綴符“/”對(duì)基本索引字段進(jìn)行限制,利用前綴符“=”對(duì)輔助索引字段加以限制。例如,“(information retrieval/TI OR digital library/DE)AND PY=2006”所表達(dá)的檢索要求是,查找2006年出版的關(guān)于信息檢索或數(shù)字圖書(shū)館方面的文獻(xiàn),并要求information retrieval一詞在命中文獻(xiàn)的TI(篇名)字段中出現(xiàn),digital library一詞在DE(敘詞)字段中出現(xiàn)。

(二)限制檢索

限制符檢索是使用AU(作者)、CS(作者單位)、JN(刊物名稱(chēng))、PY(出版年份)、LA(語(yǔ)言)等限制符號(hào)從文獻(xiàn)的外部特征方面限制檢索范圍和檢索結(jié)果的一種方法。限制符的用法與后綴符相同,而它的作用則與前綴符相同。

例如,“aircraft/TI,PAT”表示檢索結(jié)果只包含aircraft這一主題的專(zhuān)利文獻(xiàn)。限制符還可以與前、后綴符同時(shí)使用,這時(shí)字段代碼與限制符之間的關(guān)系是邏輯“與”,即最終的檢索結(jié)果應(yīng)同時(shí)滿(mǎn)足字段檢索和限制符檢索兩方面的要求。

第二篇:論網(wǎng)絡(luò)信息檢索技術(shù)

論網(wǎng)絡(luò)信息檢索技術(shù)

摘要:20世紀(jì)以來(lái),人類(lèi)創(chuàng)生的信息量高速增長(zhǎng),浩如煙波。如何從這海量的信息里找出所需信息就成為信息檢索的重任。隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,越來(lái)越多的人把因特網(wǎng)作為獲取日常信息的重要手段。掌握信息檢索的方法與技巧是非常有必要的,人們對(duì)快速、準(zhǔn)確、有效地獲取網(wǎng)絡(luò)信息資源的需求是急切的,人們對(duì)網(wǎng)絡(luò)信息的檢索技術(shù)及其發(fā)展趨勢(shì)進(jìn)行探討和研究,也是迫切而實(shí)用的。針對(duì)網(wǎng)絡(luò)信息檢索的各種方法與技巧進(jìn)行了客觀的分析與思考,旨在尋找提高網(wǎng)絡(luò)信息檢索的手段和方法的有效途徑,并最終提高網(wǎng)絡(luò)信息的檢索效果,使得網(wǎng)絡(luò)信息資源得到充分有效地利用。關(guān)鍵詞:網(wǎng)絡(luò)、信息檢索、檢索技術(shù)、工具

0 引言

進(jìn)入20世紀(jì)90年代以后,互聯(lián)網(wǎng)的發(fā)展風(fēng)起云涌,人類(lèi)社會(huì)的信息化、網(wǎng)絡(luò)化進(jìn)程大大加快。與之相適應(yīng)的信息檢索的交流平臺(tái)也迅速轉(zhuǎn)移到以WWW為核心的網(wǎng)絡(luò)應(yīng)用環(huán)境中,信息檢索步入網(wǎng)絡(luò)化時(shí)代,網(wǎng)絡(luò)信息檢索已基本取代了手工檢索。

什么是信息?信息是消息,人們?cè)趯W(xué)習(xí)、工作、日常生活中隨時(shí)隨地都在接受和利用信息;信息是資源,它具有使用價(jià)值和價(jià)值;信息是財(cái)富,且是無(wú)價(jià)之財(cái)富;信息是生產(chǎn)力要素,更是一種不可估量的促進(jìn)生產(chǎn)力發(fā)展的新動(dòng)力。因此,人類(lèi)社會(huì)的發(fā)展,科技技術(shù)的進(jìn)步,都離不開(kāi)信息資源的開(kāi)發(fā)和利用。而且,信息資源的真實(shí)狀況及開(kāi)發(fā)利用程度,已經(jīng)成為衡量一個(gè)國(guó)家經(jīng)濟(jì)、文化、科技以及綜合國(guó)力的重要指標(biāo)。我們?cè)鯓涌焖俚牟檎倚畔⒑陀行虻恼硇畔ⅲ啃畔z索是最快的途徑。

信息檢索是指將信息按一定的方式組織和存儲(chǔ)起來(lái),并根據(jù)信息用戶(hù)的信息需求查找所需信息的過(guò)程和技術(shù)。人們獲取信息源的方式主要有:①傳統(tǒng)的信息檢索方法,通過(guò)人工查詢(xún)?cè)趫D書(shū)館等提供文獻(xiàn)的機(jī)構(gòu)進(jìn)行文獻(xiàn)的查詢(xún)和獲取活動(dòng);②聯(lián)機(jī)信息檢索相對(duì)于前者來(lái)說(shuō)具有實(shí)時(shí)性、完整性、共享性、廣泛性等優(yōu)點(diǎn);③網(wǎng)絡(luò)信息檢索是指通過(guò)網(wǎng)絡(luò)信息檢索工具檢索存在于Internet信息空間中各種類(lèi)型的網(wǎng)絡(luò)信息資源。網(wǎng)絡(luò)信息檢索的現(xiàn)狀以及策略

在這個(gè)高速發(fā)展的信息時(shí)代的社會(huì),隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,越來(lái)越多的人把因特網(wǎng)作為獲取日常信息的重要手段。用網(wǎng)絡(luò)搜索一些信息,如了解時(shí)事、生活疑惑、尋醫(yī)問(wèn)病、自?shī)首詷?lè)等,通常都比較方便快捷。然而,網(wǎng)絡(luò)信息資源相當(dāng)豐富,多種多樣,當(dāng)人們進(jìn)行專(zhuān)業(yè)信息檢索時(shí),結(jié)果往往不盡如人意。即便是經(jīng)常上網(wǎng)高校的老師與學(xué)生也有常常搜索不到專(zhuān)業(yè)文獻(xiàn)信息的時(shí)候。

由于信息資源數(shù)量龐大、各信息間又相互交叉滲透,使得一些科研課題資料的檢索相當(dāng)?shù)挠须y度,因此,我們必須掌握合理的檢索策略,這樣才能保證我們能有滿(mǎn)意的檢索效果。所謂檢索策略,就是正確的選擇檢索詞、科學(xué)合理的提問(wèn)等。首先應(yīng)對(duì)要檢索的內(nèi)容進(jìn)行細(xì)致的分析,將完整的主題分為一個(gè)個(gè)獨(dú)立的檢索概念,然后要注意選全、選好相關(guān)詞。在檢索英文資料時(shí),還要注意英美不同的拼寫(xiě)形式以及檢索詞的單復(fù)數(shù)形式、縮寫(xiě)形式等,然后采用布爾邏輯的原理,將表達(dá)相關(guān)概念的各檢索詞組配起來(lái),以轉(zhuǎn)換成搜索引擎可以理解的信息提問(wèn)式,在對(duì)其數(shù)據(jù)庫(kù)進(jìn)行搜索后,便可獲得相應(yīng)的結(jié)果。因特網(wǎng)上的信息浩繁龐雜,一些有價(jià)值的專(zhuān)業(yè)信息被大量無(wú)用信息所淹沒(méi),要想系統(tǒng)的、全面的、準(zhǔn)確的獲取有價(jià)值的信息,就需要學(xué)會(huì)科學(xué)的制定信息技術(shù)策略。

2網(wǎng)絡(luò)信息檢索的原理及方法

網(wǎng)絡(luò)信息檢索是指通過(guò)網(wǎng)絡(luò)信息檢索工具檢索存在于Internet信息空間中各種類(lèi)型的網(wǎng)絡(luò)信息資源。

網(wǎng)絡(luò)信息檢索工具是網(wǎng)絡(luò)信息檢索技術(shù)的實(shí)物體現(xiàn)。目前,常用的網(wǎng)絡(luò)信息檢索模型有布爾邏輯模型、模糊邏輯模型和概率模型等幾種方式。

①布爾邏輯模型——這是一種簡(jiǎn)單而常用的嚴(yán)格匹配模型。用戶(hù)可以根據(jù)檢索項(xiàng)在文檔中的布爾邏輯關(guān)系提交查詢(xún),搜索工具根據(jù)事先建立的倒排文檔結(jié)構(gòu)確定查詢(xún)結(jié)果。標(biāo)準(zhǔn)的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢(xún)相關(guān),要么與查詢(xún)無(wú)關(guān)。利用這種模型進(jìn)行查詢(xún),其查詢(xún)結(jié)果一般沒(méi)有按照內(nèi)容的相關(guān)特性排序。

②模糊邏輯模型——它在查詢(xún)結(jié)果處理中引進(jìn)了模糊邏輯比較,并且按照相關(guān)的優(yōu)先次序排列查詢(xún)結(jié)果,這樣就可以克服布爾邏輯模型信息查詢(xún)結(jié)果的無(wú)序性。

③ 概率模型——它是基于貝葉斯概率原理而提出的,根據(jù)詞條、文檔間的內(nèi)在聯(lián)系,利用詞條間和詞條與文檔間的概率相依性來(lái)進(jìn)行信息檢索。

要在網(wǎng)上獲取信息,我們就需要找到提供信息源的服務(wù)器。首先找到各個(gè)服務(wù)器在網(wǎng)上的地址,然后通過(guò)該地址去訪(fǎng)問(wèn)服務(wù)器提供的信息。大致有以下幾種方法: 2.1漫游法

這是在因特網(wǎng)上發(fā)現(xiàn)、檢索信息的原始方法。即在日常的網(wǎng)絡(luò)閱讀、漫游過(guò)程中,意外發(fā)現(xiàn)一些有用信息。這種方式的目的性不是很強(qiáng),具不可預(yù)見(jiàn)性和偶然性。

用戶(hù)在閱讀超文本文檔時(shí),利用文檔中的鏈接從一網(wǎng)頁(yè)轉(zhuǎn)向另一相關(guān)網(wǎng)頁(yè)。此方法類(lèi)似于傳統(tǒng)手工檢索中的追溯檢索,即根據(jù)文獻(xiàn)后所附的參考文獻(xiàn)追溯查找相關(guān)的文獻(xiàn),從而不斷擴(kuò)大檢索范圍。這種方法可能在較短的時(shí)間內(nèi)檢出大量相關(guān)信息,也可能偏離檢索目標(biāo)而一無(wú)所獲。2.2直接查找法

直接查找法是已經(jīng)知道要查找的信息可能存在的地址,而直接在瀏覽器的地址欄中輸入其網(wǎng)址進(jìn)行瀏覽查找的方法。此方法適合于經(jīng)常上網(wǎng)漫游的用戶(hù)。其優(yōu)點(diǎn)是節(jié)省時(shí)間、目的性強(qiáng)、節(jié)省費(fèi)用,缺點(diǎn)是信息量少。2.3搜索引擎檢索法

此方法是最為常規(guī)、普遍的網(wǎng)絡(luò)信息檢索方法。搜索引擎是提供給用戶(hù)進(jìn)行關(guān)鍵詞、詞組或自然語(yǔ)言檢索的工具。用戶(hù)提出檢索要求,搜索引擎代替用戶(hù)在數(shù)據(jù)庫(kù)中進(jìn)行檢索,并將檢索結(jié)果提供給用戶(hù)。它一般支持布爾檢索、詞組檢索、截詞檢索、字段檢索等功能。利用搜索引擎進(jìn)行檢索的優(yōu)點(diǎn)是:省時(shí)省力,簡(jiǎn)單方便,檢索速度快、范圍廣,能及時(shí)獲取新增信息。其缺點(diǎn)是:由于采用計(jì)算機(jī)軟件自動(dòng)進(jìn)行信息的加工、處理,且檢索軟件的智能性不很高,造成檢索的準(zhǔn)確性不是很理想,與人們的檢索需求及對(duì)檢索效率的期望有一定差距。

2.4網(wǎng)絡(luò)資源指南檢索法

此方法是利用網(wǎng)絡(luò)資源指南進(jìn)行查找相關(guān)信息的方法。

網(wǎng)絡(luò)資源指南類(lèi)似于傳統(tǒng)的文獻(xiàn)檢索工具————書(shū)目之書(shū)目或?qū)n}書(shū)目,其目的是可實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)信息資源的智能性查找。它們通常由專(zhuān)業(yè)人員在對(duì)網(wǎng)絡(luò)信息資源進(jìn)行鑒別、選擇、評(píng)價(jià)、組織的基礎(chǔ)上編制而成,對(duì)于有目的的網(wǎng)絡(luò)信息檢索具有重要的指導(dǎo)作用。其局限性在于:由于其管理、維護(hù)跟不上網(wǎng)絡(luò)信息的增長(zhǎng)速度,使得其收錄范圍不夠全面,新穎性、及時(shí)性不夠強(qiáng),且用戶(hù)還要受標(biāo)引者分類(lèi)思想的限制。2.5 在線(xiàn)數(shù)據(jù)庫(kù)查詢(xún)

利用網(wǎng)上的在線(xiàn)數(shù)據(jù)庫(kù)進(jìn)行查詢(xún)。訪(fǎng)問(wèn)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)是用戶(hù)獲取學(xué)術(shù)性信息的最有效方法。網(wǎng)上在線(xiàn)數(shù)據(jù)庫(kù)有很多,比如:超星數(shù)字圖書(shū)館、萬(wàn)方數(shù)據(jù)庫(kù)資源系統(tǒng)、中國(guó)維普數(shù)據(jù)庫(kù)、CNKI中國(guó)期刊網(wǎng)數(shù)據(jù)庫(kù)等。

3網(wǎng)絡(luò)信息檢索詳論

3.1網(wǎng)絡(luò)信息檢索方式

其檢索方式有:瀏覽器方式和搜索引擎方式。(l)瀏覽器方式

只要能夠進(jìn)入html就能夠通過(guò)瀏覽器,利用HTTP協(xié)議提供的萬(wàn)維網(wǎng)服務(wù),瀏覽接觸頁(yè)面和通過(guò)Web頁(yè)面提供的檢索方式訪(fǎng)問(wèn)數(shù)據(jù)庫(kù)。

(2)搜索引擎方式

搜索引擎是internet提供公共信息檢索服務(wù)的Web站點(diǎn),它是以一定的技術(shù)和策略在internet中搜集和發(fā)現(xiàn)網(wǎng)絡(luò)信息,并對(duì)網(wǎng)絡(luò)信息進(jìn)行理解、提取和處理,建立數(shù)據(jù)庫(kù),同時(shí)以web形式提供一個(gè)檢索界面,供用戶(hù)輸入檢索關(guān)鍵詞、詞組或短語(yǔ)等檢索項(xiàng),代替用戶(hù)在數(shù)據(jù)庫(kù)中查找出與提問(wèn)相匹配的記錄,同時(shí)返回結(jié)果且按相關(guān)度排序輸出,從而起到快速查找信息的目的。搜索引擎所處理的信息資源主要包括萬(wàn)維網(wǎng)服務(wù)器上的信息,另外還包括電子郵件和新聞組信息。搜索引擎服務(wù)的宗旨是為滿(mǎn)足用戶(hù)的信息需要,所以它是面向用戶(hù)的,采用的方式是交互式的。3.2網(wǎng)絡(luò)信息檢索工具

從20世紀(jì)80年代起人們就開(kāi)發(fā)了諸如Archive、WAIS、Veronica等檢索工具,從90年代中期起又出現(xiàn)了檢索萬(wàn)維網(wǎng)絡(luò)信息資源的搜索引擎技術(shù),并以此構(gòu)造檢索所有各類(lèi)網(wǎng)絡(luò)信息資源的集成化支撐體系。據(jù)統(tǒng)計(jì),各種各樣的Internet網(wǎng)絡(luò)信息檢索工具已有數(shù)千個(gè),按這些工具的檢索機(jī)制、檢索內(nèi)容范圍,以及檢索工具的數(shù)量、檢索資源類(lèi)型,可將它們劃分為以下各類(lèi):

(l)按檢索機(jī)制劃分

根據(jù)檢索工具的數(shù)據(jù)檢索機(jī)制,可將檢索工具分為檢索型、目錄型和混合型檢索工具。(2)按檢索內(nèi)容劃分

根據(jù)檢索工具的數(shù)據(jù)內(nèi)容,檢索工具可分為綜合型、專(zhuān)題型和特殊檢索工具書(shū)。(3)按包含檢索工具數(shù)量劃分 根據(jù)檢索工具數(shù)量劃分,檢索工具可分為單獨(dú)型和復(fù)合型檢索工具。(4)按檢索資源類(lèi)型劃分

根據(jù)檢索工具針對(duì)的數(shù)據(jù)資源類(lèi)型,可將檢索工具分為萬(wàn)維網(wǎng)檢索工具和非萬(wàn)維網(wǎng)檢索工具。

3.3網(wǎng)絡(luò)信息檢索技巧

目前常用的信息檢索方法有兩種:一種是利用搜索引擎進(jìn)行關(guān)鍵詞、主題詞或自然語(yǔ)言檢索。最著名的搜索引擎有AltaVista、Excite、HotBot、Infoseek等;另一種是按主題分類(lèi)指南進(jìn)行檢索,如Yahoo!就是按主題組織資源、逐次分類(lèi),供讀者按需查詞的;有的檢索工具兩種方式可以隨時(shí)切換使用, 如Info seek。相比之下, 前者信息的獲取太雜亂, 魚(yú)龍混雜, 精確度太低, 需通過(guò)多次篩選才能找到所需信息。而后者的信息組織系統(tǒng)性較強(qiáng),精確度較高。但主要問(wèn)題在于獲取率較低且很難反映信息之間的關(guān)聯(lián)性。由此可見(jiàn), 兩種方法各有利弊, 讀者要根據(jù)檢索的目的來(lái)挑選和使用檢索工具,同時(shí)要學(xué)習(xí)一些提高檢索效果的方法和技巧。

(l)檢索關(guān)鍵詞具體化;(2)運(yùn)用詞組檢索;

(3)巧用Boolean邏輯詞:AND、OR 和NOT。

4網(wǎng)絡(luò)信息檢索的技巧

在中國(guó),用來(lái)獲取中文信息的搜索引擎,主要是揚(yáng)名華人世界的百度搜索引擎和全球聞名的Google搜索引擎。Google在外文信息搜索方面有絕對(duì)的優(yōu)勢(shì),并較早推出了中文信息搜索,而百度專(zhuān)攻中文搜索,并在漢語(yǔ)特點(diǎn)研究等方面做出來(lái)很大貢獻(xiàn),近幾年又推出了多種特色搜索服務(wù),從而在中文網(wǎng)絡(luò)搜索領(lǐng)域占據(jù)了絕對(duì)的優(yōu)勢(shì)。另外,我們常見(jiàn)的搜索引擎還有雅虎、網(wǎng)易有道、百度等。掌握網(wǎng)絡(luò)信息搜索技巧對(duì)于很好地利用這些搜索引擎很有幫助,對(duì)自己搜索信息更是簡(jiǎn)單至極。通過(guò)互聯(lián)網(wǎng)獲取信息,如何避免在浩瀚的互聯(lián)網(wǎng)海洋中迷失方向,掌握一些基本的網(wǎng)上搜索技巧可以說(shuō)是必需的。網(wǎng)上的信息搜索技術(shù)如此的多,怎樣才能高效迅速地找到問(wèn)題的答案呢?有幾種技術(shù)可以幫助你更加快捷地找到所需網(wǎng)頁(yè)。沒(méi)有一種技術(shù)是萬(wàn)能的,但將幾種技術(shù)巧妙地結(jié)合起來(lái)使用會(huì)大大加快網(wǎng)頁(yè)搜索進(jìn)程。

網(wǎng)上的內(nèi)容雖然很豐富,但必須先有人放上網(wǎng)。搜索引擎本事再大,也搜索不到網(wǎng)上沒(méi)有的內(nèi)容,而且,有些內(nèi)容雖然存在網(wǎng)上,卻因?yàn)楦鞣N原因,很可能成為漏網(wǎng)之魚(yú)。所以在使用搜索引擎之前,應(yīng)該先花幾秒鐘想一下,我要找的東西網(wǎng)上可能有嗎?如果有,又可能在哪里?網(wǎng)頁(yè)上會(huì)含有哪些關(guān)鍵字?

一次成功的搜索由兩個(gè)部分組成:一個(gè)設(shè)計(jì)優(yōu)秀的搜索請(qǐng)求和一個(gè)準(zhǔn)確可信的搜索結(jié)果。在你點(diǎn)擊任何一條搜索結(jié)果之前,快速地分析一下你的搜索結(jié)果的標(biāo)題和網(wǎng)址,會(huì)幫你節(jié)省大量的時(shí)間。

比較大的搜索引擎都支持使用邏輯詞進(jìn)行更復(fù)雜的搜索界定,常用的有:AND和OR或NOT,恰當(dāng)應(yīng)用它們可以使搜索結(jié)果非常精確。另外,也可以使用括號(hào)將搜索詞分別組合。

如果查找的是一個(gè)詞組或多個(gè)漢字,最好的辦法就是將它們用雙引號(hào)括起來(lái),這樣得到的結(jié)果最少、最精確。通過(guò)添加英文雙引號(hào)來(lái)搜索短語(yǔ)詞,這一方法在查找名言警句或?qū)S忻~時(shí)顯得格外有用。很多搜索引擎都支持在搜索詞前冠以“+”限定搜索結(jié)果中必須包含的詞匯,用“-”限定搜索結(jié)果不能包含的詞匯。

在Internet上進(jìn)行查詢(xún)時(shí)如果能注意一些細(xì)節(jié)問(wèn)題,常常能增加搜索結(jié)果的準(zhǔn)確性,如許多搜索引擎都區(qū)分字母的大小寫(xiě),因此,如果您正在搜索人名或地名等關(guān)鍵詞,應(yīng)該正確使用它們的大小寫(xiě)字母形式。

如果只給出一個(gè)單詞進(jìn)行搜索,經(jīng)常會(huì)出現(xiàn)數(shù)以千計(jì)甚至以百萬(wàn)計(jì)的匹配網(wǎng)頁(yè)。然而如果再加上一個(gè)單詞,那么搜索結(jié)果會(huì)更加切題。在搜索時(shí),給出兩個(gè)關(guān)鍵詞,并將兩個(gè)詞用AND與邏輯結(jié)合起來(lái),或者在每個(gè)詞前面加上“+”,這種與邏輯技術(shù)大大地縮小了搜索結(jié)果的范圍,從而加快了搜索。幸運(yùn)的是,所有主要的搜索引擎都使用同樣的語(yǔ)法。一個(gè)帶引號(hào)的詞組意味著只有完全匹配該詞組,包括空格的網(wǎng)頁(yè)才是要搜索的網(wǎng)頁(yè)。把這幾種符號(hào)結(jié)合起來(lái)使用,能大大提高搜索效率。網(wǎng)絡(luò)信息檢索發(fā)展

5.1網(wǎng)絡(luò)信息檢索的現(xiàn)狀與發(fā)展

1990年以前,網(wǎng)絡(luò)信息檢索的現(xiàn)狀與發(fā)展沒(méi)有任何人能夠檢索互聯(lián)網(wǎng)上的信息。應(yīng)該說(shuō),所有的網(wǎng)絡(luò)信息檢索工具都是從1990年的Alan Emtage等人發(fā)明的Archie開(kāi)始的,雖然它當(dāng)時(shí)只可以實(shí)現(xiàn)簡(jiǎn)單意義上的FTP文件檢索。隨著World Wide Web的出現(xiàn)和發(fā)展,基于網(wǎng)頁(yè)的信息檢索工具出現(xiàn)并迅速發(fā)展起來(lái)。1995年基于網(wǎng)絡(luò)信息檢索工具本身的檢索工具元搜索引擎由美國(guó)華盛頓大學(xué)的Eric Solberg 等發(fā)明。伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息檢索工具也取得了十足的發(fā)展。5.2 影響網(wǎng)絡(luò)信息檢索質(zhì)量的因素

(l)搜索引擎在檢索的實(shí)現(xiàn)過(guò)程中存在一些尚未解決的問(wèn)題,影響檢索效果(本身存在的問(wèn)題)。

(2)頁(yè)面的制作、組織過(guò)程中存在的欠缺會(huì)影響到被檢索的信息質(zhì)量。

(3)檢索用戶(hù)與搜索引擎的交互過(guò)程中,由于交互的背景不同,目的不同,會(huì)影響檢索效果。

5.3網(wǎng)絡(luò)信息檢索工具展望

從最早的網(wǎng)絡(luò)信息檢索工具(如Archie)算起,它們作為一個(gè)整體只有不足十年的歷史,而基于萬(wàn)維網(wǎng)的檢索工具(如Yahoo!和AltaVista),出現(xiàn)的時(shí)間則更晚。可見(jiàn),網(wǎng)絡(luò)信息檢索工具尚處于發(fā)展高峰期。

網(wǎng)絡(luò)信息檢索現(xiàn)今的主要問(wèn)題是查準(zhǔn)率太差。如今,人們正通過(guò)一些研究,設(shè)法使網(wǎng)絡(luò)信息檢索的空間在不影響查全率這一前提下,提高查準(zhǔn)率,它們的未來(lái)充滿(mǎn)希望。在網(wǎng)絡(luò)信息檢索環(huán)境中,檢索、瀏覽和獲取這三個(gè)過(guò)程相互交融,自由轉(zhuǎn)換、合為一體,已展示出了信息檢索的新趨勢(shì),為充分地利用網(wǎng)絡(luò)信息資源創(chuàng)造了條件。

結(jié)語(yǔ)

人類(lèi)已經(jīng)進(jìn)入了信息社會(huì),信息社會(huì)化與社會(huì)信息化是當(dāng)今重要的時(shí)代特征。信息檢索作為傳遞、搜索信息的手段發(fā)展愈來(lái)愈快。如果不懂得信息檢索,要在浩如煙海的各種信息中尋找自己需要的信息,就如同大海撈針一般困難,掌握了信息檢索的方法和技巧,就可以使信息的查詢(xún)過(guò)程更有條理性、計(jì)劃性,避繁就簡(jiǎn),事半功倍。所以,我們應(yīng)充分利用信息資源,避免重復(fù)勞動(dòng)。科學(xué)研究具有繼承和創(chuàng)造兩重性,縱觀科學(xué)技術(shù)發(fā)展史,積累、繼承和借鑒前人的研究成果是科技發(fā)展的重要前提。更新自身知識(shí)積累,適應(yīng)社會(huì)發(fā)展需要。在信息社會(huì),人們需要終生學(xué)習(xí),不斷更新知識(shí),才能適應(yīng)社會(huì)發(fā)展的需求。掌握信息檢索的方法與技能,是形成合理知識(shí)和更新知識(shí)的重要手段。

參考文獻(xiàn)

[1]董守武.網(wǎng)絡(luò)信息檢索[M].西安:西安電子科技大學(xué)出版社,2010.04 [2]朱紅、朱敬、李淑青.網(wǎng)絡(luò)信息檢索與利用[M].北京:人民郵電出版社,2010.09 [3]高凱、郭立煒、許云峰.網(wǎng)絡(luò)信息檢索技術(shù)及搜索引擎系統(tǒng)開(kāi)發(fā) [M].北京:科學(xué)出版社,2010.02 [4]陳泉.網(wǎng)絡(luò)信息資源檢索與利用 [M].北京:清華大學(xué)出版社,2010.08 [5]韓圣龍.網(wǎng)絡(luò)信息檢索工具評(píng)價(jià)指標(biāo)[J]情報(bào)學(xué)報(bào),2001,(04).[6] 黃麗紅.情報(bào)理論與實(shí)踐,2005,(02).[7]賀曉麗.信息資源網(wǎng)絡(luò)檢索的特點(diǎn)、問(wèn)題及對(duì)策.時(shí)代情報(bào),2007,5.[8]鄧燕萍.現(xiàn)代情報(bào),2004,(04).[9] 王霞,劉萍.晉圖學(xué)刊,2004,(03).

第三篇:網(wǎng)絡(luò)信息檢索技術(shù)的現(xiàn)狀及發(fā)展趨勢(shì)

網(wǎng)絡(luò)信息檢索技術(shù)的現(xiàn)狀及發(fā)展趨勢(shì)

摘要

1990年以前,網(wǎng)絡(luò)信息檢索的現(xiàn)狀與發(fā)展沒(méi)有任何人能夠檢索互聯(lián)網(wǎng)上的信息。應(yīng)該說(shuō),所有的網(wǎng)絡(luò)信息檢索工具都是從1990年的Alan Emtage等人發(fā)明的Archie開(kāi)始的,雖然它當(dāng)時(shí)只可以實(shí)現(xiàn)簡(jiǎn)單意義上的FTP文件檢索。隨著World Wide Web的出現(xiàn)和發(fā)展,基于網(wǎng)頁(yè)的信息檢索工具出現(xiàn)并迅速發(fā)展起來(lái)。1995年基于網(wǎng)絡(luò)信息檢索工具本身的檢索工具元搜索引擎由美國(guó)華盛頓大學(xué)的Eric Selberg 等發(fā)明。伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)信息檢索工具也取得了十足的發(fā)展,那么這些檢索工具的現(xiàn)狀和發(fā)展趨勢(shì)如何呢?本文將試作以探討。

關(guān)鍵詞

網(wǎng)絡(luò);信息;檢索;發(fā)展 近年來(lái),互聯(lián)網(wǎng)得到了迅速的發(fā)展,網(wǎng)上信息資源愈來(lái)愈龐大,且信息具有量大、分散、異構(gòu)等特性,因此,傳統(tǒng)的Web信息檢索工具開(kāi)始暴露出它性能低下的一面,具體體現(xiàn)在現(xiàn)有的信息檢索工具對(duì)用戶(hù)的要求常常是找出了幾千甚至上萬(wàn)條記錄,根本無(wú)法從中再細(xì)找,或者找到的內(nèi)容和要找的內(nèi)容不是一個(gè)專(zhuān)業(yè)領(lǐng)域的,造成信息無(wú)效的現(xiàn)象。但隨著人們信息意識(shí)的增強(qiáng),對(duì)信息內(nèi)容及信息服務(wù)的需求也在不斷的演變和發(fā)展,對(duì)獲取信息的專(zhuān)業(yè)化、實(shí)效性等方面有了新的要求。如何針對(duì)專(zhuān)業(yè)領(lǐng)域中特定的用戶(hù)群為他們提供專(zhuān)業(yè)的、度身量造的信息服務(wù),使用戶(hù)在盡可能短的時(shí)間內(nèi)有效的找到最需要的信息內(nèi)容是大家普遍關(guān)注的一個(gè)問(wèn)題。本文利用網(wǎng)格計(jì)算、集群系統(tǒng)、XML等技術(shù)設(shè)計(jì)了一個(gè)基于網(wǎng)格的面向?qū)I(yè)內(nèi)容的Web信息檢索體系結(jié)構(gòu),它能將地理位置分散的、異構(gòu)的信息按地區(qū)按專(zhuān)業(yè)內(nèi)容從邏輯上進(jìn)行合理的組織和管理,為用戶(hù)快速、有效地獲取自己所需要的信息提供了一種方法。

一、基于網(wǎng)頁(yè)的網(wǎng)絡(luò)信息檢索工具的現(xiàn)狀和發(fā)展趨勢(shì)

(一)現(xiàn)狀

網(wǎng)頁(yè)是因特網(wǎng)的最主要的組成部份,也是人們獲取網(wǎng)絡(luò)信息的最主要的來(lái)源,為了方便人們?cè)诖罅糠彪s的網(wǎng)頁(yè)中找尋自己需要的信息,這類(lèi)檢索工具發(fā)展的最快。一般認(rèn)為,基于網(wǎng)頁(yè)的信息檢索工具主要有網(wǎng)頁(yè)搜索引擎和網(wǎng)絡(luò)分類(lèi)目錄兩種。網(wǎng)頁(yè)搜索引擎是通過(guò)“網(wǎng)絡(luò)蜘蛛”等網(wǎng)頁(yè)自動(dòng)搜尋軟件搜索到網(wǎng)頁(yè),然后自動(dòng)給網(wǎng)頁(yè)上的某些或全部字符做上索引,形成目標(biāo)摘要格式文件以及網(wǎng)絡(luò)可訪(fǎng)問(wèn)的數(shù)據(jù)庫(kù),供人們檢索網(wǎng)絡(luò)信息的檢索工具。網(wǎng)絡(luò)目錄則是和搜索引擎完全不同,它不會(huì)將整個(gè)網(wǎng)絡(luò)中每個(gè)網(wǎng)站的所有頁(yè)面都放進(jìn)去,而是由專(zhuān)業(yè)人員謹(jǐn)慎地選擇網(wǎng)站的首頁(yè),將其放入相應(yīng)的類(lèi)目中。網(wǎng)絡(luò)目錄的信息量要比搜索引擎少得多,再加上不同的網(wǎng)絡(luò)目錄分類(lèi)標(biāo)準(zhǔn)有些混亂,不便人們使用,因此雖然它標(biāo)引質(zhì)量比較高,利用它的人還是要比利用搜索引擎的人少的多。

但是由于網(wǎng)絡(luò)信息的復(fù)雜性和網(wǎng)絡(luò)檢索技術(shù)的限制,這類(lèi)檢索工具也有著明顯的不足。(1)隨著網(wǎng)頁(yè)數(shù)量的迅猛增加,人工無(wú)法對(duì)其進(jìn)行有效的分類(lèi)、索引和利用。網(wǎng)絡(luò)用戶(hù)面對(duì)的是數(shù)量巨大的未組織信息,簡(jiǎn)單的關(guān)鍵詞搜索,返回的信息數(shù)量之大,讓用戶(hù)無(wú)法承受。(2)信息有用性評(píng)價(jià)困難。一些站點(diǎn)在網(wǎng)頁(yè)中大量重復(fù)某些關(guān)鍵字,使得容易被某些著名的搜索引擎選中,以期借此提高站點(diǎn)的地位,但事實(shí)上卻可能沒(méi)有提供任何對(duì)用戶(hù)有價(jià)值的信息。(3)網(wǎng)絡(luò)信息日新月異的變更,人們總是期望挑出最新的信息。然而網(wǎng)絡(luò)信息時(shí)刻變動(dòng),實(shí)時(shí)搜索幾乎不可能,就是剛剛瀏覽過(guò)的網(wǎng)頁(yè),也隨時(shí)都有更新、過(guò)期、刪除的可能。

(二)發(fā)展趨勢(shì)

網(wǎng)絡(luò)信息檢索工具的發(fā)展主要體現(xiàn)在進(jìn)一步改進(jìn)、完善檢索工具和檢索技術(shù),以提高檢索服務(wù)質(zhì)量,改變網(wǎng)絡(luò)信息檢索不盡如意的地方。主要體現(xiàn)在以下幾個(gè)方面:

1網(wǎng)絡(luò)檢索工具開(kāi)發(fā)提供商之間合作越來(lái)越緊密

過(guò)去一般網(wǎng)絡(luò)檢索工具提供商只依靠自己建立的數(shù)據(jù)庫(kù)來(lái)提供檢索服務(wù),檢 索范圍有限,而現(xiàn)在某些著名的搜索引擎在購(gòu)買(mǎi)其他公司的數(shù)據(jù)庫(kù)或者技術(shù)內(nèi)核,有的與其他搜索引擎建立伙伴關(guān)系,以便用戶(hù)使用。比如著名雅虎現(xiàn)在采用的是Google的搜索內(nèi)核,網(wǎng)易也曾經(jīng)使用Google的搜索內(nèi)核技術(shù)來(lái)豐富自己的搜索引擎數(shù)據(jù)庫(kù),硅谷動(dòng)力、廣州視窗、新浪、搜狐、Chinaren、21cn、263、Tom等搜索引擎使用融合了百度的搜索內(nèi)核技術(shù)等等。

2信息檢索工具專(zhuān)業(yè)化及服務(wù)內(nèi)容深化

一些檢索工具已經(jīng)不再盲目追求加大收錄和標(biāo)引量,而更加注重突出專(zhuān)業(yè)特色。在lycos搜索引擎目錄中,我們可以看到商業(yè)搜索引擎、IT搜索引擎、人才搜索引擎、金融搜索引擎、醫(yī)學(xué)搜索引擎等專(zhuān)業(yè)化的網(wǎng)絡(luò)信息檢索紛紛出現(xiàn),信息檢索工具的專(zhuān)業(yè)化已經(jīng)成為一種不可逆轉(zhuǎn)的趨勢(shì)。信息檢索服務(wù)商將服務(wù)更加深化:Google推出了網(wǎng)頁(yè)引文查詢(xún)服務(wù),通過(guò)它可以查看自己所要查詢(xún)的資料被其他網(wǎng)站引用的情況,從而使用戶(hù)更好的把握網(wǎng)頁(yè)信息的質(zhì)量;2003年8月,第三代中文搜索引擎慧聰問(wèn)世,它則集“廣泛的地域搜索”、“強(qiáng)大的行業(yè)搜索”、“完美的MP3、Flash搜索”眾多搜索功能為一體,還開(kāi)發(fā)了“針對(duì)內(nèi)容的相關(guān)性查詢(xún)”和“符合漢語(yǔ)特性的模糊查詢(xún)”,可以實(shí)現(xiàn)漢語(yǔ)拼音查詢(xún)和同音詞糾錯(cuò)。

3網(wǎng)絡(luò)信息工具智能化的發(fā)展趨勢(shì)

(1)信息檢索工具的智能化首先是網(wǎng)絡(luò)蜘蛛的智能化。針對(duì)網(wǎng)絡(luò)信息的動(dòng)態(tài)更替性,網(wǎng)絡(luò)蜘蛛通過(guò)啟發(fā)式學(xué)習(xí)采取最有效的搜索策略,選擇最佳時(shí)機(jī)獲取從Internet上自動(dòng)收集、整理的信息。網(wǎng)絡(luò)蜘蛛能在網(wǎng)絡(luò)的任何地方工作,能盡可能地挖掘和獲得信息。網(wǎng)絡(luò)蜘蛛還要有網(wǎng)頁(yè)跟蹤監(jiān)測(cè)功能,如果網(wǎng)頁(yè)出現(xiàn)更新、刪除等情況要及時(shí)在數(shù)據(jù)庫(kù)中更新。網(wǎng)絡(luò)蜘蛛具有跨平臺(tái)工作和處理多種混合文檔結(jié)構(gòu)的能力。(2)其次是檢索軟件的智能化。現(xiàn)在主要有智能搜索引擎、智能瀏覽器、智能代理。這些網(wǎng)絡(luò)檢索工具都非常重視開(kāi)發(fā)實(shí)現(xiàn)基于自然語(yǔ)言形式的輸入,檢索者可以將自己的檢索提問(wèn)以及所習(xí)慣的短語(yǔ)、詞組甚至句子等自然語(yǔ)言的形式輸入,智能化的檢索軟件將能夠自動(dòng)分析,而后形成檢索策略進(jìn)行檢索。比如現(xiàn)在的百度搜索可以在你輸入關(guān)鍵詞以后,不斷提供一些相近的關(guān)鍵詞供你選擇,直至找到你所需要的結(jié)果。Google則借助于機(jī)器翻譯技術(shù),將一種自然語(yǔ)言轉(zhuǎn)變成另外一種自然語(yǔ)言,使用戶(hù)能夠使用母語(yǔ)搜索非母語(yǔ)的網(wǎng)頁(yè),并以母語(yǔ)瀏覽搜索結(jié)果。尤里卡、問(wèn)一問(wèn)、和國(guó)外的ASK Jeeves則通過(guò)語(yǔ)義技術(shù)和檢索技術(shù)的結(jié)合,可是實(shí)現(xiàn)檢索工具對(duì)搜索詞在語(yǔ)義層次上的理解,為用戶(hù)提供最準(zhǔn)確地檢索服務(wù)。

二、基于FTP文件的搜索工具。

(一)現(xiàn)狀

如前所述,搜索引擎的雛形以及最早的搜索引擎都是基于FTP文件搜索的。最早的FTP搜索引擎是基于文本顯示的Archie。后來(lái)由于WEB的出現(xiàn),F(xiàn)TP搜索引擎發(fā)展受到了一定的影響。直到基于WEB的FTP搜索引擎出現(xiàn),它才越來(lái)越多受到人們的歡迎,用戶(hù)量也在迅速上升,重要性也日漸顯現(xiàn)出來(lái)。FTP搜索引擎的功能是搜集匿名FTP服務(wù)器提供的目錄列表并向用戶(hù)提供文件信息的查詢(xún)服務(wù)。目前,國(guó)內(nèi)做的最好的、規(guī)模最大的當(dāng)屬天網(wǎng)FTP文件搜索引擎,現(xiàn)在可以 搜索2400萬(wàn)個(gè)文件(數(shù)據(jù)來(lái)源于天網(wǎng)主頁(yè)),2002年時(shí)的統(tǒng)計(jì)日訪(fǎng)問(wèn)量是40萬(wàn)次,這在世界FTP搜索引擎界也算是一個(gè)佼佼者。另外國(guó)內(nèi)還有清華9#搜索引擎、西安交大思源搜索、華南木棉搜索引擎、網(wǎng)絡(luò)指南針、中科大天狼搜索引擎以及南京理工的“一網(wǎng)打盡”搜索引擎等等,國(guó)外的有Philes.com、AlltheWeb.com、Filesearching.com、souborak.com和ftpfind.com等,其中ftpfind.com是目前國(guó)外最先進(jìn)的,支持包括站點(diǎn)快照和文件分類(lèi)等新興功能,而且文件數(shù)據(jù)量非常大。

近幾年來(lái),雖然FTP搜索引擎技術(shù)發(fā)展的很快,但相對(duì))等。另一個(gè)是元搜索引擎,用戶(hù)只需遞交一次檢索請(qǐng)求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將所有查詢(xún)結(jié)果集中起來(lái)以整體統(tǒng)一的格式呈現(xiàn)到用戶(hù)面前。國(guó)外比較著名的元搜索引擎有Vivisimo、EZ2www.tmdps.cn、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人為地限制了搜索資源的利用;(5)在檢索結(jié)果上,元搜索引擎只能返回十幾、數(shù)十條“相關(guān)度”較高的結(jié)果,大量可能有價(jià)值的源搜索引擎的檢索結(jié)果被忽視,影響檢索結(jié)果的全面性。、(二)發(fā)展趨勢(shì)

這類(lèi)檢索工具的發(fā)展趨勢(shì)主要表現(xiàn)在下面幾個(gè)方面:(1)檢索結(jié)果整理的深化。如Vivisimo、EZ2WWW、MetaCrawler等可以實(shí)現(xiàn)搜索結(jié)果的自動(dòng)分類(lèi),用戶(hù)即可以利用傳統(tǒng)的方式瀏覽結(jié)果,也可以利用其同屏的分類(lèi)結(jié)果提示找尋自己需要的內(nèi)容。EZ2WWW高級(jí)搜索功能提供1000多種專(zhuān)項(xiàng)資源檢索,可進(jìn)行目錄檢索。SurfWax有一個(gè)其它元搜索引擎沒(méi)有的獨(dú)特功能,即點(diǎn)擊每條結(jié)果左邊的“網(wǎng)址撳鈕”圖標(biāo),可瀏覽該結(jié)果包括的任何頁(yè)面,并顯示搜索語(yǔ)句在文件中的位置,也可以把搜索結(jié)果和文件存儲(chǔ)起來(lái)以備后用。天網(wǎng)搜霸已經(jīng)擁有了獨(dú)特的鏈接檢測(cè)功能,在幾秒鐘內(nèi)檢查當(dāng)前頁(yè)面查詢(xún)結(jié)果是否可以訪(fǎng)問(wèn),如果為標(biāo)注綠色,則鏈接可連通(目前僅檢測(cè)頁(yè)面內(nèi)以http://和ftp://開(kāi)頭的鏈接)(2)檢索界面的個(gè)性化趨勢(shì)。天網(wǎng)搜霸和Google提供了IE瀏覽器的插件,安裝后就會(huì)被嵌到IE的工具欄,用戶(hù)不用登陸天網(wǎng)的主頁(yè),就可以實(shí)現(xiàn)檢索。用戶(hù)可以將自己喜歡的搜索引擎設(shè)置為主要搜索,也可以添加用戶(hù)自己喜歡的搜索引擎。天網(wǎng)搜霸不久前剛剛推出了可以嵌在Windows系統(tǒng)任務(wù)欄上的插件,現(xiàn)在用戶(hù)連打開(kāi)IE 瀏覽器都不需要了。Mamma可以選擇使用短語(yǔ)檢索功能、設(shè)定檢索時(shí)間、設(shè)定每頁(yè)可顯示記錄數(shù),還提供了專(zhuān)門(mén)檢索頁(yè)面文件標(biāo)題的特殊檢索服務(wù),以及通過(guò)E-mail傳輸檢索結(jié)果的特色功能。MetaCrawler可以實(shí)現(xiàn)搜索引擎的選擇調(diào)用,基于域名、地區(qū)或國(guó)家的檢索結(jié)果過(guò)濾,最長(zhǎng)檢索時(shí)間設(shè)置,每頁(yè)可顯示的和允許每個(gè)搜索引擎返回的檢索結(jié)果數(shù)量的設(shè)定,設(shè)定檢索結(jié)果排序依據(jù)(包括相關(guān)度、域名、源搜索引擎)個(gè)性化定制保存。(3)智能化。ProFusion可以自動(dòng)實(shí)現(xiàn)符合特殊檢索語(yǔ)法要求的轉(zhuǎn)換,如在調(diào)用Excite、InfoSeek、WebCrawler時(shí)將“NEAR”轉(zhuǎn)換成“AND”,在調(diào)用GoTo、Yahoo時(shí)將“NOT”刪除等;Mamma也支持常用檢索語(yǔ)法在不同搜索引擎中的轉(zhuǎn)換;C4可以支持自然語(yǔ)言檢索,雖然它沒(méi)有自己的數(shù)據(jù)庫(kù),卻可以提供網(wǎng)上的檢索結(jié)果。

結(jié)論

從網(wǎng)絡(luò)搜索引擎查詢(xún)信息的查全率、查準(zhǔn)率及查詢(xún)功能和搜索引擎的標(biāo)準(zhǔn)化、規(guī)范化等方面,分析了當(dāng)前搜索引擎的現(xiàn)狀和存在的問(wèn)題。闡述了網(wǎng)絡(luò)搜索引擎向智能化發(fā)展概況。包括權(quán)威網(wǎng)址的篩選技術(shù)、基于內(nèi)容的檢索技術(shù)和智能代理的開(kāi)發(fā)與應(yīng)用等。

參考文獻(xiàn)

[1]陳遠(yuǎn) 周樸雄.網(wǎng)絡(luò)信息服務(wù)模式的新視角[J].圖書(shū)情報(bào)工作

[2]張潤(rùn)彤 陳惠娟.人工智能在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)中的應(yīng)用[J].互聯(lián)網(wǎng)世界 [3]張穎 賀亞鋒.網(wǎng)絡(luò)信息檢索展望[J].現(xiàn)代圖書(shū)情報(bào)技術(shù)

第四篇:網(wǎng)絡(luò)信息檢索及其局限性(本站推薦)

【關(guān)鍵詞】 網(wǎng)絡(luò)信息 信息檢索 搜索引擎網(wǎng)絡(luò)信息檢索簡(jiǎn)介

隨著信息技術(shù)的飛速發(fā)展,信息已成為全社會(huì)的重要資源,對(duì)信息的占有程度及信息處理水平的先進(jìn)程度已成為衡量一個(gè)國(guó)家或地區(qū)現(xiàn)代化程度的重要標(biāo)志,而網(wǎng)絡(luò)上豐富的信息在更大程度上改變了人們的工作和生活的方式。Internet是當(dāng)今世界上規(guī)模最大、覆蓋面最廣、信息資源最豐富、發(fā)展最為迅速的信息網(wǎng)絡(luò),基于Internet的網(wǎng)絡(luò)信息檢索的研究,無(wú)論對(duì)研究人員還是一般用戶(hù)來(lái)說(shuō),都有著很強(qiáng)的現(xiàn)實(shí)性和實(shí)用性。

1.1 信息檢索概念

信息檢索是指將信息按一定的方式組織和存儲(chǔ)起來(lái),并根據(jù)信息用戶(hù)的信息需求查找所需信息的過(guò)程和技術(shù)。人們獲取信息源的方式主要有:①傳統(tǒng)的信息檢索方法,通過(guò)人工查詢(xún)?cè)趫D書(shū)館等提供文獻(xiàn)的機(jī)構(gòu)進(jìn)行文獻(xiàn)的查詢(xún)和獲取活動(dòng);②聯(lián)機(jī)信息檢索相對(duì)于前者來(lái)說(shuō)具有實(shí)時(shí)性、完整性、共享性、廣泛性等優(yōu)點(diǎn);③網(wǎng)絡(luò)信息檢索是指通過(guò)網(wǎng)絡(luò)信息檢索工具檢索存在于Internet信息空間中各種類(lèi)型的網(wǎng)絡(luò)信息資源。

1.2 網(wǎng)絡(luò)信息檢索的原理

網(wǎng)絡(luò)信息檢索工具是網(wǎng)絡(luò)信息檢索技術(shù)的實(shí)物體現(xiàn)。目前,常用的網(wǎng)絡(luò)信息檢索模型有布爾邏輯模型、模糊邏輯模型和概率模型等幾種方式。

① 布爾邏輯模型 這是一種簡(jiǎn)單而常用的嚴(yán)格匹配模型。用戶(hù)可以根據(jù)檢索項(xiàng)在文檔中的布爾邏輯關(guān)系提交查詢(xún),搜索工具根據(jù)事先建立的倒排文檔結(jié)構(gòu)確定查詢(xún)結(jié)果。標(biāo)準(zhǔn)的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢(xún)相關(guān),要么與查詢(xún)無(wú)關(guān)。利用這種模型進(jìn)行查詢(xún),其查詢(xún)結(jié)果一般沒(méi)有按照內(nèi)容的相關(guān)特性排序。

② 模糊邏輯模型 它在查詢(xún)結(jié)果處理中引進(jìn)了模糊邏輯比較,并且按照相關(guān)的優(yōu)先次序排列查詢(xún)結(jié)果,這樣就可以克服布爾邏輯模型信息查詢(xún)結(jié)果的無(wú)序性。

③ 概率模型 它是基于貝葉斯概率原理而提出的,根據(jù)詞條、文檔間的內(nèi)在聯(lián)系,利用詞條間和詞條與文檔間的概率相依性來(lái)進(jìn)行信息檢索。2 搜索引擎

搜索引擎是目前使用最為頻繁的一種網(wǎng)絡(luò)信息檢索工具。與其他工具相比,它的檢全率和檢準(zhǔn)率都比較高,具有很強(qiáng)的使用價(jià)值和廣泛的應(yīng)用前景。

2.1 搜索引擎的工作原理

作為一種www站點(diǎn)資源和其它網(wǎng)絡(luò)資源進(jìn)行組織和檢索的檢索工具,搜索引擎的檢索機(jī)制一般包括數(shù)據(jù)采集和標(biāo)引機(jī)制、數(shù)據(jù)組織機(jī)制和用戶(hù)檢索機(jī)制,基本構(gòu)成如圖1所示。① 數(shù)據(jù)采集標(biāo)引機(jī)制按照一定規(guī)律和方式對(duì)網(wǎng)絡(luò)上www站點(diǎn)進(jìn)行搜索,并將搜索到的www頁(yè)面信息存入搜索引擎的臨時(shí)數(shù)據(jù)庫(kù)中。

② 數(shù)據(jù)組織據(jù)組織機(jī)制的主要功能是對(duì)www頁(yè)面信息進(jìn)行整理以形成規(guī)范的頁(yè)面索引,并建立相應(yīng)的索引數(shù)據(jù)庫(kù)。

③ 索引數(shù)據(jù)庫(kù)是用戶(hù)進(jìn)行檢索的基礎(chǔ),它的數(shù)據(jù)質(zhì)量直接影響到檢索效果,而搜索引擎的數(shù)據(jù)采集標(biāo)和標(biāo)引機(jī)制又是決定數(shù)據(jù)庫(kù)質(zhì)量的關(guān)鍵技術(shù)。

④ 用戶(hù)檢索機(jī)制幫助用戶(hù)以一定方式檢索引擎的索引數(shù)據(jù)庫(kù),以獲得符合用戶(hù)需要的www站點(diǎn)或頁(yè)面。

2.2 搜索引擎的分類(lèi)

按照用戶(hù)查找的途徑劃分,可將搜索引擎分為如下幾種: ① 基于關(guān)鍵詞的搜索引擎 主要通過(guò)使用自動(dòng)采集軟件來(lái)對(duì)網(wǎng)絡(luò)上的數(shù)據(jù)進(jìn)行采集標(biāo)引,建立成索引數(shù)據(jù)庫(kù)。它主要采用自動(dòng)搜索和標(biāo)引方式來(lái)建立和維護(hù)其索引數(shù)據(jù)庫(kù),供用戶(hù)查詢(xún)使用。

② 基于分類(lèi)目錄的搜索引擎 一般依賴(lài)于按照某種分類(lèi)標(biāo)準(zhǔn)進(jìn)行人工編排的分類(lèi)體系。

③ 聯(lián)合式搜索引擎 是基于關(guān)鍵詞的搜索引擎的另外一種表現(xiàn)形式,是后者與基于類(lèi)目的搜索引擎的一種結(jié)合。2.3 搜索引擎的功能

目前Internet上的搜索引擎種類(lèi)繁多,雖然各種搜索引擎都有自己的不同信息采集標(biāo)引機(jī)制,在其他一些方面各具特色,但其基本功能卻是相似的。

① 布爾邏輯檢索 這一功能使得用戶(hù)能使用AND、OR和NOT來(lái)進(jìn)行關(guān)鍵詞的搭配檢索。

② 模糊檢索 在用戶(hù)進(jìn)行檢索的過(guò)程中,系統(tǒng)會(huì)對(duì)跟用戶(hù)提供的關(guān)鍵詞相似的詞語(yǔ)進(jìn)行檢索,并返回包含關(guān)鍵詞或是這些相似詞的檢索結(jié)果。

③ 截詞檢索 這種檢索形式利用檢索詞的某一部分來(lái)進(jìn)行檢索。在搜索引擎中,用戶(hù)提供包含“?”或是“*”通配符的檢索項(xiàng)來(lái)進(jìn)行檢索。

④ 限定詞檢索 這種檢索加減號(hào)檢索,它用來(lái)規(guī)定檢索項(xiàng)中必須出現(xiàn)或是必須不出現(xiàn)某些關(guān)鍵詞。網(wǎng)絡(luò)信息檢索的局限 用戶(hù)在查找網(wǎng)絡(luò)信息資源時(shí),不可避免的用到網(wǎng)絡(luò)信息檢索工具。檢索工具的優(yōu)劣很大程度的影響了用戶(hù)的檢索效率。雖然網(wǎng)絡(luò)信息檢索工具在最近幾年有了長(zhǎng)足的發(fā)展,但是到現(xiàn)在網(wǎng)絡(luò)信息檢索仍然存在著這樣或是那樣的局限。

3.1 文本信息檢索的局限

① 網(wǎng)絡(luò)信息標(biāo)引的準(zhǔn)確度不夠 檢索工具對(duì)網(wǎng)絡(luò)信息資源的標(biāo)引一般都存在著柵引準(zhǔn)確度不夠的問(wèn)題,檢索工具經(jīng)常會(huì)在返回大量垃圾信息的同時(shí)丟失有用信息。當(dāng)用戶(hù)要進(jìn)行特定的文獻(xiàn)檢索時(shí),有時(shí)還會(huì)發(fā)現(xiàn)現(xiàn)存的檢索工具無(wú)濟(jì)于事,檢索出來(lái)的數(shù)據(jù)完全被無(wú)用信息所覆蓋。如想要通過(guò)搜索引擎查詢(xún)清朝雍正年間李衛(wèi)任浙江巡撫的資料,你只能夠查到大量《李衛(wèi)當(dāng)官》之類(lèi)無(wú)用信息。

② 搜索引擎的查全率不高 由于互聯(lián)網(wǎng)上的信息資源以爆炸性的速度不斷增長(zhǎng),搜索引擎采集數(shù)據(jù)的速度遠(yuǎn)遠(yuǎn)落后于信息資源的增長(zhǎng)速度。單個(gè)搜索引擎的數(shù)據(jù)庫(kù)所收集的Web頁(yè)面大大不足,就是所有的搜索引擎所儲(chǔ)存的數(shù)據(jù)也只占全球Web頁(yè)面的50%強(qiáng)。由于這方面的原因,搜索引擎的檢全率會(huì)無(wú)可避免的被降低。

③ 搜索引擎的查準(zhǔn)率不高 一是返回的信息過(guò)多,這是現(xiàn)有搜索引擎檢索信息的普遍現(xiàn)象;二是返回重復(fù)的信息,搜索引擎的檢索結(jié)果中還經(jīng)常重復(fù)出現(xiàn)同一信息源的不同部分,甚至出現(xiàn)不同信息源的相同內(nèi)容信息。

④ 查詢(xún)方式有限 目前大多數(shù)搜索引擎的查詢(xún)方法比較單一,一般只提供分類(lèi)查詢(xún)方式和關(guān)鍵詞查詢(xún)方式。這樣,一方面檢索時(shí)不能從文獻(xiàn)的多個(gè)方面對(duì)檢索提問(wèn)進(jìn)行限制,只能就某一關(guān)鍵詞或概念進(jìn)行籠統(tǒng)的檢索;另一方面,由于查詢(xún)結(jié)果完全依賴(lài)于用戶(hù)所給出的關(guān)鍵詞,而大多數(shù)用戶(hù)對(duì)他們檢索的領(lǐng)域或索引數(shù)據(jù)庫(kù)的關(guān)鍵詞不太了解,因此使最后的查詢(xún)結(jié)果相關(guān)性很差,往往是輸入一個(gè)檢索式,得到一大堆網(wǎng)址,但其中大部分是冗余信息。

⑤ 檢索對(duì)象的數(shù)據(jù)結(jié)構(gòu)單一 由于現(xiàn)在大多數(shù)網(wǎng)站使用的是傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)對(duì)信息進(jìn)行組織和存儲(chǔ),因此其使用的搜索引擎也是基于關(guān)系數(shù)據(jù)庫(kù)的,這種傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)非常擅長(zhǎng)處理結(jié)構(gòu)化的數(shù)據(jù),但其對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)的處理能力則很弱。

⑥ 交互性不夠 當(dāng)前的搜索引擎與用戶(hù)的交互性不夠,與用戶(hù)間缺乏足夠的協(xié)作,不了解用戶(hù)的情況,不記錄用戶(hù)提交的查詢(xún)?nèi)蝿?wù),不能處理用戶(hù)的反饋信息,因而不能與用戶(hù)進(jìn)行足夠好的交互以提高檢索效率。3.2 多媒體信息檢索的局限

到現(xiàn)在為止,雖然單獨(dú)針對(duì)圖像、視頻、聲音等媒體的檢索技術(shù)已經(jīng)出現(xiàn),但還沒(méi)有任何搜索引擎能夠充分解決多媒體信息的檢索,其主要表現(xiàn)在以下幾個(gè)方面:

① 檢索效果不夠理想 目前,幾乎所有的多媒體搜索引擎在多媒體信息的查準(zhǔn)率方面都不能達(dá)到令人滿(mǎn)意的程度,用戶(hù)將在返回的幾百個(gè)甚至上千個(gè)圖像中篩選需要的那一幅。這是很費(fèi)時(shí)和令人難以忍受的,而且有時(shí)你所用的搜索引擎根本檢不出你想要的東西。歸其原因,一方面是在于查詢(xún)方式的單一,另一方面在于對(duì)圖像的標(biāo)引深度不夠,這就要求完善圖像檢索和索引機(jī)制。

② 用戶(hù)查詢(xún)接口單一 理想的多媒體檢索系統(tǒng)中,人是主動(dòng)的,用戶(hù)的查詢(xún)接口能提供豐富的交互能力,且直觀易用,使用戶(hù)能夠在主動(dòng)交互過(guò)程中通過(guò)調(diào)整檢索參數(shù),表達(dá)對(duì)圖像的語(yǔ)義感知,最終獲取滿(mǎn)意的結(jié)果。這就涉及到如何把用戶(hù)的提問(wèn)轉(zhuǎn)換為可以執(zhí)行檢索的特征矢量、交互方式的設(shè)計(jì),如何獲取用戶(hù)的內(nèi)容感知等問(wèn)題。目前的多媒體搜索引擎用戶(hù)查詢(xún)接口比較單一,大多只提供描述查詢(xún)接口,即關(guān)鍵詞提問(wèn)框。

③ 圖像特征信息的表示與檢索不夠完善 基于內(nèi)容的圖像檢索,實(shí)質(zhì)上就是進(jìn)行圖像特征相似度的比較,但目前這一技術(shù)還存在許多問(wèn)題。

④ 信息的自動(dòng)加工與人工標(biāo)引不夠 目前文本搜索引擎在這方面的發(fā)展正日趨完善,而多媒體搜索引擎的研究剛剛起步,尤其是圖像信息的加工,圖像不同于文本,文本自身就能說(shuō)明要講的內(nèi)容,而圖像內(nèi)容卻需要加入人的理解和描述,人工干預(yù)雖能提高查準(zhǔn)率,但一方面能被人工標(biāo)引的是極其有限的;另一方面由于人工標(biāo)引勞動(dòng)強(qiáng)度大而限制了檢索的范圍,如何對(duì)圖像信息進(jìn)行快速標(biāo)引和準(zhǔn)確分類(lèi)是急待解決的主要問(wèn)題。

另外,目前基于內(nèi)容的檢索技術(shù)多應(yīng)用于對(duì)靜態(tài)圖像的檢索,對(duì)動(dòng)態(tài)圖像的檢索還沒(méi)有多少行之有效的方法。但隨著寬帶網(wǎng)絡(luò)的逐步實(shí)現(xiàn),動(dòng)態(tài)多媒體信息在網(wǎng)絡(luò)中將會(huì)越來(lái)越多。參考文獻(xiàn)】

張杰.淺論網(wǎng)絡(luò)信息檢索.江西圖書(shū)館學(xué)刊,2002年增刊.董慧.網(wǎng)絡(luò)信息資源開(kāi)發(fā)與利用.武漢:武漢大學(xué)出版社,2001.盧小賓.信息檢索.北京:科學(xué)出版社,2003.李勇先,鄭文良.人工智能在網(wǎng)絡(luò)信息檢索中的應(yīng)用.圖書(shū)館建設(shè),2003(4),4:81~83.焦玉英,符紹宏,何紹華.信息檢索.武漢:武漢大學(xué)出版社,2001.

第五篇:網(wǎng)絡(luò)信息檢索實(shí)驗(yàn)報(bào)告

網(wǎng)絡(luò)信息檢索的應(yīng)用和發(fā)展趨勢(shì)

09軟件1 W班09144136張?jiān)?/p>

摘要:隨著信息時(shí)代的到來(lái),網(wǎng)上信息資源的數(shù)量、種類(lèi)不斷增加,電子信息資源日益豐富,互聯(lián)網(wǎng)技術(shù)也日新月異、層出不窮,人們通過(guò)網(wǎng)絡(luò)能夠獲取大量所需信息,如何在信息的海洋中快捷、準(zhǔn)確地找出所需信息,網(wǎng)絡(luò)搜索引擎就像圖書(shū)館目錄能指引讀者迅速找到所需圖書(shū)一樣,為人們?cè)诰W(wǎng)絡(luò)信息海洋中導(dǎo)航。而面對(duì)日益豐富的電子信息資源,如何有效的利用網(wǎng)絡(luò)資源查找自己需要的信息,并對(duì)其進(jìn)行熟練、靈活、有效地運(yùn)用,已經(jīng)被越來(lái)越多的人重視。

關(guān)鍵字:搜索引擎 信息檢索 網(wǎng)絡(luò) 發(fā)展趨勢(shì)

隨著信息技術(shù)的飛速發(fā)展,因特網(wǎng)已經(jīng)繼報(bào)紙、期刊、廣播、電視等,成為當(dāng)代信息存儲(chǔ)與傳播的主要媒介之一。因特網(wǎng)有著極其豐富的信息資源,但是浩如煙海的信息資源往往讓信息使用者眼花繚亂。人們總是不能在最短的時(shí)間內(nèi)找到自己需要的最有用的資源。因此,我們需要通過(guò)信息檢索來(lái)解決這個(gè)問(wèn)題。信息檢索是指信息按一定的方式組織起來(lái),并根據(jù)信息用戶(hù)的需要找出有關(guān)的信息的過(guò)程和技術(shù)。信息檢索分為兩種,即廣義信息檢索和狹義信息檢索。狹義的信息檢索就是信息檢索過(guò)程的后半部分,即從信息集合中找出所需要的信息的過(guò)程,也就是我們常說(shuō)的信息查尋。本文主要研究的就是狹義的信息檢索中出現(xiàn)的問(wèn)題及解決策略。

一、搜索引擎及其基本原理

搜索引擎是Internet上具有查詢(xún)功能的網(wǎng)頁(yè)的統(tǒng)稱(chēng),是獲取知識(shí)信息的工具。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,搜索技術(shù)逐漸完善,搜索引擎已廣為人們使用。任何搜索引擎的設(shè)計(jì),均有其特定的數(shù)據(jù)庫(kù)索引范圍、獨(dú)特的功能和使用方法,以及預(yù)期的用戶(hù)群指向。它是一些網(wǎng)絡(luò)服務(wù)商為網(wǎng)絡(luò)用戶(hù)提供的檢索站點(diǎn),它收集了網(wǎng)上的各種資源,然后根據(jù)一種固定的規(guī)律進(jìn)行分類(lèi),提供給用戶(hù)進(jìn)行檢索。

搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索,即每隔一段時(shí)間進(jìn)行搜索,搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。當(dāng)用戶(hù)以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋,如果找到與用戶(hù)要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法,通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度,出現(xiàn)的位置、頻次,鏈接質(zhì)量等計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶(hù)。

二、網(wǎng)絡(luò)信息檢索技巧

3.1加強(qiáng)對(duì)因特網(wǎng)的管理

從以上問(wèn)題,我們可以看出,因特網(wǎng)存在著問(wèn)題,很大一部分是因?yàn)榫W(wǎng)絡(luò)監(jiān)管的不利造成的。因此,國(guó)家要加強(qiáng)宏觀政策調(diào)控,并制定相應(yīng)的法律法規(guī)政策,以法律條文的形式強(qiáng)制性規(guī)范網(wǎng)絡(luò),從而維持因特網(wǎng)秩序,保護(hù)網(wǎng)絡(luò)環(huán)境。同時(shí)我們也應(yīng)該加強(qiáng)公民的思想道德教育,將以德治網(wǎng)和以法治網(wǎng)有機(jī)地結(jié)合在一起,不斷促進(jìn)網(wǎng)絡(luò)安全的發(fā)展,進(jìn)一步減少網(wǎng)絡(luò)詐騙等事件的發(fā)生。

3.2選擇合適的搜索引擎及關(guān)鍵詞

因?yàn)槊總€(gè)用戶(hù)的需求不同,所以在選擇搜索引擎時(shí)要綜合考慮自己的需求,不能盲目地選擇。如前文所說(shuō),搜索引擎分為關(guān)鍵詞搜索引擎和目錄搜索引擎。而信息檢索最基本的要求就是選擇合適的關(guān)鍵詞,尤其是在使用關(guān)鍵詞搜索引擎的時(shí)候。如果輸入的關(guān)鍵詞和用戶(hù)所需要的準(zhǔn)確信息聯(lián)系不大,則用戶(hù)很難迅速地找到自己需要的信息。所以這需要用戶(hù)選擇 富有特色的、合適的關(guān)鍵詞,不能使用太過(guò)寬泛的詞,盡量接近自己需要的信息,同時(shí)也應(yīng)盡量避免拼寫(xiě)錯(cuò)誤等低級(jí)錯(cuò)誤。

3.3提高使用者檢索專(zhuān)業(yè)水平及選擇適合的數(shù)據(jù)庫(kù)

要提高使用者的檢索專(zhuān)業(yè)水平,就要對(duì)使用者進(jìn)行相關(guān)信息檢索的專(zhuān)業(yè)培訓(xùn)。培訓(xùn)的目的主要在于讓使用者跳出傳統(tǒng)的檢索思維范疇,熟悉并能熟練運(yùn)用新的檢索技術(shù),不斷滿(mǎn)足使用者日益增長(zhǎng)的信息檢索需要。同時(shí)使用者對(duì)于檢索的范圍等要有一個(gè)大概的了解,如果搜索出來(lái)的結(jié)果較多,則要適當(dāng)減小范圍;如果檢索結(jié)果很少,則適當(dāng)增大范圍,對(duì)自己的檢索策略做出及時(shí)調(diào)整。另外,根據(jù)檢索的內(nèi)容的范疇來(lái)選擇合適的數(shù)據(jù)庫(kù)是很重要的環(huán)節(jié)。而現(xiàn)有的數(shù)據(jù)庫(kù)種類(lèi)繁多,這也需要用戶(hù)進(jìn)行合適的選擇,并迅速地找到主題分類(lèi)目錄,進(jìn)而更準(zhǔn)確地進(jìn)行檢索。

三、在實(shí)踐中充分利用豐富的網(wǎng)絡(luò)信息資源

搜索前,首先要分析一下自己的搜索需求,然后再選擇關(guān)鍵字。在搜索過(guò)程中,關(guān)鍵字的選擇充滿(mǎn)著反復(fù)性,在搜索的過(guò)程中,切不可急躁,應(yīng)該不斷的篩選,分析所選擇的關(guān)鍵字,直到找到滿(mǎn)意的關(guān)鍵字為止。在搜索收錄網(wǎng)站時(shí),只要網(wǎng)站本身沒(méi)有違反有關(guān)的規(guī)則,一般都能登錄成功。如果搜索都能做到這樣,搜索效率會(huì)不斷的提高,網(wǎng)絡(luò)信息資源會(huì)得到更多和更好的利用。此外,在登錄搜索引擎時(shí),我們一般不用考慮網(wǎng)站的分類(lèi)問(wèn)題,而登錄目錄索引時(shí)則必須將網(wǎng)站放在一個(gè)最合適的目錄,就是要分門(mén)別類(lèi)地存放在相應(yīng)的目錄中,用戶(hù)在查詢(xún)信息時(shí),可選擇關(guān)鍵詞搜索,也可按分類(lèi)目錄逐層查找。目前,搜索引擎與目錄索引有相互融合滲透的趨勢(shì)。原來(lái)一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索。總之,在網(wǎng)絡(luò)信息資源檢索的過(guò)程中,要耐心、細(xì)致、多角度思考,不忽略每一個(gè)檢索點(diǎn),只有這樣,才能圓滿(mǎn)完成檢索任務(wù)。

四、網(wǎng)絡(luò)信息檢索的發(fā)展趨勢(shì)

(1)信息檢索的多樣化。其具體趨勢(shì)表現(xiàn)為:網(wǎng)絡(luò)檢索信息的形態(tài)多種多樣;多媒體信息檢索變得普遍;網(wǎng)上檢索工具向其他服務(wù)范疇擴(kuò)展,以各種形式滿(mǎn)足大眾的信息需要。

(2)信息檢索的智能化。智能化信息檢索是當(dāng)今信息檢索技術(shù)研究的熱點(diǎn)問(wèn)題之一,也是未來(lái)信息檢索主要的發(fā)展方向。可以使用戶(hù)得到能夠直接加以利用的信息,它是建立在一個(gè)或多個(gè)專(zhuān)家系統(tǒng)基礎(chǔ)上的信息檢索系統(tǒng)。

(3)信息檢索的專(zhuān)業(yè)化。專(zhuān)業(yè)化信息檢索是指面向某一特定專(zhuān)業(yè)或?qū)W科領(lǐng)域,提供高質(zhì)量的專(zhuān)業(yè)信息的檢索。可以提高檢索速度,和信息專(zhuān)指度,加大檢索深度、力度,從而提高全=面和準(zhǔn)確。

參考文獻(xiàn):

[1]鄢百其等,網(wǎng)絡(luò)信息檢索技巧及析疑[J].武漢科技大學(xué)學(xué)報(bào)(社會(huì)科

學(xué)版),2008,10(2).[2]李秀芹,葛永亮.略論網(wǎng)絡(luò)信息檢索[J].科技信息,2007(15):325.[3]黃如花,張春蕾.網(wǎng)絡(luò)信息檢索的發(fā)展趨勢(shì)[J].圖書(shū)情報(bào)知識(shí),2002(4):48-50.[4]楊海濤.網(wǎng)絡(luò)信息檢索的困境及發(fā)展趨勢(shì)[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2008(11):13-14.

下載網(wǎng)絡(luò)信息檢索技術(shù)(5篇材料)word格式文檔
下載網(wǎng)絡(luò)信息檢索技術(shù)(5篇材料).doc
將本文檔下載到自己電腦,方便修改和收藏,請(qǐng)勿使用迅雷等下載。
點(diǎn)此處下載文檔

文檔為doc格式


聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

相關(guān)范文推薦

    網(wǎng)絡(luò)信息檢索論文

    網(wǎng)絡(luò)時(shí)代新特征 ——讀《理解媒介:論人的延伸》有感由于沒(méi)讀《世界是平的》,所以談?wù)勛x《理解媒介:論人的延伸》對(duì)網(wǎng)絡(luò)時(shí)代新特征的理解。 加拿大傳播學(xué)巨匠麥克盧漢的著作《理......

    關(guān)于網(wǎng)絡(luò)信息檢索論文

    信息檢索是指信息按一定的方式組織起來(lái),并根據(jù)信息用戶(hù)的需要找出有關(guān)的信息的過(guò)程和技術(shù)。下面小編為大家搜索整理了關(guān)于網(wǎng)絡(luò)信息檢索論文,希望對(duì)大家有所幫助。淺談網(wǎng)絡(luò)信息......

    信息檢索技術(shù)論文

    近年來(lái),計(jì)算機(jī)技術(shù)、語(yǔ)言學(xué)以及人工智能技術(shù)的發(fā)展促進(jìn)了整個(gè)信息檢索技術(shù)領(lǐng)域的發(fā)展。今天小編要給大家介紹的便是信息檢索技術(shù)論文,歡迎閱讀!信息檢索技術(shù)論文[摘要]通過(guò)對(duì)近......

    WEB全文信息檢索技術(shù)

    WEB全文信息檢索技術(shù) 摘要:本文探索了在INTERNET網(wǎng)上實(shí)現(xiàn)全文檢索的技術(shù)。計(jì)論了從網(wǎng)上信息的標(biāo)引、分類(lèi)等預(yù)處理到組織信息檢索的過(guò)程,并就智能檢索技術(shù)的發(fā)展進(jìn)行了闡述。......

    網(wǎng)絡(luò)信息檢索期末作業(yè)

    期末作業(yè)一、 讀書(shū)心得 1、 結(jié)合《世界是平的》、《理解媒介》,談?wù)動(dòng)嘘P(guān)網(wǎng)絡(luò)新時(shí)代特征的看法。 小談網(wǎng)絡(luò)新時(shí)代特征 今時(shí)不同往日,今天的世界是以往的人類(lèi)所不能想象的,就像我......

    網(wǎng)絡(luò)信息檢索考察題

    《網(wǎng)絡(luò)信息檢索》考察題 2010年6月8日一、 問(wèn)答題1. 2. 3. 4. 5. 6. 7. 信息素養(yǎng)主要有哪些要素? 什么是信息檢索?信息檢索有哪些途徑? 什么是布爾邏輯檢索?它包括哪三種基本運(yùn)......

    山東大學(xué)網(wǎng)絡(luò)教育學(xué)院 現(xiàn)代信息檢索技術(shù)1doc 答案

    現(xiàn)代信息檢索技術(shù)模擬題 一、 填空 1. 信息按出版類(lèi)型分為_(kāi)__科技圖書(shū)、科技期刊、科技報(bào)告、會(huì)議文獻(xiàn)、專(zhuān)利文獻(xiàn)、學(xué)位論文、標(biāo)準(zhǔn)文獻(xiàn)、政府出版物、產(chǎn)品樣本、技術(shù)檔案、......

    山東大學(xué)網(wǎng)絡(luò)教育學(xué)院 現(xiàn)代信息檢索技術(shù)3 答案

    《現(xiàn)代信息檢索技術(shù)》模擬題 一、 填空 1. 信息按出版類(lèi)型分為_(kāi)__科技圖書(shū)、科技期刊、科技報(bào)告、會(huì)議文獻(xiàn)、專(zhuān)利文獻(xiàn)、學(xué)位論文、標(biāo)準(zhǔn)文獻(xiàn)、政府出版物、產(chǎn)品樣本、技術(shù)檔......

主站蜘蛛池模板: 成在线人视频免费视频| 白丝女仆被??免费网站| 欧美性猛交ⅹxxx乱大交妖精| 国产精品一区二区香蕉| 色偷偷人人澡久久超碰97| 久久婷婷五月国产色综合| 国产两女互慰高潮视频在线观看| 无码成人网站视频免费看| 午夜性色吃奶添下面69影院| 韩国国内大量揄拍精品视频| 日本高清二区视频久二区| 久久青青草原精品国产app| 久久亚洲道色综合久久| 337p日本欧洲亚洲大胆精品555588| 99国产精品国产精品九九| 亚洲乱码无码永久不卡在线| 色欲av自慰一区二区三区| 国产在线永久视频| 无码吃奶揉捏奶头高潮视频| 亚洲 欧美 日本 国产 高清| 伊人久久大香线蕉av波多野结衣| 人妻丰满av无码久久不卡| 亚洲国语自产一区第二页| 午夜成人性爽爽免费视频| 色欲av久久综合人妻无码| 幻女bbwxxxx在线视频| 中文字幕人妻丝袜乱一区三区| 亚洲精品国产av天美传媒| 日韩欧美高清dvd碟片| 国产福利姬精品福利资源网址| 免费人妻无码不卡中文18禁| 男人边吃奶边做好爽免费视频| 人妻无码一区二区三区| 伊人久久综在合线亚洲2019| 女人下面毛多水多视频| 人妻少妇精品专区性色av| 夜鲁很鲁在线视频| 久久精品国产久精国产| 女人扒开下面无遮挡| 男人av无码天堂| 色又黄又爽18禁免费视频|