第一篇:網絡信息檢索的優(yōu)勢與不足
網絡信息檢索的優(yōu)勢與不足
摘要:本論文主要是論述了在發(fā)展的今天網絡信息的主要地位,著重分析其優(yōu)劣勢,使得我們能正確的對待網絡信息檢索。
關鍵詞:信息檢索、信息時代、網絡時代、知識經濟時代
Information retrieval network strengths and weaknesses
Abstract: This paper mainly discusses the development of today's network status information the main focus on analysis of their advantages and disadvantages, we can make the correct treatment of the network information retrieval.Keywords: information retrieval、Information Age、Internet Age、the era of knowledge economy.正文:
21實際是信息時代、網絡時代,也是知識經濟時代。網絡技術的飛速發(fā)展,徹底改變了世界的信息圖景。教育正向著信息化、社會化和網絡化的方向發(fā)展。網絡傳播影響著今天人們的生存和發(fā)展,任何關注自身生存和發(fā)展的人,就不能不掌握網絡時代信息檢索的基本技能。
我們正在進入一個網絡化時代。網絡資源層出不窮,網頁內容以每12個月翻一番的速度向前發(fā)展。如何使用戶從浩如煙海的網絡資源中獲得所需要的信息,是互聯(lián)網世界面臨的一大難題。
1信息檢索的概念
信息廣義上是指將信息按一定的方式組織和存儲起來,并根據(jù)用戶的需要找出相關信息的過程和技術,又稱“信息存儲與檢索”。狹義的信息檢索就是信息檢索過程的后半部分,即從信息集合中找出所需要的信息的過程,也就是我們常說的信息查尋。
信息檢索的四個要素:
1.1信息檢索的前題----信息意識
所謂信息意識,簡單地說,是人們利用信息系統(tǒng)獲取所需信息的內在動因,具體表現(xiàn)為對信息的敏感性、選擇能力和消化吸收能力。信息意識含有信息認知、信息情感和信息行為傾向三個層面。
1.2 信息檢索的基礎----信息源(信息的來源)
信息源的構成按文獻載體分----印刷型、縮微型、機讀型、聲像型
按文獻內容和加工程度分--一次信息、二次信息、三次信息
按出版形式分----圖書、報刊、研究報告、會議信息、專利信 息、統(tǒng)計數(shù)據(jù)、政府出版物、檔案、學位論文、標準信息(它們被認為是十大信息源,其中后8種被稱為特種文獻。教育信息資源主要分布在教育類圖書、專業(yè)期刊、學位論文等不同類型的出版物中)。
1.3 信息檢索的核心----信息獲取能力
1.3.1了解各種信息來源
1.3.2掌握檢索語言
1.3.3熟練使用檢索工具
1.3.4能對檢索效果進行判斷和評價
判斷檢索效果的兩個指標:
查全率=被檢出相關信息量/相關信息總量(%)
查準率=被檢出相關信息量/被檢出信息總量(%)
1.4 信息檢索的關鍵----信息利用
社會進步的過程就是一個知識不斷的生產—流通—再生產的過程。
為了全面、有效地利用現(xiàn)有知識和信息,在學習、科學研究和生活過程中,信息檢索的時間比例逐漸增高。
獲取學術信息的最終目的是通過對所得信息的整理、分析、歸納和總結,根據(jù)自己學習、研究過程中的思考和思路,將各種信息進行重組,船造出新的知識和信息,從而達到信息激活和增值的目的。
2網絡信息的優(yōu)勢
計算機信息檢索的優(yōu)點在于速度快,耗時少,查閱范圍廣,甚至可以查到國外剛剛出版的期刊論文的信息,檢索內容的專指性強,可以從文獻型數(shù)據(jù)庫中以文獻的發(fā)表年份、文獻中提及的人名等查找相關文獻。網絡信息資源的特點是數(shù)量龐大、增長迅速;更新頻繁。
3網絡信息的不足 網絡信息的復雜性和網絡檢索技術的限制,這類檢索工具也有著明顯的不足。(1)隨著網頁數(shù)量的迅猛增加,人工無法對其進行有效的分類、索引和利用。網絡用戶面對的是數(shù)量巨大的未組織信息,簡單的關鍵詞搜索,返回的信息數(shù)量之大,讓用戶無法承受。(2)信息有用性評價困難。一些站點在網頁中大量重復某些關鍵字,使得容易被某些著名的搜索引擎選中,以期借此提高站點的地位,但事實上卻可能沒有提供任何對用戶有價值的信息。(3)網絡信息日新月異的變更,人們總是期望挑出最新的信息。然而網絡信息時刻變動,實時搜索幾乎不可能,就是剛剛瀏覽過的網頁,也隨時都有更新、過期、刪除的可能。
4網絡信息的發(fā)展
網絡信息檢索工具的發(fā)展主要體現(xiàn)在進一步改進、完善檢索工具和檢索技術,以提高檢索服務質量,改變網絡信息檢索不盡如意的地方。主要體現(xiàn)在以下幾個方面:
4.1網絡檢索工具開發(fā)提供商之間合作越來越緊密
過去一般網絡檢索工具提供商只依靠自己建立的數(shù)據(jù)庫來提供檢索服務,檢索范圍有限,而現(xiàn)在某些著名的搜索引擎在購買其他公司的數(shù)據(jù)庫或者技術內核,有的與其他搜索引擎建立伙伴關系,以便用戶使用。比如著名雅虎現(xiàn)在采用的是Google的搜索內核,網易也曾經使用Google的搜索內核技術來豐富自己的搜索引擎數(shù)據(jù)庫,硅谷動力、廣州視窗、新浪、搜狐、Chinaren、21cn、263、Tom等搜索引擎使用融合了百度的搜索內核技術等等。
4.2信息檢索工具專業(yè)化及服務內容深化
一些檢索工具已經不再盲目追求加大收錄和標引量,而更加注重突出專業(yè)特色。在lycos搜索引擎目錄中,我們可以看到商業(yè)搜索引擎、IT搜索引擎、人才搜索引擎、金融搜索引擎、醫(yī)學搜索引擎等專業(yè)化的網絡信息檢索紛紛出現(xiàn),信息檢索工具的專業(yè)化
已經成為一種不可逆轉的趨勢。信息檢索服務商將服務更加深化:Google推出了網頁引文查詢服務,通過它可以查看自己所要查詢的資料被其他網站引用的情況,從而使用戶更好的把握網頁信息的質量;2003年8月,第三代中文搜索引擎慧聰問世,它則集“廣泛的地域搜索”、“強大的行業(yè)搜索”、“完美的MP3、Flash搜索”眾多搜索功能為一體,還開發(fā)了“針對內容的相關性查詢”和“符合漢語特性的模糊查詢”,可以實現(xiàn)漢語拼音查詢和同音詞糾錯。
4.3網絡信息工具智能化的發(fā)展趨勢
4.3.1信息檢索工具的智能化首先是網絡蜘蛛的智能化。
針對網絡信息的動態(tài)更替性,網絡蜘蛛通過啟發(fā)式學習采取最有效的搜索策略,選擇最佳時機獲取從Internet上自動收集、整理的信息。網絡蜘蛛能在網絡的任何地方工作,能盡可能地挖掘和獲得信息。網絡蜘蛛還要有網頁跟蹤監(jiān)測功能,如果網頁出現(xiàn)更新、刪除等情況要及時在數(shù)據(jù)庫中更新。網絡蜘蛛具有跨平臺工作和處理多種混合文檔結構的能力。
4.3.2其次是檢索軟件的智能化。
現(xiàn)在主要有智能搜索引擎、智能瀏覽器、智能代理。這些網絡檢索工具都非常重視開發(fā)實現(xiàn)基于自然語言形式的輸入,檢索者可以將自己的檢索提問以及所習慣的短語、詞組甚至句子等自然語言的形式輸入,智能化的檢索軟件將能夠自動分析,而后形成檢索策略進行檢索。比如現(xiàn)在的百度搜索可以在你輸入關鍵詞以后,不斷提供一些相近的關鍵詞供你選擇,直至找到你所需要的結果。Google則借助于機器翻譯技術,將一種自然語言轉變成另外一種自然語言,使用戶能夠使用母語搜索非母語的網頁,并以母語瀏覽搜索結果。尤里卡、問一問、和國外的ASK Jeeves則通過語義技術和檢索技術的結合,可是實現(xiàn)檢索工具對搜索詞在語義層次上的理解,為用戶提供最準確地檢索服務。
總結
網絡信息檢索是獲取知識的捷徑。掌握網絡信息檢索方法與技能,可以幫助人們快、準、全地獲取所需知識,最大限度地節(jié)省查找時間,使網絡信息得以充分的利用。網絡信息檢索是科學研究的向導。要進行有價值的科學研究,必須依賴信息檢索,全面獲取相關文獻信息,及時了解各學科領域出現(xiàn)的新問題、新觀點、以確定自己的研究起點和研究目標。信息檢索是終身教育的基礎。科技的迅
速發(fā)展使知識的總量呈指數(shù)增長,而知識的陳舊速度也明顯加快,這就要求人們具有終身教育的能力,這種能力在很大程度上就是獲取新知識的能力,就是對新知識的敏感力和接受力,因而必須掌握信息檢索的方法。終身學習的需要,是知識創(chuàng)新的需要。參考文獻
[1]劉綠茵.電子信息檢索與利用[M].北京.機械工業(yè)出版社.2008.[2]葉繼元.信息檢索導論[M].北京.電子工業(yè)出版社,2003.[3]彭一中.網絡信息資源檢索[M].長沙.湖南大學出版社.2002.
第二篇:網絡培訓優(yōu)勢與不足
網絡培訓優(yōu)勢與不足 優(yōu)勢
1、良好的交互性。
2、靈活方便。
3、易于管理。
4、資源共享。
5、個性化的服務
6、可以優(yōu)化教育資源。
不足
1、人的群體意識和集體觀念漸趨淡薄。
2、德育教育存在不足。
3、教師無法對學生的行為進行有效的監(jiān)督。促進。
4、學習者不能適應網絡教學方式。
第三篇:網絡信息檢索與利用實踐
浙江大學寧波理工學院
《網絡信息檢索與利用》實踐
請對照課程頁面http://lib.nit.net.cn/wxjs中的“網絡信息檢索與利用”兩次課的幻燈片和附件完成實踐要求。
第一部分:網絡融入生活
實踐目的:培養(yǎng)利用網絡的興趣,熟悉網絡信息環(huán)境,提升信息素養(yǎng),了解網絡可以解決什么問題,認識網絡與生活密不可分。
1. 宿舍的某位同學打算配一臺5000元左右的電腦,主要做圖形設計。請大家?guī)退鲆粋€電
腦配置清單。然后,他還有好多問題不懂,如奔騰4處理器和奔騰D處理器有什么不同等?你能幫他解決這些問題嗎?
2. 假若你要買一個MP3請用比價購物搜索引擎看看如何能買到合適的產品。
3. 請你通過P2P下載工具(如電騾、BT、Maze)下載一本有聲圖書(或電子雜志)和一部
記錄片。
4. 請用搜索引擎請檢索“網絡融入生活”有關的話題,你知道如何將網絡融入生活嗎?
5. 請找到環(huán)球時報的網絡版本(圖形版或文字版都是網絡版),看看它都有些什么內容。
6. 請你學會致少用一種網絡交流模式(電子郵件、新聞組、即時通訊、論壇、博客)進行網
絡交流。若用QQ,學會如何傳一個文件、如何截屏、如何遠程協(xié)助等。
7. 請在老師的個人博客()中的“歡迎提問,歡迎交流!”主題
下將你在“網絡融入生活”實踐課中的心得、體會、問題等回復到其中去。
除了這些,你還可以嘗試網絡購物(如買書)、建個人博客、創(chuàng)建個人網站等等,上課時間有限,請你真正將“網絡融入生活”吧!
第二部分:網絡融入學習
實踐目的:掌握網絡信息檢索基本方法,熟練使用搜索引擎,能用網絡解決學習中的一些問題,并善于識別、利用網絡信息資源,提高利用網絡學習的能力。(注意:可結合大作業(yè)的要求來做,將某些結果直接放到大作業(yè)中)
1. 請檢索研究生考試和公務員考試方面的試題。
2. 期刊ABRF News,中的ABRF 的英文全稱和中文名稱是什么?(提示:通過google中的“手氣不錯”直接得到其官方網站,知道英文名稱Association of Biomolecular Resource Facilities,是一個***協(xié)會,再用“ABRF 協(xié)會”檢索。)
3. 請通過網絡找到一個與自己專業(yè)(或大作業(yè)主題)相關的字典、詞典或辭典。
4. 從開放獲取信息資源中找到與自己專業(yè)(或大作業(yè)主題)相關的期刊,記錄下期刊網絡地
址,并下載一篇論文全文。
5. 從電子預印本(e_print)信息資源中找到與自己專業(yè)(或大作業(yè)主題)相關的一篇論文,并下載、查閱有關評論信息,了解提交論文過程。(以后你寫的文章可以同時向它們投稿的)
6. 通過FTP搜索引擎或P2P下載工具下載與自己專業(yè)(或大作業(yè)主題)相關的教學資源(如:
PPT課件、多媒體課件、講義、大綱等),或學習資料(如英語學習、軟件、計算機方面的教程等)。
7. 從中國精品課程中找到與自己專業(yè)(或大作業(yè)主題)相關的課程網站,并了解如何利用。
8. 從國外開放課程中找到與自己專業(yè)(或大作業(yè)主題)相關的課程網站,并了解如何利用。
9. 從學科信息門戶列表中找到與自己專業(yè)(或大作業(yè)主題)相關的學科信息門戶,并進行瀏
覽檢索。
10.到圖書館網站的“數(shù)字資源”欄目中的“考試模擬系統(tǒng)”中,學會使用它們。
第四篇:網絡信息檢索與利用實習
浙江大學寧波理工學院QQ:47072005
《網絡信息檢索與利用》實習
請對照課程頁面中的“網絡信息檢索”各講次的幻燈片和相關內容,完成以下實習要求。第一部分:網絡融入生活
實習目的:培養(yǎng)利用網絡的興趣,熟悉網絡信息環(huán)境,提升信息素養(yǎng),了解網絡可以解決什么問題,認識網絡與生活密不可分。
1. 宿舍的某位同學打算配一臺5000元左右的電腦,主要做圖形設計。請大家?guī)退鲆粋€電腦配置
清單。然后,他還有好多問題不懂,如奔騰4處理器和奔騰D處理器有什么不同等?你能幫他解決這些問題嗎?(學會使用問答搜索引擎,并學會如何提問、如何解答別人的問題)
2. 假若你要買一個MP3請用比價購物搜索引擎看看如何能買到合適的產品。
3. 請你通過P2P下載工具(如電騾、BT、Maze)下載一本有聲圖書(或電子雜志)和一部記錄片。
4. 請用搜索引擎請檢索“網絡融入生活”有關的話題,你知道如何將網絡融入生活嗎?
5. 請找到人民日報的網絡版本(圖形版或文字版都是網絡版),看看它都有些什么內容。
6. 請你學會致少用一種網絡交流模式(電子郵件、新聞組、即時通訊、論壇、博客)進行網絡交
流。若用QQ,學會如何傳一個文件、如何截屏、如何遠程協(xié)助等。
7. 請嘗試使用教學幻燈片中的垂直搜索引擎,并了解他們的特點。
8. 通過網絡(如搜索引擎)了解和學習社會網絡(SNS)方面的知識和工具。
9. 請在老師的個人博客()中的“歡迎提問,歡迎交流!”主題下將你
在“網絡融入生活”實踐課中的心得、新的應用、體會、問題等回復到其中去。
*除了這些,你還可以嘗試網絡購物(如買書)、建個人博客、創(chuàng)建個人網站;了解印客、閃客、曬客、播客,開展網絡問卷調查等等,上課時間有限,請你真正將“網絡融入生活”吧!
第二部分:網絡融入學習
實習目的:掌握網絡信息檢索基本方法,熟練使用搜索引擎和各種開放資源,能用網絡解決學習中的一些問題,并善于識別、利用網絡信息資源,提高利用網絡學習的能力。
說明:下面所說的“相關”,指的是與自己專業(yè)、你選擇的課題或感興趣的主題相關。
1. 注冊并學會使用網絡收藏夾(如央庫)、網摘工具(如天天網摘)和網絡硬盤(如G寶盤)。
2. 請檢索研究生考試和公務員考試方面的試題。
3. 請通過網絡找到一個相關的字典、詞典或辭典。
4. 請通過電子郵件訂閱英國著名雜志《Nature》(鏡像站或中文站的電子雜志中)的內容提示服務。
5. 熟悉信息定制(關鍵詞訂閱),利用搜索引擎、網站或數(shù)據(jù)庫提供的信息定制(訂閱/推送)服
務,訂閱相關的內容。比較RSS定制和電子郵件定制的優(yōu)缺點。
6. 從開放獲取信息資源中找到相關的期刊,記錄下期刊網絡地址,并下載一篇論文全文。
7. 從香港科技大學OA倉儲(或者其它開放獲取倉儲)中分別找到會議論文、學位論文、科技報
告和PPT演示稿全文,并下載。
8. 從電子預印本(e_print)信息資源中找到相關的一篇論文,并下載、查閱有關評論信息,了解
提交論文過程。(以后你寫的文章可以同時向它們提交的)
9. 通過FTP搜索引擎或P2P下載工具下載相關的教學資源(如:PPT課件、多媒體課件、講義、大綱等),或學習資料(如英語學習、軟件、計算機方面的教程等)。
10. 分別從中國精品課程、國外開放課程中找到相關的課程網站,并了解如何利用。
11. 從學科信息門戶列表中找到相關的學科信息門戶,并進行瀏覽檢索。
12. 學會利用圖書館網站的“數(shù)字資源”欄目中的隨書光盤,并預習“考試學習”中的內容。
13. 利用圖書搜索引擎搜索檢索相關的圖書,了解有限預覽、全書瀏覽、國學圖書的結果限定。
14. 嘗試用學術搜索引擎檢索相關的論文,看看學術搜索引擎有什么特點。
第五篇:網絡信息檢索及其局限性(本站推薦)
【關鍵詞】 網絡信息 信息檢索 搜索引擎網絡信息檢索簡介
隨著信息技術的飛速發(fā)展,信息已成為全社會的重要資源,對信息的占有程度及信息處理水平的先進程度已成為衡量一個國家或地區(qū)現(xiàn)代化程度的重要標志,而網絡上豐富的信息在更大程度上改變了人們的工作和生活的方式。Internet是當今世界上規(guī)模最大、覆蓋面最廣、信息資源最豐富、發(fā)展最為迅速的信息網絡,基于Internet的網絡信息檢索的研究,無論對研究人員還是一般用戶來說,都有著很強的現(xiàn)實性和實用性。
1.1 信息檢索概念
信息檢索是指將信息按一定的方式組織和存儲起來,并根據(jù)信息用戶的信息需求查找所需信息的過程和技術。人們獲取信息源的方式主要有:①傳統(tǒng)的信息檢索方法,通過人工查詢在圖書館等提供文獻的機構進行文獻的查詢和獲取活動;②聯(lián)機信息檢索相對于前者來說具有實時性、完整性、共享性、廣泛性等優(yōu)點;③網絡信息檢索是指通過網絡信息檢索工具檢索存在于Internet信息空間中各種類型的網絡信息資源。
1.2 網絡信息檢索的原理
網絡信息檢索工具是網絡信息檢索技術的實物體現(xiàn)。目前,常用的網絡信息檢索模型有布爾邏輯模型、模糊邏輯模型和概率模型等幾種方式。
① 布爾邏輯模型 這是一種簡單而常用的嚴格匹配模型。用戶可以根據(jù)檢索項在文檔中的布爾邏輯關系提交查詢,搜索工具根據(jù)事先建立的倒排文檔結構確定查詢結果。標準的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢相關,要么與查詢無關。利用這種模型進行查詢,其查詢結果一般沒有按照內容的相關特性排序。
② 模糊邏輯模型 它在查詢結果處理中引進了模糊邏輯比較,并且按照相關的優(yōu)先次序排列查詢結果,這樣就可以克服布爾邏輯模型信息查詢結果的無序性。
③ 概率模型 它是基于貝葉斯概率原理而提出的,根據(jù)詞條、文檔間的內在聯(lián)系,利用詞條間和詞條與文檔間的概率相依性來進行信息檢索。2 搜索引擎
搜索引擎是目前使用最為頻繁的一種網絡信息檢索工具。與其他工具相比,它的檢全率和檢準率都比較高,具有很強的使用價值和廣泛的應用前景。
2.1 搜索引擎的工作原理
作為一種www站點資源和其它網絡資源進行組織和檢索的檢索工具,搜索引擎的檢索機制一般包括數(shù)據(jù)采集和標引機制、數(shù)據(jù)組織機制和用戶檢索機制,基本構成如圖1所示。① 數(shù)據(jù)采集標引機制按照一定規(guī)律和方式對網絡上www站點進行搜索,并將搜索到的www頁面信息存入搜索引擎的臨時數(shù)據(jù)庫中。
② 數(shù)據(jù)組織據(jù)組織機制的主要功能是對www頁面信息進行整理以形成規(guī)范的頁面索引,并建立相應的索引數(shù)據(jù)庫。
③ 索引數(shù)據(jù)庫是用戶進行檢索的基礎,它的數(shù)據(jù)質量直接影響到檢索效果,而搜索引擎的數(shù)據(jù)采集標和標引機制又是決定數(shù)據(jù)庫質量的關鍵技術。
④ 用戶檢索機制幫助用戶以一定方式檢索引擎的索引數(shù)據(jù)庫,以獲得符合用戶需要的www站點或頁面。
2.2 搜索引擎的分類
按照用戶查找的途徑劃分,可將搜索引擎分為如下幾種: ① 基于關鍵詞的搜索引擎 主要通過使用自動采集軟件來對網絡上的數(shù)據(jù)進行采集標引,建立成索引數(shù)據(jù)庫。它主要采用自動搜索和標引方式來建立和維護其索引數(shù)據(jù)庫,供用戶查詢使用。
② 基于分類目錄的搜索引擎 一般依賴于按照某種分類標準進行人工編排的分類體系。
③ 聯(lián)合式搜索引擎 是基于關鍵詞的搜索引擎的另外一種表現(xiàn)形式,是后者與基于類目的搜索引擎的一種結合。2.3 搜索引擎的功能
目前Internet上的搜索引擎種類繁多,雖然各種搜索引擎都有自己的不同信息采集標引機制,在其他一些方面各具特色,但其基本功能卻是相似的。
① 布爾邏輯檢索 這一功能使得用戶能使用AND、OR和NOT來進行關鍵詞的搭配檢索。
② 模糊檢索 在用戶進行檢索的過程中,系統(tǒng)會對跟用戶提供的關鍵詞相似的詞語進行檢索,并返回包含關鍵詞或是這些相似詞的檢索結果。
③ 截詞檢索 這種檢索形式利用檢索詞的某一部分來進行檢索。在搜索引擎中,用戶提供包含“?”或是“*”通配符的檢索項來進行檢索。
④ 限定詞檢索 這種檢索加減號檢索,它用來規(guī)定檢索項中必須出現(xiàn)或是必須不出現(xiàn)某些關鍵詞。網絡信息檢索的局限 用戶在查找網絡信息資源時,不可避免的用到網絡信息檢索工具。檢索工具的優(yōu)劣很大程度的影響了用戶的檢索效率。雖然網絡信息檢索工具在最近幾年有了長足的發(fā)展,但是到現(xiàn)在網絡信息檢索仍然存在著這樣或是那樣的局限。
3.1 文本信息檢索的局限
① 網絡信息標引的準確度不夠 檢索工具對網絡信息資源的標引一般都存在著柵引準確度不夠的問題,檢索工具經常會在返回大量垃圾信息的同時丟失有用信息。當用戶要進行特定的文獻檢索時,有時還會發(fā)現(xiàn)現(xiàn)存的檢索工具無濟于事,檢索出來的數(shù)據(jù)完全被無用信息所覆蓋。如想要通過搜索引擎查詢清朝雍正年間李衛(wèi)任浙江巡撫的資料,你只能夠查到大量《李衛(wèi)當官》之類無用信息。
② 搜索引擎的查全率不高 由于互聯(lián)網上的信息資源以爆炸性的速度不斷增長,搜索引擎采集數(shù)據(jù)的速度遠遠落后于信息資源的增長速度。單個搜索引擎的數(shù)據(jù)庫所收集的Web頁面大大不足,就是所有的搜索引擎所儲存的數(shù)據(jù)也只占全球Web頁面的50%強。由于這方面的原因,搜索引擎的檢全率會無可避免的被降低。
③ 搜索引擎的查準率不高 一是返回的信息過多,這是現(xiàn)有搜索引擎檢索信息的普遍現(xiàn)象;二是返回重復的信息,搜索引擎的檢索結果中還經常重復出現(xiàn)同一信息源的不同部分,甚至出現(xiàn)不同信息源的相同內容信息。
④ 查詢方式有限 目前大多數(shù)搜索引擎的查詢方法比較單一,一般只提供分類查詢方式和關鍵詞查詢方式。這樣,一方面檢索時不能從文獻的多個方面對檢索提問進行限制,只能就某一關鍵詞或概念進行籠統(tǒng)的檢索;另一方面,由于查詢結果完全依賴于用戶所給出的關鍵詞,而大多數(shù)用戶對他們檢索的領域或索引數(shù)據(jù)庫的關鍵詞不太了解,因此使最后的查詢結果相關性很差,往往是輸入一個檢索式,得到一大堆網址,但其中大部分是冗余信息。
⑤ 檢索對象的數(shù)據(jù)結構單一 由于現(xiàn)在大多數(shù)網站使用的是傳統(tǒng)的關系數(shù)據(jù)庫對信息進行組織和存儲,因此其使用的搜索引擎也是基于關系數(shù)據(jù)庫的,這種傳統(tǒng)的關系數(shù)據(jù)庫非常擅長處理結構化的數(shù)據(jù),但其對于非結構化的數(shù)據(jù)的處理能力則很弱。
⑥ 交互性不夠 當前的搜索引擎與用戶的交互性不夠,與用戶間缺乏足夠的協(xié)作,不了解用戶的情況,不記錄用戶提交的查詢任務,不能處理用戶的反饋信息,因而不能與用戶進行足夠好的交互以提高檢索效率。3.2 多媒體信息檢索的局限
到現(xiàn)在為止,雖然單獨針對圖像、視頻、聲音等媒體的檢索技術已經出現(xiàn),但還沒有任何搜索引擎能夠充分解決多媒體信息的檢索,其主要表現(xiàn)在以下幾個方面:
① 檢索效果不夠理想 目前,幾乎所有的多媒體搜索引擎在多媒體信息的查準率方面都不能達到令人滿意的程度,用戶將在返回的幾百個甚至上千個圖像中篩選需要的那一幅。這是很費時和令人難以忍受的,而且有時你所用的搜索引擎根本檢不出你想要的東西。歸其原因,一方面是在于查詢方式的單一,另一方面在于對圖像的標引深度不夠,這就要求完善圖像檢索和索引機制。
② 用戶查詢接口單一 理想的多媒體檢索系統(tǒng)中,人是主動的,用戶的查詢接口能提供豐富的交互能力,且直觀易用,使用戶能夠在主動交互過程中通過調整檢索參數(shù),表達對圖像的語義感知,最終獲取滿意的結果。這就涉及到如何把用戶的提問轉換為可以執(zhí)行檢索的特征矢量、交互方式的設計,如何獲取用戶的內容感知等問題。目前的多媒體搜索引擎用戶查詢接口比較單一,大多只提供描述查詢接口,即關鍵詞提問框。
③ 圖像特征信息的表示與檢索不夠完善 基于內容的圖像檢索,實質上就是進行圖像特征相似度的比較,但目前這一技術還存在許多問題。
④ 信息的自動加工與人工標引不夠 目前文本搜索引擎在這方面的發(fā)展正日趨完善,而多媒體搜索引擎的研究剛剛起步,尤其是圖像信息的加工,圖像不同于文本,文本自身就能說明要講的內容,而圖像內容卻需要加入人的理解和描述,人工干預雖能提高查準率,但一方面能被人工標引的是極其有限的;另一方面由于人工標引勞動強度大而限制了檢索的范圍,如何對圖像信息進行快速標引和準確分類是急待解決的主要問題。
另外,目前基于內容的檢索技術多應用于對靜態(tài)圖像的檢索,對動態(tài)圖像的檢索還沒有多少行之有效的方法。但隨著寬帶網絡的逐步實現(xiàn),動態(tài)多媒體信息在網絡中將會越來越多。參考文獻】
張杰.淺論網絡信息檢索.江西圖書館學刊,2002年增刊.董慧.網絡信息資源開發(fā)與利用.武漢:武漢大學出版社,2001.盧小賓.信息檢索.北京:科學出版社,2003.李勇先,鄭文良.人工智能在網絡信息檢索中的應用.圖書館建設,2003(4),4:81~83.焦玉英,符紹宏,何紹華.信息檢索.武漢:武漢大學出版社,2001.