久久99精品久久久久久琪琪,久久人人爽人人爽人人片亞洲,熟妇人妻无码中文字幕,亚洲精品无码久久久久久久

WEB全文信息檢索技術

時間:2019-05-15 09:39:11下載本文作者:會員上傳
簡介:寫寫幫文庫小編為你整理了多篇相關的《WEB全文信息檢索技術》,但愿對你工作學習有幫助,當然你在寫寫幫文庫還可以找到更多《WEB全文信息檢索技術》。

第一篇:WEB全文信息檢索技術

WEB全文信息檢索技術

摘要:本文探索了在INTERNET網上實現全文檢索的技術。計論了從網上信息的標引、分類等預處理到組織信息檢索的過程,并就智能檢索技術的發展進行了闡述。關鍵詞:信息檢索 因特網 全文檢索

一、前言

Internet網是目前全球最大的、最有影響力的信息網絡,它將政府、學校、圖書館、商務場所、研究機構和其它組織中的局域網(LAN)集成為一個單一的、龐大的、跨越全球的通訊網絡。越來越多的人們利用這一網絡與世界各地的人進行交流。如何利用Internet網獲取有價值的信息,已成為科研人員必備的一項基本技能。

因特網是一個開放型的巨大的信息資源庫,擁有上千萬臺以上的主機和過億的用戶;并且由于因特網信息蘊含的無限豐富,信息組織、表達的直觀、生動以及信息服務的方便性和多樣性,愈來愈多的信息搜索者被其獨特的魅力所吸引。而在近幾年,因特網用戶的數量更是成倍地增長。可見,因特網檢索已成為實際上最普及、最受關注、最常涉及的信息檢索領域。

二、概述

網上的信息具有數量大、形式多、內容廣、專業性不強等特點,給情報搜集、分類、檢索等工作帶來了新的問題和挑戰。如何充分利用因特網上的信息資源正成為情報科學研究者所關注的熱點。全文信息檢索就是概據Internet信息的特點而發展起來的一種檢索方式。它主要指研究對整個文檔信息的表示,存儲、組織和訪問,即根據用戶的查詢要求,從信息數據庫中檢索出相關信息資料。

全文檢索的中心環節是文件內容表達、信息查詢的獲得以及相關信息的匹配。一個好的全文信息檢索系統不僅要求將輸出信息進行相關性排列,還應該能夠根據用戶的意圖、興趣和特點自適應和智能化地調整匹配機制,獲得用戶滿意的檢索輸出。

要實現全文檢索,首先必須對WEB信息進行預處理。

三、WEB信息的預處理

信息預處理的主要功能是過濾文件系統信息,為文件系統的表達提供一種滿意的索引輸出。其基本目的是為了獲取最優的索引記錄,使用戶能很容易地檢索到所需信息。

(1)格式過濾:信息預處理應該能夠過濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。

(2)語詞切分:語詞是信息表達的最小單位,而漢語不同于西方語言,其句子的語詞間沒有分隔符因此需要進行語詞切分。常用的語詞切分方法有按詞典進行最大詞組匹配、逆向最大詞組匹配、最佳匹配法,聯想-回溯法、全自動詞典切詞等。近年來,又出現了基于神經元網絡的和專家系統的分詞方法和基于統計和頻度分析的分詞方法。

(3)詞法分析:漢語語詞切分中存在切分歧異,如句子“網球拍賣完了”,可以切分為“網球/拍賣完了”,也可以切分為“網球拍/賣完了”。因此需要利用各種上下文知識解決語詞切分歧異。此外,還需要對語詞進行詞法分析,識別出各個語詞的詞干,以便根據詞干建立信息索引。對于英語語詞,建立索引之前首先要去除一些停頓詞(如常見的功能詞“a”,“the”,“it”等)和詞根(如“ing”,“ed”,“ly”等)。

(4)詞性標注和短語識別:在切分的基礎上,利用基于規則和統計的方法進行詞性標注。在此基礎上,還要利用各種語法規則,識別出重要的短語結構。

(5)自動標引:從網頁文檔中提取出一組能最大程度上概括其內容特征、可作為用戶檢索入口的關鍵性信息,用該組信息對文文件進行標引,使用戶可以通過輸入關鍵信息檢索到該文文件的簡要信息,如標題、摘要、時間、作者和URL等,進一步點擊可查詢到該文 1 檔.

(6)自動分類:建立并維護一套完整的分類目錄體系,根據文文件的信息特征,計算出與其相關程度最大的一個或多個分類,將文檔劃歸到這些分類中去,使用戶可以通過瀏覽分類體系直接查詢到該文檔.

四、檢索

檢索包括文件信息表達和查詢信息表達以及相關信息預測過程。

(1)信息表達:信息的表達有多種方式,如布爾表達、矢量空間表達、自然語言表達等,每種表達方式由應用系統服務者提出并由整個應用系統的目的和需求所決定,并對應于相應的存儲模式和檢索算法,信息查詢和組織的效率,也就是速度和存儲的空間在很大程度上決定了檢索服務系統的性能。

(2)查詢分析:用戶端的查詢信息首先要進行分析處理,提取出查詢項索引、邏輯表達式或其它查詢特征描述。和文件信息索引不同的是:查詢索引處理是及時地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進行遠程數據的搜索和獲取預先生成的本地索引。查詢索引和文件索引采取同樣的表達方式,因此能夠采取相似性估計算法檢索出相關文件。

(3)查詢擴展:近年來,為了提高信息檢索的性能,將應用領域知識和索引、相關性、估計、查詢表達相結合實現查詢擴展,即查詢索引還包括不在用戶查詢中出現的查詢詞部分。典型的知識庫查詢擴展應用如圖1所示,知識庫中存儲的知識為原始查詢增添了相關詞,從而擴展了原始查詢。

(4)查詢詞的選擇策略:

·非獨立詞:非獨立詞指的是和查詢詞具有較大相關性的詞。但是預先必須計算文件集合中的所有詞之間的相關性。

·反饋詞:根據用戶反饋的文件信息,按照在相關文件和非相關文件中詞的出現頻率和分布決定出重要的詞,將這些詞增加到用戶查詢中。

·交互式選擇:用戶從通過上述策略得出的待選詞中決定最后的查詢詞。

反饋網絡屬于人機交互范疇,目的在于提高查詢性能和針對性。不同的用戶根據實際情況提供不同的反饋信息,不同的信息檢索服務系統按照其功能與檢索方法也有不同的反饋結構和交互方式,因此查詢結果也不盡相同。

(5)信息檢索模型:信息檢索系統的核心是搜索引擎,它需要從大量復雜信息中,篩選出符合用戶需要的信息。根據搜索引擎查找相關信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、矢量空間模型以及概率模型等。

布爾邏輯模型布爾邏輯模型是最簡單的檢索模型,也是其他檢索模型的基礎。標準布爾邏輯模型為二元邏輯,即一系列對應于文件特征的二元變量。這些變量包括從文件中提取的文本檢索詞,有時也包括一些更為復雜的特征,如數據、短語、私人簽名和手工加入的描述子。在布爾模型中有確切的文件特征表達集合。用戶可以根據檢索項在文檔中的布爾邏輯關系遞交查詢。匹配函數由布爾邏輯的基本法則確定。所檢索出的文檔或者與查詢相關,或者與查詢無關。查詢結果一般不進行相關性排序。

模糊邏輯模型為了處理精度和復雜性之間的矛盾,引入了模糊邏輯模型,它以邏輯真值為[0,1]的模糊邏輯為基礎的,以隸屬函數概念來描述現象差異的中間過渡。在查詢結果處理過程中引入模糊邏輯運算,將所檢索的文件信息和用戶的查詢要求進行模糊邏輯比較,按照相關性的優先次序排出查詢結果,在布爾檢索中借助模糊邏輯模型能夠克服布爾邏輯查詢結果的無序性。

矢量空間模型和布爾檢索模型不同,矢量空間模型中查詢和文件都映射為同一n維空間矢量。利用奇異值分解(SVD)、查詢詞和文件的內部結構聯系,通過歐幾里德距離和余弦法則作相似性比較,根據矢量空間的相似性,排列查詢結果。矢量空間模型不僅可以方便地產生有效的查詢結果,而且能夠提供查詢結果分類,為用戶提供準確定位所需的信息。

概率模型在信息檢索中存在不確定性問題,對查詢本身來說,它不能唯一地表示信息需求,對于結果來說,定查詢結果的正確與否。對于布爾檢索也是如此,因為查詢的提交本身就是一種不確切方式。為了解決在布爾檢索模型中的不確定性問題,引入了概率檢索模型。該模型基于概率排隊理論:當文件按相關概率遞減原則排列時可以獲得最大的檢索性能。

五、全文信息檢索技術的發展

目前的全文檢索技術還存在著一些未盡人意的結果,主要是通常的信息檢索系統性能較低,原因是將孤立詞和詞匯術語作為查詢描述子,因而文件內容的相似性較差。智能化信息檢索是人工智能和信息檢索的相結合的產物。它能使信息檢索系統“理解”用戶的信息需要和文件包含的信息內容。它在對內容的分析理解、內容表達、知識學習、推理機制,決策等基礎上實現檢索的智能化。

目前人工智能和信息檢索的結合主要包括三方面:(1)信息檢索和專家系統:主要研究方向是開發一個專家中介系統來協助查詢形成、搜索策略選擇以及預測檢索文件;(2)信息檢索和自然語言處理:它實際上是以字或詞為符號的一種符號系統。目前自然語言處理對信息檢索的應用仍停留在簡單語言處理上,例如確認詞根和詞組等。(3)信息檢索和知識表達:此領域的研究主要是通過應用領域知識來理解文件和查詢的信息內容。

目前,雖然某些在WWW上的信息檢索服務系統采取了智能用戶代理的等方式,可以根據用戶事先定義的信息檢索要求,在網絡上實時監視信息源,如指定Web頁面的更新、網絡新聞、電子郵件等,并將用戶所需的信息通過電子郵件等方式,主動提供給用戶,減少用戶檢索信息的時間。但是商用信息檢索系統仍主要以布爾模糊邏輯為主,輔以部分自然語言的處理。智能化信息檢索技術的發展,特別是知識學習和知識庫以及人機交互方式的應用,將大大提高信息檢索服務系統的精度和相關性。隨著智能化技術的發展,全文信息檢索技術必將更廣泛地應用于網上信息檢索領域。附:參考文獻

1)、www.tmdps.cnposed of SVM and binary decision tree and used for Chinese Web page classification.The category whose amount of training examples is maximum is selected as the category that can be identified by current classifier and the training data of remain categories is used as negative examples when a new classifier is constructed.It can reduce the train scale of SVM classifier and improve the training efficiency.During the test process, each classifier is called in the order that it was constructed.The experiments show that it not only reduces the size of train set, but also has very high training efficiency.Its precision and recall are also very good.2.A Chinese Web page classification algorithm that is based on the combination of SVM-Decision tree and clustering is proposed.For multi-class classification, the classifiers are composed of SVM and binary decision tree.Combined with some clustering method, we select those negative examples that may be support vectors with high probability and add them to the SVM training set.Any page can be classified by comparing the distance of clustering centers or by SVM.Experiments show that this method can greatly reduce the train scale of SVM classifiers and improve the training efficiency.Its precision and recall are also very high.3.A valid method to use the unlabeled web page data to improve the classifier which has only a few labeled training examples is designed.It first selects some web pages with high similarity and appropriate difference from the unlabeled web page pool using vector space model and adds these unlabeled examples to the labeled training set.SVM classifiers are retrained and used for classification again.Experiments show that this method can use the unlabeled data effectively and enhances the training set.It improves the classification recall and reduces the need for labeled training examples.4.An open Chinese web document classification system is designed and implemented.Several Chinese web page classification algorithms and research work on using unlabeled data to improve classification performance presented in this thesis are integrated into this system.It is also designed according to the practical need of experiments and use.Modular architecture is adopted to facilitate functional expansion and performance improvement.5.The application of character-based indexing technology to the search of Chinese web documents is studied.Because Chinese Web documents deal with many fields and change quickly, it is difficult to create a dictionary large enough for the information processing demand.Different meanings occur often during Chinese word segmentation and can result in segmentation errors.Some results are skipped over or some errors occur during the process of searching some words because of these problems.The recall and precision are low in these cases.Organization structure, retrieval algorithm and compression of character-based indexing is discussed in detail.Byte aligned compression method is proposed.The structure and implementation of the entire system are described at last.This system is proved to have good response time and precision and be a practical one by tests.

第二篇:信息檢索技術論文

近年來,計算機技術、語言學以及人工智能技術的發展促進了整個信息檢索技術領域的發展。今天小編要給大家介紹的便是信息檢索技術論文,歡迎閱讀!

信息檢索技術論文

[摘要]通過對近年來計算機科學、人工智能、專利文獻加工等領域的發展進行總結,從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術五個方面介紹專利文獻計算機檢索技術的最新發展。機器翻譯技術和多邊共同分類體系的完善有助于提高計算機檢索效率、消除語言障礙,而語義檢索、圖像檢索和文獻自動處理技術的發展有望使面向不同層次用戶的計算機智能化檢索系統得以實現。

[關鍵詞]專利文獻 計算機檢索 語義檢索 圖像檢索

1、前言

近年來,計算機技術、語言學以及人工智能技術的發展促進了整個信息檢索技術領域的發展,專利文獻的計算機檢索技術正成為情報檢索領域研究的熱點。下文擬從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術五個方面介紹專利文獻計算機檢索技術的最新發展。

2、多語言混合檢索

專利文獻是由各國、各地區專利局或世界知識產權局出版的官方文獻,因此一般以各局官方語言出版。雖然大部分專利文獻是英語文獻,但是仍然存在大量日文、中文、德文、法文及其他語種的文獻。出版語言的多樣性給專利文獻的檢索和利用帶來了極大的障礙,要實現多語言混合檢索,機器翻譯是必不可少的技術。目前一些專利局在其上推出了機器翻譯系統,例如我國國家知識產權局提供有漢英機器翻譯,日本特許廳提供有日英機器翻譯,韓國知識產權局提供有韓英機器翻譯等,上述網絡機器翻譯系統對其他國家的用戶閱讀方便和使用本國專利文獻起到了幫助作用。

隨著計算機技術的發展,機器翻譯的技術也迅速發展,從傳統的基于規則的機器翻譯擴展到了基于實例或模版的機器翻譯、統計機器翻譯等。尤其是近年來語言學和人工智能技術的發展,以語義描述或以知識描述為特征的智能機器翻譯系統正逐步成為研究的熱點。專利文獻作為一種特殊的科技文獻,由于其具有特定的句法和語言結構,同時例如權利要求書等具有法律公示性文件的作用,這對翻譯的準確性提出了更高的要求,已有研究者通過在機器翻譯系統內集成多個翻譯引擎、對不同特點的內容使用不同引擎翻譯的方式來提高翻譯質量。

已有的機器翻譯系統基本局限于單篇文獻的機器翻譯,無法實現真正的多語言混合檢索。多語言混合檢索系統不僅可以允許混合語言的檢索式,而且同一個檢索式還可以對不同語言的專利文獻進行檢索,其實現方式主要有如下三種:翻譯檢索式、翻譯文獻或者兩者相結合的混合式。翻譯檢索式的工作量小,比較適合于因特網檢索,但由于檢索式通常缺乏語境,翻譯難度較大;翻譯文獻的方式雖然有利于提高翻譯質量,進而有利于文獻檢索,但存在的主要問題是翻譯量太大、翻譯時間長。

3、分類檢索

分類號一直是專利文獻檢索的重要手段。目前除了基本涵蓋各國專利文獻的國際專利分類(IPC)之外,美國專利商標局、日本特許廳和歐洲專利局各自都有自己的分類體系,分別是UC、FI/FT和ECLA。IPC雖然通用,但存在分類標準不統一、分類條目不夠完備、文獻分類更新不及時等缺陷,導致使用IPC檢索的效果欠佳。UC和FI/FT分別只能檢索美國和日本的專利文獻,ECLA雖然能夠檢索到多國的文獻,但仍然不能有效地檢索日本、韓國、中國等國的專利文獻。

為改善這種局面,美國、日本和歐洲自2000年即開始了“三邊分類和諧計劃”,該計劃旨在推進ECLA、UC和FI三個分類體系的融合以增強分類號檢索的功能,同時對現有IPC分類體系提出改進建議。依據2009年召開的第27次三邊會議,韓國知識產權局已經加入上述計劃,而中國國家知識產權局也以觀察國的身份參與這項工作。此外,近年來美國專利商標局、日本特許廳、歐洲專利局、韓國知識產權局和中國國家知識產權局五局積極開展合作,其中一個重要的合作項目是“共同的分類”。該項目的實施將有利于提高分類的一致性,擴展或細化部分技術領域的分類,進而提高檢索的效率和質量。

不管是美日歐三方開展的“三邊分類和諧計劃”,還是五局共同開展的“共同的分類”項目,都必將推進專利文獻分類體系的進一步發展,實現真正意義上的“基于檢索的分類”,進一步增強分類號在專利文獻計算機檢索中的作用。

4、語義檢索

當前專利文獻檢索的主要手段為關鍵詞和分類號檢索,而由于一詞多義、一義多詞,專利文獻撰寫、加工和翻譯質量不一以及關鍵詞的機械匹配等問題,本質上決定了其查全率和查準率受限制。隨著計算技術、人工智能、自然語言處理等技術的發展,搜索引擎的智能化有望從根本上提高現有檢索系統的檢索質量。

搜索引擎的智能化具體表現為語義檢索,也稱為知識檢索或概念檢索。語義檢索是對檢索條件、信息組織及檢索結果顯示賦予一定語義成分的一種新的檢索方式。語義檢索的本質在于以語義為對象進行搜索,而不是對字符串進行簡單的機械匹配,因此可避免關鍵詞匹配檢索中由于詞和義不對應所導致的問題。

語義檢索過程一般包括對被檢索的文檔以及輸入的檢索式進行語義分析和匹配處理。這種語義分析處理依賴于詞匯的語義描述技術以及分別用于詞義鑒別和詞匯過濾的語義識別技術和詞匯鏈算法。可以通過諸如WordNet等語義詞典對詞匯實現較完備的語義描述,保證人和機器對詞匯的理解一致。

最新發展的潛在語義索引通過將文獻搜索過程中的向量空間模型和奇異值分解相結合,可以揭示文檔中的詞間關系,因而適于構建專利文獻搜索引擎”…。利用語義進行檢索還可以將專利文獻中的非技術性信息考慮在內,例如將特定的技術概念和申請人、發明人等信息進行語義聯系。此外,語義檢索還可以從用戶角度出發,考慮用戶的檢索需求,從而為諸如查新、侵權等不同目的的檢索提供相應的結果。

近年來國內一些開發商也紛紛提供具有語義檢索功能的專利文獻檢索系統,例如東方靈盾開發的專利檢索系統和Patenticst網站。Patentics網站除了可以實現傳統的關鍵詞檢索功能,還支持語義檢索,僅通過輸入檢索所針對的專利文獻號,即可自動對其進行語義分析、文獻檢索,并對結果進行相關度排序。當前專利文獻檢索領域還未廣泛應用語義檢索,但隨著研究的深入,相信未來的搜索引擎不僅能利用語義技術提高檢索的效率,還有望能對檢索結果進行分析、評價,甚至自動生成檢索報告。

5、圖像檢索

根據對圖像檢索所使用方法的特征可以分為基于文本的圖像檢索法(TBIR)和基于內容的圖像檢索法(cBIR)。專利文獻一般都帶有大量的附圖,包括機械結構或化學結構式附圖、電路圖、方框圖、流程圖或曲線圖等。與傳統的關鍵詞檢索和分類號檢索相比,CBIR更加直觀、快速,而且可以克服因文字表述差異而導致的漏檢,因此它正在成為專利文獻檢索領域的研究熱點。專利文獻的附圖都是黑白二元圖像(本文

所稱專利是指發明和實用新型專利,不包括外觀設計專利),不存在顏色和紋理等特征,因此專利文獻的圖像檢索主要是基于形狀和區域的圖像特征。

雖然目前還沒有成熟的專利文獻圖像檢索系統,但一些研究機構已經開發出若干可專門用于專利文獻的圖像檢索原型系統,例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek專門針對美國專利文獻進行圖像檢索,而PatMedia網站上的試驗系統僅針對歐洲專利局的專利文獻,這兩個圖像檢索系統都可實現直接輸入待檢索的圖像,系統自動進行相似度匹配,直接提供專利附圖,同時還可以進行基于文本的圖像檢索。

典型的專利圖像檢索系統包括專利文獻處理部分和圖像檢索部分,如圖1所示:

文獻處理部分又進一步包括文獻預處理和視覺、文本元數據提取和索引兩部分。前者是找出文獻中的圖形和對應的文字描述;后者則是進一步進行圖像特征分析和文本分析,分別提取基本的圖像特征以及能夠表示圖形含義的高層語義特征的關鍵詞,由此分別形成索引后的圖形特征矢量庫、圖像庫、文本描述關鍵詞庫和知識庫。在圖像檢索部分,基于上述提取的元數據,進行圖像相似度匹配,同時還可以基于文本進行圖像檢索。與一般領域的圖形檢索相比,由于專利文獻中每幅圖形一般都對應有文字描述,即使不再進行人工標注或自動標注,都能提取到較好的高層語義特征,這對提高專利文獻圖形檢索的準確性非常有幫助。

目前,專利文獻圖像檢索系統僅處于試驗階段,只能對數量非常少的特定專利文獻進行檢索,且檢索結果相關度還不是很高,但由于圖像檢索具有其他任何檢索方式都不具備的優點,相信隨著人們對專利文獻圖像檢索技術的進一步研究以及語義檢索技術的進一步發展,實現高精度的圖像檢索必將成為現實。

6、輔助技術

高質量的專利文獻是提高檢索質量的基礎。專利文獻分類、標引和摘要改寫是專利文獻加工的主要內容。傳統的專利文獻加工方法主要依賴于人工,其成本高且速度受限制,質量不統一。隨著人工智能和計算機技術的發展,開始出現對專利文獻進行自動分類、自動標引、自動摘要和自動聚類。

專利文獻自動分類已經在歐洲、美國、日本得到了廣泛的研究和嘗試。例如歐洲專利局已經利用自然語言處理的相關技術實現了專利文獻的自動初分類;對日本專利文獻自動分類研究表明,對于使用K臨近算法進行自動分類的情況下,先將專利文獻按部分結構化為語義單元可以提高74%的效率。

PATExpert代表了目前較先進的專利文獻自動處理技術的發展,通過基于語義網的語義處理技術實現了面向內容的專利文獻自動處理,其中的一個主要技術是利用一定的語義表示結構實現專利文獻知識層面的表達。該系統可以執行的處理任務包括:專利文獻內容和元數據的自動抽取;全文、圖像、相關性搜索引擎;專利文獻的自動分類和聚類;面向多語言的輔助理解工具;專利價值自動評估等。

國內有一些研究機構開展了大量的基于IPC體系的專利文獻自動分類的研究,這些研究大部分集中在統計分類技術。近年來隨著人工智能技術的興起,基于人工智能或語義的專利文獻自動分類發展迅速,例如上文提到的Patentics試驗系統也開始嘗試對專利文獻進行自動分類。

中文專利文獻的自動處理仍處于研究階段,雖然國外專利文獻自動處理已經積累了許多寶貴經驗,但由于中文表述的特殊性,許多技術還待消化和開發,例如漢語詞匯之間的分詞技術是制約自動標引質量的一個障礙。隨著信息處理自動化相關技術的發展,專利文獻的自動分類、自動標引、自動聚類和自動摘要正在逐步由半自動走向全自動化,這給搜索引擎的發展帶來了極大的便利。同時,利用語義技術實現基于內容的自動處理將是未來的發展主流,也是提高專利文獻自動處理質量的主要手段。

7、結語

專利文獻計算機檢索是一個涉及了多學科的研究領域,其中以語義檢索為核心的技術推動了搜索引擎、機器翻譯、圖像檢索等相關技術的發展,而由于專利文獻的特殊性,分類體系和文獻自動處理技術也在其中占據了重要地位。隨著研究的進一步深入,現存的語言障礙和檢索效率低下等缺陷在不久的將來必將逐漸被克服,不同層次的用戶有望借助于智能化的自動檢索系統便利地實現專業化檢索。

第三篇:當代信息檢索技術實習報告

0

《當代信息檢索技術》

實習報告

學院:教育學院 班級:2012級7班 姓名:王靜宜

學號:201201440721

一、簡答題

1、布爾邏輯運算符有幾種?其定義與功能分別是什么?

布爾邏輯運算符有三種,分別是邏輯“與”AND,邏輯“或”OR,邏輯“非”NOT。

定義:A AND B:檢索詞A和檢索詞B同時出現在一條記錄中。A OR B:記錄中出現檢索詞A或檢索詞B或兩詞同時出現在一條記錄中。適用于連接具有并列關系或同義關系的詞。A NOT B:記錄必須包含檢索詞A但不能包含檢索詞B。即在含有A檢索詞的文獻中去除含有B檢索詞的文獻。

功能:AND的功能是縮小檢索范圍,提高查準率;OR的功能是擴大檢索范圍,提高查全率;NOT的功能是縮小檢索范圍,提高查準率。

2、什么時候適用于截詞檢索?

截詞檢索主要用于檢索詞的單復數、詞性的詞尾變化、詞根相同的一類詞,以及同一詞的拼法變異等。尤其在英語中檢索詞詞干相同、詞義相近,但詞尾或詞中間有變化時(多數英語單詞的單復數變化和英美不同拼寫形式),可以采用截詞符,或稱通配符擴展檢索詞。截詞檢索可以擴大檢索結果。

3、在機檢中可以使用什么辦法提高檢索結果的查準率?

(1)提高檢索詞的專指度,增加或換用下位詞和專指性較強的自由詞;(2)增加概念組面,用AND連接相關檢索項;

(3)限制檢索詞出現的可檢字段,如限定在篇名和敘詞字段中檢索;(4)用位置算符控制檢索詞的詞間順序與位置;

(5)利用限制符、前綴符限制文獻的外表特征,如文獻類型、出版年代、語種、作者等;(6)用邏輯非NOT來排除一些無關的檢索項;(7)進行加權檢索,從定量角度加以控制。

4、在信息檢索的實際過程中,如果需要擴大檢索范圍時,如何調整檢索策略?

(1)檢查檢索名詞的拼寫是否有誤;(2)增加檢索名詞的普遍性——查閱工具如詞表,字典, 分類表及字匯表。(3)減少使用邏輯“與”,丟掉一些次要的或者太專指的概念;(4)使用邏輯“或”連接同義詞及相關詞,或采用分類號檢索,增加網羅度;(5)增加被檢索的數據庫調整位置算符,由嚴變松,取消某些過嚴的限制符,如字段限制符、位置算符限制(或者改用限制程度較小的位置算符)(6)在詞干相同的單詞后使用截詞

5、核心期刊的特點是什么?核心期刊的判定標準是什么?與你專業相關的核心期刊有哪些(請列舉5種)

核心期刊的特點是集中性、代表性、學科性、權威性、層次性、相對性、動態性;核心期刊的判定標準是刊載論文數量多、品質高,而且能反應出該學科最新研究成果及發展趨勢,受到讀者重視之學術期刊;與我專業相關的核心期刊有:《學前教育研究》 《外國教育研究》 《教育評論》 《教育研究》 《心理發展與教育》

二、自選教育學專業任意研究課題,使用CNKI、維普、讀秀三個檢索平臺回答以下問題:

1、你的課題名稱是什么?你確定的檢索詞、檢索式與檢索途徑是什么?

我的課題名稱是:關于幼兒入學準備的研究 檢索詞:幼兒 入學準備

檢索式:題名或關鍵詞=幼兒 并且 題名或關鍵詞=入學準備 并且 年份=2002-2013 并且 期刊范圍=核心期刊

檢索途徑:CNKI高級檢索、維普高級檢索、讀秀高級檢索 2、2002-2013年,該課題發表于核心期刊的研究論文有哪些?分別列出文章名、作者名、發表期刊、刊載時間(至少列舉5條。需要注明該期刊是哪一類核心期刊CSCD、CA、SCI、EI、CSSCI,如該期刊同時被多個核心目錄收錄,則全部注明。如所列期刊為非核心,該題不得分)。檢索平臺一:CNKI高級檢索

1.優質家庭環境的特點:對高入學準備水平幼兒家長的訪談研究 孫蕾;邰宇;于濤 東北師大學報(哲學社會科學版)2009年05期 切實提高弱勢家庭幼兒入學準備水平:美國公立幼兒園項目及其啟示 何婷婷;王建梁 外國教育研究 2009年05期 起點上的差距:城鄉幼兒入學準備水平的對比研究 “城鄉兒童入學準備狀況比較研究”課題組;蓋笑松 學前教育研究 2008年07期 河南省城鄉幼兒教育現狀調查——兼談幼兒教育公平柳陽輝 內蒙古師范大學學報(教育科學版)2013年08期 5 公平視域下我國城鄉學前教育發展差異分析 洪秀敏;羅麗 教育學報 2012年05期 中國兒童的入學準備:問題分析與促進途徑 蓋笑松;楊世君;孫蕾 東北師大學報(哲學社會科學版)2008年06期

檢索平臺二:重慶維普高級檢索

1題名:學前一年幼兒入學語言準備的城鄉比較研究 作者:劉焱[1] 秦金亮[2] 潘月娟[1] 石曉波[3] 出處:《教育學報》 CSSCI 2012年第5期 題名:學前一年幼兒入學數學準備的城鄉比較研究 作者:潘月娟[1] 裘指揮[2] 劉焱[1] 周雪[3] 出處:《教育學報》 CSSCI 2012年第4期 題名:做好新生入學的準備工作 作者:孫娜 出處:《教學與管理:小學版》 2012年第7期 題名:美國圣保羅幼兒教育獎學金項目述評 作者:魏登尖 賀紅風 出處:《上海教育科研》 CSSCI 2012年第5期 題名:公辦幼兒園兒童入學語言準備現狀調查——以河南省為例 作者:楊雪萍 出處:《上海教育科研》 CSSCI 2012年第5期

6題名:起點上的差距:城鄉幼兒入學準備水平的對比研究 出處:《學前教育研究》 CSSCI 2008年第7期

檢索平臺三:讀秀(讀秀無法選擇核心期刊,也未作特殊標記)

3、有關該課題的圖書有哪些?分別列出書名、著者、出版社、出版時間、ISBN號(至少列舉5條)。

1.《幼兒入學準備》 【作 者】王平

【出版發行】 北京:朝華少年兒童出版社 , 2003.01 【ISBN號】7-5061-1135-7

2.《幼兒入學準備 我要上小學了 智力篇》 【作 者】胡冬娟編

【出版發行】 北京:連環畫出版社 , 2006.05 【ISBN號】7-5056-0722-7

3.《幼兒入學準備 我要上小學了 行為能力篇》 【作 者】胡冬娟編

【出版發行】 北京:連環畫出版社 , 2006.05 【ISBN號】7-5056-0723-5

4.《新編幼兒入學準備教材 美術·手工準備 下》 【作 者】許巍巍選編

【出版發行】 北京:中國少年兒童出版社 , 2003.01 【ISBN號】7-5007-6427-8

5.《新編幼兒入學準備教材 學數學準備 下》 【作 者】周梅林文

【出版發行】 北京:中國少年兒童出版社 , 2003.01 【ISBN號】7-5007-6423-5

6.《幼兒入學準備 看圖說話 新版》 【作 者】謝軍編

【出版發行】 北京:中國少年兒童出版社 , 2014.05 【ISBN號】978-7-5148-1644-0

4、通過以上檢索結果,你認為該研究領域內的權威學者有哪些?列舉五位,選擇其中一位,檢索其在最近10年中發表于核心期刊的研究論文,分別列出文章名、發表期刊、刊載時間(至少列舉5條,如所列期刊為非核心,該題不得分)。

我認為該研究領域內的權威學者有:龐麗娟 馮曉霞 孫蕾 劉焱 蓋笑松,我選擇龐麗娟進行檢索

對權威學者進行檢索研究論文

1.《中國學前教育立法:思考與進程》 龐麗娟;韓小雨 北京師范大學學報(社會科學版)2010/05 2.《完善機制 落實義務教育教師績效工資政策》 龐麗娟;韓小雨;謝云麗;李琳;夏婧 教育研究 2010/04 3.《我國農村義務教育教師隊伍建設:問題及其破解》 龐麗娟;韓小雨 教育研究 2006/09 4.《“省級統籌 以縣為主”完善我國學前教育管理體制》 龐麗娟;范明麗 教育研究 2013/10 5.《當前我國學前教育管理體制面臨的主要問題與挑戰》 龐麗娟;范明麗 教育發展研究 2012/04

5、根據以上檢索結果,你認為該課題最近10年經歷了怎樣的發展過程,其最新研究進展如何?(至少500字)?

關于入學準備近十年發展歷程和最新進展

入學準備一直是近些年來研究中的熱點問題,隨著學前教育被更多的學者關注,研究的人越來越多,而且入學準備研究也將成為更重要的研究方向。關于入學準備的研究主要從:概念研究、兒童個體的準備、學校的準備、家庭的準備、社區的準備、評估工具方面著手研究,此外還有學者從影響兒童入學準備的因素、兒童自身的因素、家庭方面的影響因素、社區或居住環境因素進行分析研究。關于幼兒入學準備的研究仍處于探索階段, 關于幼兒入學準備的概念的研究已經比較成熟,普遍接受的是NEGP的生態化模型,即兒童個體的準備、學校的準備和家庭與社區的準備。在評估工具方面,更多使用的是以往的單一領域內容評估的工具,對家庭和學校的準備狀態評估非常少。在學前干預方面,家庭收入和社會經濟地位很大程度上決定著兒童學前教育的獲得和質量。此外關于兒童入學準備的測量工具的開發、兒童入學準備影響因素,以及對入學準備狀態不足的風險兒童進行早期診斷和干預的研究則相對更是薄弱,急待研究者的進一步研究和探索。幼兒入學準備對幼兒的學習有著很大的影響,幼兒入學準備這個課題會不斷受學者關注。雖然目前各國對幼兒入學準備的研究不斷增加,但是中國對該課題的研究還是不太深入。

三、自擬一個任意專業領域研究課題,使用CNKI、維普、讀秀三個檢索平臺依次回答以

下問題。

1、你自擬的課題名稱是什么?它屬于哪個學科?中圖分類號是什么?對課題內容作簡單概述(200字以內)。

我的課題名稱是:關于紅樓夢評論的研究 屬于:中國文學 中圖分類號 I207.411 《紅樓夢》是一部具有高度思想性和藝術性的偉大作品,成書于封建社會晚期,該書系統總結了中國封建社會的文化、制度,對封建社會的各個方面進行了深刻的批判。不同的人看待《紅樓夢》的角度和方式方法不一樣,就會有各種對紅樓夢的評論,所謂仁者見仁智者見智,學者們對這部書都有自己獨到的見解,我們通過學者的視角我們會更加了解這一部曠世奇書,豐富自己的文化底蘊,增長自己對傳統文化的理解。

2、檢索該課題文獻資料需利用哪些數據庫、搜索引擎或工具書?

數據庫:CNKI、讀秀、百鏈 收索引擎:百度

工具書:CNKI工具書

3、檢索該課題文獻資料,你確定的檢索詞、檢索式與檢索途徑是什么?

檢索詞:紅樓夢 評論

檢索式:題名或關鍵詞=紅樓夢 并且 題名或關鍵詞=評論

檢索途徑:CALIS外文期刊網高級檢索、百鏈高級檢索、讀秀高級檢索、CNKI高級檢索

4、通過擬定的檢索詞與檢索式進行檢索,獲得的中外文圖書、期刊論文、學位論文、會議論文結果有哪些(各列舉5條)?

中文圖書

1.紅樓夢評論 【作 者】王國維著

【出版發行】 長沙:岳麓書社 , 1999 【ISBN號】7-80520-966-9

2紅樓夢評論資料選編

【作 者】鄭州大學中文系資料室,中國古代文學教研組編輯

【出版發行】 鄭州大學中文系資料室 中國古代文學教研組 , 1973

3《紅樓夢》評論文選

【作 者】新華日報資料組編印 【出版發行】 1974.12

4《紅樓夢》評論

【作 者】南京大學圖書館,中文系古典文學教研組編輯

【出版發行】 南京大學圖書館 南京大學中文系古典文學教研組 , 1974

5《紅樓夢》評論選編 【作 者】浙江圖書館編輯

【出版發行】 浙江圖書館 , 1974

外文圖書

外文期刊

中文期刊

1.王國維《紅樓夢評論》美學思想之思考

作者:黃西華

文獻出處:名作欣賞

ISSN:10060189 年代:2014 期號:第17期

頁碼:70-71 作者單位:南昌師范學院中文系

2.王國維《紅樓夢評論》美學思想之思考

作者:黃西華

文獻出處:名作欣賞(中旬)年代:2014 期號:第6期

頁碼:70-71 作者單位:南昌師范學院中文系

3.宇宙的大著述:從《紅樓夢評論》看《紅樓夢》

作者:周哲良

文獻出處:四川職業技術學院學報

ISSN:16722094 年代:2014 期號:第3期

頁碼:59-61 作者單位:四川職業技術學院

4.王國維悲劇思想之轉變:以《〈紅樓夢〉評論》與《宋元戲曲考》為中心的考察

作者:來梅

文獻出處:嘉興學院學報

ISSN:10086781 年代:2014 期號:第3期

頁碼:88-91 作者單位:安徽師范大學文學院

5.王國維與日本明治時期的文學批評:以《紅樓夢評論》、《宋元戲曲考》為例

作者:祁曉明

文獻出處:文學評論

ISSN:05114683 年代:2014 期號:第3期

頁碼:174-180

中文學位論文

1論王國維美學思想中的叔本華——《<紅樓夢>評論》和“境界”說研究

賴彧煌

福建師范大學

碩士

2003年論王國維《紅樓夢評論》中的美學思想及其對西論中化的啟示

王斌

遼寧大學

碩士

2011年王國維《紅樓夢評論》的悲劇思想探究

王要有

景德鎮陶瓷學院

碩士

2010年

4“中間地帶”的王國維——從《紅樓夢評論》看理解王國維的幾種路徑

張琳

海南大學

碩士

2011年紅樓夢與清代婚姻法律制度評論

萬梅

華東政法大學

碩士

2008年

外文學位論文

中文會議論文1文學外譯的助力/阻力:外文社《紅樓夢》英譯本編輯行為反思 江帆 中國翻譯學學科建設高層論壇2013-10-19 2 《葫蘆廟》中的紅樓夢精神——評戲曲新作《葫蘆廟》 朱國慶 中國戲劇獎·理論評論獎獲獎論文集 2009-06-01 3 周玉清 中國楹聯學會會員大典 2006-06-01 4 王國維《紅樓夢評論》之今讀 劉麗麗 2006貴州省首屆古典文學與民俗文化研討會 2006-05 5 留得枯荷聽雨聲——關于網上《紅樓夢》詩詞評論的綜述

劉麗麗;王云閣

2006貴州省首屆古典文學與民俗文化研討會

2006-05

外文會議

5、根據以上檢索結果,為該課題作一篇簡要研究綜述(至少500字)。

關于《紅樓夢》評論的研究綜述

《紅樓夢》是中國古典小說最高峰,宗璞先生在王蒙《紅樓啟示錄》一書的序言中說:“《紅樓夢》是一部挖掘不盡的書,隨著時代的變遷,讀者的更換,會產生新的內容,新的活力。它本身是無價之寶,又起著聚寶盆的作用,把種種的睿思,色色深情都聚在周圍,發出耀目的光輝。”

關于《紅樓夢》的評論,在國內以王國維的《紅樓夢評論》最受紅學者關注,也是第一篇用系統的理論來評論《紅樓夢》的著作。王國維的《紅樓夢評論》于1904年發表在《教育世界》上,這本書運用了西方哲學和悲劇意識的理論對《紅樓夢》進行系統的評論和分析。雖然其中有些觀點邏輯力量不足,結論有待商榷,但是行文縝密,觀點明確。指出《紅樓夢》是“悲劇中之悲劇”,第一次從理論上闡明了《紅樓夢》的悲劇性。不少學者就王國維研究的基礎上對《紅樓夢》進行研究評論,越來越多的學者都考慮了多方面的因素。

此外關于《紅樓夢》的評論還體現在詩詞文學藝術方面,《紅樓夢>中韻語體裁眾多,如詩、詞、曲、賦、歌謠、燈謎、酒令、對聯、偈語、誄、贊等應有盡有。然而才華橫溢的曹雪芹對此卻駕熟就輕。《紅樓夢》有詩云:“滿紙荒唐言,一把辛酸淚。都云作者癡,誰解其中味”。有學者認為其創作構思巧妙,且內藏玄機、不易把握,理解其中的詩詞無疑是解讀《紅樓夢》的一把鑰匙。評論書本身要從評論詩詞開始。

在《紅樓夢》評論的研究中中國學者占了相當大的比例,在外國可能由于文化的隔閡,鮮有外國學者研究《紅樓夢》評論。就中國學者對《紅樓夢》評論的研究也趨于飽和、完善,各個學者對《紅樓夢》從詞句、詩詞、名俗、建筑、人物、服飾小說構思等各方面對小說進行評論。

不僅《紅樓夢》是我國的一塊瑰寶,而且依托《紅樓夢》而進行的《紅樓夢》評論,也會成長為中國文化不可缺少的文化結晶。

第四篇:信息檢索技術論文

期末課程論文

論文標題:課程名稱:信息檢索技術課程編號:學生姓名:潘國偉學生學號:所在學院:計算機科學與工程學院學習專業:計算機科學與技術課程教師:

基于音頻的信息檢索

1220500 1100310220

2013年7月3 日

引言:

進入知識經濟時代,知識管理、知識服務的理念得到廣泛認同,信息檢索技術也由基于關鍵詞的信息檢索逐步轉向針對內容的基于知識的信息檢索。較之前者,其檢索結果更準確,更貼近用戶需求。信息檢索是將信息按照一定的規律組織起來,找到所需信息的過程和技術,簡單的說,就是信息的有序化識別和查找。信息檢索效率就是實施識別和查找過程的效率。信息檢索效率不僅是影響信息檢索工具價值的重要因素,也是評價信息檢索技術發展的重要指標。目前一些基于文本的Web引擎,如Google,Baidu,功能已非常強大,但還缺乏比較實用的音頻搜索引擎。Internet上的多媒體流非常巨大,需要一些高效的搜索引擎從浩如煙海的數據中找出需要的信息。另外,音頻檢索在輔助視頻檢索和卡拉OK檢索系統以及軍事、刑偵領域方面都有巨大的應用價值和廣闊的研究前景。

基于內容的音頻檢基索關鍵技術

問題:

傳統的方法,其主要缺點有:

一是當數據量越來越多時,人工注釋的工作量加大;

二是人對音頻的感知有時難以用文字注釋表達清楚,人工注釋存在不完整性和主觀性; 三是不能支持實時音頻數據流的檢索。

這里主要綜述了音頻檢索方法,討論了一些音頻檢索中的關鍵技術:音頻特征提取、音頻分類、語音識別技術等。總體介紹:

語音識別技術概述

語音識別技術,也被稱為自動語音識別(Automatic Speech Recognition, ASR),其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發出語音的說話人而非其中所包含的詞匯內容。

語音識別技術是以語音信號處理為研究對象,讓機器接收并識別、理解語音信號,并將其轉換為相應數字信號的技術。讓機器聽懂人類的語言,這是人們長期以來夢寐以求的事情,而語音識別是一門非常復雜的交叉性學科,它涉及語音語言學、計算機科學、信號處理學、生理學、心理學等一系列學科,是模式識別的重要分支。50年代,是語音識別研究工作的開始時期,它以貝爾實驗室研制成功可識別十個數字的Audry系統為標志。20世紀80年代語言識別研究進一步走向深入,基于特定人孤立語音技術的系統研制成功。在過去的30年里,隱馬爾可夫模型和人工神經元網絡在語音識別中得到了成功的應用。

語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。并通過算法和計算機技術相結合的方式來實現。目前,這樣的系統能夠做到識別理解數十萬條詞匯的連續語音信號。這種現代模式識別系統除了在語音領域的應用外,還可以廣泛應用于信號處理和模式識別的其他領域。語音識別一般分為兩個步驟:

學習和識別階段。學習階段的任務是建立識別基本單元的聲學模型以及語言模型。識別階段是將輸入的目標語言的特征參數和模型進行比較,得到識別結果。語音識別系統本質上講是一種模式識別系統,其原理如下圖所示:

圖1語音識別原理示意圖

語音信號的獲取

計算機聲卡作為語音信號與計算機的接口卡件,其最基本的一項功能就是A/D轉換。聲卡是pc的一種多媒體設備,可以用windows的MCI(Media Control Interface)命令來控制聲卡。

圖3信號獲取過程中相關函數使用流程示意圖

音頻檢索的基本方法

音頻檢索第一步是建立數據庫,對音頻數據進行特征提取,并通過特征對數據聚類。音頻檢索主要采用示例查詢方式(Query by example),用戶通過查詢界面選擇一個查詢例子,并設定屬性值,然后提交查詢。系統對用戶選擇的示例提取特征,結合屬性值確定查詢特征矢量,并對特征矢量進行模糊聚類,然后檢索引擎對特征矢量與聚類參數集匹配,按相關性排序后通過查詢接口返回給用戶。相似音頻例子檢索

相似音頻例子檢索是指基于用戶提交的查詢音頻,得到最相似的音頻,即計算音頻特征的距離。對音頻數據提取特征后,假設共N個特征,則形成了一個N維特征矢量的序列。為了縮減數據量而又不失掉每個音頻原來的特征,可以對N維特征矢量進行聚類,提取出固定數目的質心來表示音頻,即用聚類質心來為音頻建立索引。一般采用模糊聚類法,模糊聚類首先要對N維特征矢量進行歸一化,一般采用高斯歸一化。音頻分類識別

音頻分類是判斷一個給定樣本所在的類別,其任務是通過相似度匹配算法將相似音頻歸屬到一類,屬于模式識別的問題。首先應提供適量的訓練樣本,比如選取足量的音樂文件,然后提取樣本特征,類似如上所述進行聚類處理,不同的是將每類的全體文件看成一個音頻數據來處理,計算該類的樣本模板。

判斷文件的類別時,與計算音頻相似度類似,計算音頻的模板與各類模板間的距離,當距離小于某一閾值或為最小距離時,則此時的類即為文件所在的類。結

本文闡述了基于音頻檢索的一些常用技術及相關問題,包括音頻特征提取、相似音頻檢索及音頻分類。基于音頻檢索是一個涵蓋十分廣泛的研究領域與想好處理,人感知心理研究,語音識別等科學密切相關。為使計算機與人一樣能自動對音頻語義實現自動理解并根據語義高級內容進行音頻檢索,還要面臨很大挑戰。參考文獻:

[1] 盧 堅, 陳毅松, 孫正興, 等.基于隱馬爾可夫模型的音頻自動分類[J].軟件學報, 2002, 13(8): 1 593-597.[2] 莊越挺, 潘云鶴, 吳 飛.網上多媒體信息分析與檢索[M].北京:清華大學出版社,2002.[3] 李國輝,李恒峰.基于內容的音頻檢索:概念和方法[J].小型微型計算機系統, 2000,(11): 1 173-1 177.[4]尹江艷.基于HMM和ANN語音識別研究[J].2007.4:14 [5] 柳春 語音識別技術研究進展[J] 甘肅科技 2008/09 [6劉幺和 語音識別與控制應用技術[M] 北京科學出版社 2008

文中涉及的公式:

Em?1N?[x(n)]m2

頻率中心 是度量聲音亮度(brightness)的指標,計算公式為

WFC??0F(w)wdw/E

第五篇:網絡信息檢索技術

網絡信息檢索技術

網絡信息檢索中,基本的檢索技術有布爾邏輯檢索、截詞檢索、位置檢索、限制檢索等。

一、布爾邏輯檢索

邏輯檢索是一種開發較早、比較成熟、在信息檢索系統中廣泛應用的技術。布爾邏輯檢索就是采用布爾關系運算符來表達檢索詞與檢索詞之間邏輯關系的檢索方法,目前最常用的布爾邏輯運算符主要包括邏輯“與”(AND)、邏輯“或”(OR)、邏輯“非”(NOT)。

(一)邏輯“與”

邏輯“與”,也稱為邏輯乘,用AND表示,是用來組配不同含義檢索詞之間的限定關系。檢索詞A、B以AND(或“*”)相連,即A AND B(或A*B),表示同時包含A、B兩詞的文獻才是命中記錄,因而邏輯“與”運算用于對檢索詞進行限定,從而縮小檢索范圍,提高檢索結果的查準率。

例如,要查找children education(兒童教育)方面的文獻,檢索邏輯式可表示為“children * education”或者“children AND education”。運算的結果是同時含有檢索詞children和檢索詞education的文獻才被檢索出來。

(二)邏輯“或”

邏輯“或”,也稱為邏輯加,用OR或者“+”表示,是用來組配同義或者同族檢索詞之間的并列關系。檢索詞A、B若以OR或“+”相連,即A OR B(或A+B),表示只要含有A、B之一或者同時包含A、B的文獻都是命中記錄。因而邏輯“或”運算可用于擴大檢索范圍。

例如,要查找“汽車”方面的文獻,因為汽車在英語中可以用car或者automobile表示,所以為了將有關汽車的文獻全部檢出,避免漏檢,檢索邏輯式就可表示為“car OR automobile”或者“car + automobile”。運算的結果是含有car或者automobile任意一個或者同時兩個的文獻均被檢索出來。

(三)邏輯“非”

邏輯“非”用NOT或者“-”來表示,是用來組配概念的包含關系,可以從原檢索范圍中排除一部分,因而使用邏輯“非”運算可以縮小檢索范圍。檢索詞A、B若以NOT(或“-”)相連,即A NOT B(或A-B),表示只含有檢索詞A而不含有B的文獻才是命中記錄。邏輯“非”可用于縮小檢索范圍,但是不一定能提高文獻命中的準確率。在使用時要注意,避免將相關的有用文獻排除在外。

例如,要查找有關“energy(能源)”,但又不涉及“nuclear(核能)”方面的文獻,檢索邏輯式可表示為“energy NOT nuclear”“energy-nuclear”。運算的結果是含有energy,但不含有nuclear的文獻將被檢索出來。

這三種邏輯式的文氏圖如下:

圖3-1布爾邏輯文氏圖

上面三種檢索邏輯式是最為簡單的布爾邏輯運算。在檢索實踐中,可以根據實際需要,組合使用多個布爾運算符,以準確表達檢索主題。

布爾邏輯檢索與人們的思維習慣一致,表達清晰,方便用戶進行擴檢和縮檢,而且易于計算機實現,因此,在計算機信息檢索系統中得到廣泛使用。但是它無法反映檢索詞對于檢索的重要性,無法反映概念之間內在的語義聯系,因而檢索結果不能按照用戶定義的重要性排序輸出。

使用布爾邏輯運算符的注意事項:

布爾邏輯檢索在聯機檢索、光盤檢索和網絡檢索中都有廣泛的應用,但是不同的檢索工具的布爾邏輯檢索技術存在一定的差異,因此,使用布爾邏輯檢索需要注意以下問題:

1、布爾邏輯檢索的執行順序。三種布爾邏輯檢索運算符之間的運算順序為NOT、AND、OR。有括號時,先執行括號內的邏輯運算。

2、不同檢索工具的布爾邏輯檢索有不同的表現形式和使用規則。首先,不同檢索工具表示布爾邏輯關系的符號不同,有的用“+”、“-”表示AND、NOT,有的用ANDNOT代替NOT(如Excite搜索引擎),有的要求運算符必須大寫,有的則要求為小寫形式;其次,不同檢索工具的檢索詞之間的默認布爾邏輯關系不同,有的檢索工具檢索詞之間的默認關系是AND,有的檢索工具的檢索詞之間的默認關系是OR;此外,不同檢索工具支持布爾邏輯的方式不同,有的檢索工具使用符號來實現布爾邏輯關系,一些檢索工具則完全省略了任何符號,直接用文字和表格來體現不同的邏輯關系,如用All of These Words表示AND,用Any of These Words表示OR,用None of These Words表示NOT。

二、截詞檢索

截詞檢索是指在檢索式中使用專門的符號(截詞符號)表示檢索詞的某一部分允許有一定的詞形變化,用檢索詞的詞干或不完整的詞形查找信息的一種檢索方法。并認為凡滿足這個詞局部中的所有字符的文獻,都為命中的文獻。在實際檢索的過程中,為了減少檢索詞的輸入量,同時又擴大檢索范圍,保證查全率,可以使用截詞檢索。

截詞的方式有多種。按截斷的位置來分,可分為后截斷、中截斷和前截斷;按截斷的字符數量來分,可分為有限截斷和無限截斷。有限截斷是指說明具體截去字符的數量,通常用“?”表示;而無限截斷是指不說明具體截去字符的數量,通常用“x”表示。

(一)后截斷

后截斷是最常用的截詞檢索技術,是將截詞符號放置在一個字符串右方,以表示其右的有限或無限個字符將不影響該字符串的檢索,是一種前方一致的檢索。這種方法可以省略輸入各種詞尾有變化的檢索詞的麻煩,有助于提高查全率。

例如,輸入“inform x”,則前6個字符為inform的所有詞均滿足條件,因而能檢索出含有informant、informal、information、informative、informed、informer等詞的文獻。而輸入“inform??”,可檢索出含有inform、informal、informed、informer的文獻。(二)前截斷

前截斷是將截詞符號放置在一個字符串左方,以表示其左方的有限或無限個字符不影響該字符串檢索,是一種后方一致的檢索。這種檢索方法在各種詞頭有變化的復合詞的檢索中應用比較多,有助于提高查全率。

例如,輸入“x magnetic”,可以檢索出含magnetic、electro-magnetic等詞的文獻。

(三)中截斷

中截斷是把截斷符號放置在一個檢索詞的中間。一般地,中截斷只允許有限截斷。中截斷主要解決一些英文單詞拼寫不同,單復數形式不同的詞的輸入。

例如,輸入“c?t”,可以檢索出含有詞cat、cut的文獻;輸入“mod?ation”可以檢索出含有詞moderation、modernization、modification的文獻。

利用截詞檢索技術可以減少檢索詞的輸入量,簡化檢索,擴大檢索范圍,提高查全率。但是,不同的檢索工具有不同的截詞規則,使用的截詞符號也沒有統一的標準,如Dialog系統用“?”,BRS系統用“$”,ORBIT系統用“#”等。

三、位置檢索

位置檢索,也稱臨近檢索,主要是通過位置運算符來規定和限制檢索詞之間的相對位置或者檢索詞在記錄中的特定位置來實施檢索的技術。這里我們只介紹位置檢索中的詞位置檢索。

詞位置檢索主要是利用位置邏輯算符限定檢索詞之間的位置,來反映要檢索的信息概念。常用的詞位置算符有(W)與(nW)、(N)與(nN)以及(X)與(nX)三類。

(一)(W)算符與(nW)算符

(W)算符是Word和With的縮寫,它表示在此算符兩側的檢索詞必須按輸入時的前后順序排列,而且所連接的詞之間除可以有一個空格、一個標點符號或一個連接號外,不得夾有任何其他單詞或字母,且詞序不能顛倒。(nW)算符的含義是允許在連接的兩個詞之間最多夾入n個其他單元詞。

例如,“VISUAL(W)FOXPRO”可以檢出

VISUALFOXPRO 或VISUAL FOXPRO;“control(1W)system”可以檢出含有contro1 system、control of system和contro1 in system的文獻。

(二)(N)算符與(nN)算符

(N)算符是Near的縮寫,它表示在此算符兩側的檢索詞必須緊密相連,所連接的檢索詞之間不允許插入任何其他單詞或字母,但詞序可以顛倒。(nN)算符表示在兩個檢索詞之間最多可以插入n個單詞,且這兩個檢索詞的詞序任意。

例如,“control(1N)system”不僅可以檢出含有control system、control of systcm和control in system 的文獻,還可以檢出含有system of control、system without control等的文獻。

(三)(X)算符與(nX)算符

(X)算符要求其兩側的檢索詞完全一致,并以指定的順序相鄰,且中間不允許插入任何其他單詞或字母。它常用來限定兩個相同且必須相鄰的詞。(nX)算符的含義是要求其兩側的檢索詞完全一致,并以指定的順序相鄰,兩個檢索詞之間最多可以插入n個單元詞。

例如,“side(1X)side”可以檢索到含有side by side的文獻。

四、限制檢索

限制檢索是通過限制檢索范圍,從而達到約束和優化檢索結果的一種方法。限制檢索的方式有多種,常用的有字段限制檢索和限制符限制檢索。

(一)字段檢索

數據庫記錄是由若干個字段組成的,字段檢索是把檢索詞限定在數據庫記錄的特定字段中的檢索方法,如果記錄的相應字段中含有輸入的檢索詞則為命中記錄。字段限制檢索可以縮小檢索范圍,提高查準率。

數據庫中提供的可供檢索的字段通常分為基本索引字段和輔助索引字段兩大類。基本索引字段表示文獻的內容特征,有TI(篇名、題目)、AB(摘要)、DE(敘詞)、ID(自由標引詞)等;輔助索引字段表示文獻的外部特征,有AU(作者)、CS(作者單位)、JN(刊物名稱)、PY(出版年份)、LA(語言)等。在檢索提問式中,可以利用后綴符“/”對基本索引字段進行限制,利用前綴符“=”對輔助索引字段加以限制。例如,“(information retrieval/TI OR digital library/DE)AND PY=2006”所表達的檢索要求是,查找2006年出版的關于信息檢索或數字圖書館方面的文獻,并要求information retrieval一詞在命中文獻的TI(篇名)字段中出現,digital library一詞在DE(敘詞)字段中出現。

(二)限制檢索

限制符檢索是使用AU(作者)、CS(作者單位)、JN(刊物名稱)、PY(出版年份)、LA(語言)等限制符號從文獻的外部特征方面限制檢索范圍和檢索結果的一種方法。限制符的用法與后綴符相同,而它的作用則與前綴符相同。

例如,“aircraft/TI,PAT”表示檢索結果只包含aircraft這一主題的專利文獻。限制符還可以與前、后綴符同時使用,這時字段代碼與限制符之間的關系是邏輯“與”,即最終的檢索結果應同時滿足字段檢索和限制符檢索兩方面的要求。

下載WEB全文信息檢索技術word格式文檔
下載WEB全文信息檢索技術.doc
將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
點此處下載文檔

文檔為doc格式


聲明:本文內容由互聯網用戶自發貢獻自行上傳,本網站不擁有所有權,未作人工編輯處理,也不承擔相關法律責任。如果您發現有涉嫌版權的內容,歡迎發送郵件至:645879355@qq.com 進行舉報,并提供相關證據,工作人員會在5個工作日內聯系你,一經查實,本站將立刻刪除涉嫌侵權內容。

相關范文推薦

    論網絡信息檢索技術[精選]

    論網絡信息檢索技術 摘要:20世紀以來,人類創生的信息量高速增長,浩如煙波。如何從這海量的信息里找出所需信息就成為信息檢索的重任。隨著網絡技術的飛速發展,越來越多的人把因......

    信息檢索

    實驗三 訪問校園網 班級:11級信管本(2)班 學號:1142152237 姓名:張恒實驗名稱:訪問校園網 實驗目的與要求: 熟悉校園網以及圖書館提供的信息資源 實驗步驟: 1、進入新華學院校園網首......

    信息檢索

    《信息檢索與利用》課程上機大作業 注意事項 ? 所有通過文獻數據庫檢索的題目必須通過圖書館主頁電子資源入口進入,否則很多資源沒有使用權。圖書館地址lib.nuaa.edu.cn ? 下載......

    信息檢索

    信息檢索 中文期刊 [1]任芳芳. 石油化工企業安全文化綜合評價研究[D]. 東北大學: ,2008. [2]匡蕾. 煤礦企業安全文化建設與評價指標體系研究[D]. 遼寧工程技術大學: ,2009.......

    信息檢索

    一、通過圖書館主頁進入CNKI檢索平臺的“中國期刊全文數據庫”系統,完成下列各題。1.查出2006- 2010年發表的篇名中包含“食品”和“添加劑”兩詞的期刊論文,按相關度排列檢索......

    信息檢索

    當代大學生價值觀研究 摘要 當我們的大學校園送走叛逆80后一代時,也迎來了更加叛逆的90后一代,90后已經成為了當代大學的主流,作為改革開放以來中國高速發展的年代出身的一代,我......

    信息檢索

    1.答:這個號碼屬于山西太原;2.答;第一步,打開百度網頁輸入‘手機號碼歸屬地查詢',第二步,進入號碼查詢網頁,輸入要查詢的號碼,然后點擊查詢,就會搜索出號碼歸屬地區,該地的區號等等......

    信息檢索

    網絡資源與文獻檢索考試題 (計算機2010-1、2,通信2010-1、2) 一、根據課程介紹的數據庫完成以下填空(每空2分,共20分): 1、檢索策略的調整,既可以是( 檢索范圍 )的調整,也可以是檢索途......

主站蜘蛛池模板: 日本阿v网站在线观看中文| 一边添奶一边添p好爽视频| 亚洲乱码1卡2卡3乱码在线芒果| 东京热人妻中文无码av| 欧美兽交xxxx×视频| 成人无码视频在线观看大全| 痉挛高潮喷水av无码免费| 亚洲日韩乱码久久久久久| 成人无码av一区二区三区| 好男人资源在线社区| 亚洲狠狠成人网| 国产 亚洲 中文在线 字幕| 成 人 免费 在线电影| 亚洲熟妇无码av不卡在线播放| 人人妻人人澡人人爽超污| 欲色影视天天一区二区色香欲| 日韩精品久久久免费观看| 极品新婚夜少妇真紧| 国产精品视频一区二区三区四| 日韩精品无码一区二区三区不卡| 漂亮人妻去按摩被按中出| av中文无码乱人伦在线观看| 亚洲aⅴ在线无码播放毛片一线天| 欧美成人精品手机在线| 日韩人妻无码一本二本三本| 人人妻碰人人免费| 在线天堂www在线国语对白| 久久99亚洲精品久久69| 国内露脸中年夫妇交换| 免费两性的视频网站| 亚洲精品国产嫩草在线观看东京热| 国产成人精品a视频| 亚洲最新中文字幕成人| 久久se精品一区精品二区| 一本色道久久88综合日韩精品| 色综合视频一区二区三区| 狠狠躁夜夜躁人人爽天天不卡软件| 男人的天堂aⅴ在线| 免费国产高清在线精品一区| 无码人妻aⅴ一区二区三区蜜桃| 亚洲国产精品久久久久婷婷老年|