第一篇:多媒體信息檢索技術與數字化圖書館
多媒體信息檢索技術與數字化圖書館
楊勻
(鹽城師范學院圖書館,江蘇 鹽城 224002)
[摘要] 隨著信息技術的發展和數字化進程的加快,傳統的圖書館的管理模式也正在經歷著一場革命。本文作者對什么是數字化圖書館以及數字化圖書館的重要特征和數字化圖書館的發展方向進行了重點研究和論述。
[關鍵詞]
多媒體 信息檢索 數字化 圖書館
圖書館作為知識和信息的交流中心,幾百年來一直受到人們的重視,并逐漸形成了一套完善的管理模式和科學方法。但隨著信息技術的發展和數字化進程的加快,傳統的圖書館的管理模式也正在經歷著一場革命。將計算機和網絡技術應用于圖書管理之后,就實現了圖書的電子化管理和檢索,但這并不是真正意義上的數字化圖書館。有些人認為將傳統圖書館中的文本文獻全部轉化成電子文檔就是數字化圖書館,這種觀點也是錯誤的。一個完整意義上的數字化圖書館應具有以下幾個特征:1)采用計算機和數據庫技術進行文獻管理和檢索;2)館藏文獻不僅包括文本文獻,而且包括各種多媒體形式的文獻;3)在分布式網絡環境中以信息庫的形式存在。當前,大多數圖書館都已基本具備了第一個特征。但具備第二和第三個特征的圖書館還寥寥無幾。
一、什么是數字化圖書館
所謂數字化圖書館,簡而言之,就是一種擁有多種媒體內容豐富的數字化信息資源,能為讀者方便、快捷地提供信息的服務機制。雖然被稱之為“館”,但它并不占用空間,很大程度上也不受時間的限制,因為它的存在方式是將文字、圖像、聲音等信息數字化,并通過國際互聯網傳輸,從而做到信息資源全球共享。與以往的圖書館最大的不同就在于:它變集中“人”為集中信息和服務——“館”的形式并不重要,其水平高低取決于“軟件”質量。在專家眼中,一個建設完備的數字圖書館應當成為重要信息的生產基地,多種信息資源的聚集中心;讀者、專家、圖書館員交互的樞紐;信息發現、搜索、捕捉的導航站點;為用戶提供高水平服務的知識噴泉。
二、信息資源檢索的數字化與網絡化是數字化
圖書館的重要特征
電子計算機技術、通訊技術和多媒體技術相結合的現代信息數據處理技術的迅猛發展,加快了社會信息化的進程。遍布世界各地的Internet加速了世界范圍內數字化和網絡化的信息環境的形成。高校圖書館正是借助于現代信息技術在圖書館的應用,推動改革和擴展了圖書館的各項職能。信息資源檢索服務也是其中之一。
信息資源檢索(Information Resource Retrieval)是將信息按一定的方式 組織或存儲起來,當讀者或用戶需要時找出或提供有關信息的過程。或者說,信息檢索是將檢索者提問的特征與檢索標識進行比較,將檢索和提問特征一致或相似的信息查找出來。信息檢索包含資源存儲的檢索。信息檢索有文獻檢索,數據檢索和事實檢索三種類型。文獻檢索是檢索文獻資料,是從已存儲的文獻中查找出所需文獻的過程。文獻檢索可檢索出某一國家和某一作者的文章和著作,事實檢索是檢索所需的事實,數據是檢索確切的數據。
隨著以計算機技術,尤其是網絡技術為核心的現代信息技術的不斷進步和在圖書館的運用,高校圖書館的信息檢索服務正在由傳統的手工文獻資源檢索向計算機系統的OPAC檢索發展。尤其是廣大師生員工查找圖書館資料所需的時間進一步縮短,加快了信息檢索的速度,提高了信息檢索的效率。
今天的計算機檢索技術發展極快,已由脫機向聯機檢索和網絡檢索過渡。脫機檢索是指以獨立的計算機為單位,利用光盤、磁盤、磁帶等存儲介質進行的信息檢索。聯機檢索系統是20世紀70年代隨著計算機和通訊技術的飛速發展,信息檢索服務進入網絡環境而發展起來的信息檢索系統。聯機檢索是利用通訊設備與存儲有信息的計算機相聯結查找有關信息的過程。檢索者在通訊線路暢通的環境下,應用計算機終端設備與主機進行人機對話查找信息的過程。檢索者可在檢索過程中隨時修改自記的檢索策略,直到獲得滿意的結果。世界上規模最大的計算機聯機數據庫檢索服務系統有美國俄亥俄州圖書館計算機中心的OCLC,美國絡克希德公司的DOALOG,美國系統發展公司的ORBIT,美國醫學圖書館的MEDLINE,歐洲空間組織的ESA,日本的JOIS等。聯機檢索不受地理位置的限制,多用戶可同時進行檢索。檢索速度快,功能多,打印輸出靈活方便。
今天,高校圖書館依托Internet開發和應用的服務項目眾多。網 絡信息檢索只是其中最具優勢的服務項目之一。Internet上運行有功能完善的信息檢索工具,如Gopher、WAIS、WWW等。Gopher(分布式信息服務系統)是Internet的重要信息檢索工具。它采用客戶機/服務器結構,通過多級菜單界面便于檢索者查看校園網的各種信息。WAIS(廣域信息網)是Internet上的文本信息資源檢索工具。它為檢索者提供的自然語言界面受到檢索者的普通歡迎。WWW(環球網)是Internet上最先進的網絡信息檢索系統。它集超文本技術,網絡技術和多媒體技術為一體。WWW的瀏覽器/服務器模式具有優化的結構和強大的功能,也是最受檢索者喜愛的信息檢索系統之一。Internet技術遵循統一的協議將不同的信息系統連結起來,將世界上成千上萬臺服務器聯成一體,實現了各個信息系統向整體化和集成化的轉換。各高校圖書館應用Internet技術建立本館的Web網站和OPAC,便于檢索者在各個地理位置的聯機終端訪問圖書館并快速地檢索各學科的專業信息。因此,無論你在家中或在辦公室都可以檢索到高校圖書館網頁上的網絡數據庫或全文數據庫。
高校圖書館作為各校教學和科研的信息資源中心,大多購置和擁有豐富的館藏印刷文獻資源,電子文獻資源和網絡信息資源。尤其是大量的國內外光盤全文數據庫和網絡信息資源在高校圖書館的Web網站的OPAC上可無縫鏈接檢索。如“中國學術期刊數據庫”,“中國高等教育文獻保障目錄”、“萬方數據光盤檢索系統”、“科學引文索引”Web版數據庫,美國俄亥俄州OCLC書目數據庫和全文數據庫等等。此外,有的高校圖書館還根據本校重點學科建設引進一些入編質量高 和數量大的世界高水平的學術性網絡數據庫及電子期刊全文數據庫。
總之,擁有豐富的信息資源和多渠道檢索方式的高校圖書館借助現代信息技術的確為檢索者訪問圖書館,尤其是訪問圖書館的Web網站及時獲取所需的信息和及時了解所學專業的發展動態提供了極大的便利。
三、多媒體與超媒體信息檢索技術是數字化
圖書館的發展方向
隨著信息查詢系統的不斷發展,多媒體與超媒體信息檢索已得到廣泛應用,多媒體與超媒體信息檢索服務系統是一種人機交互的、以多媒體信息庫為基礎的、提供信息服務的系統。在多媒體與超媒體信息檢索服務系統問世以前,在電信領域有可視圖文系統,在計算機領域有文獻資料檢索系統和各種數據庫檢索系統。因此,從信息檢索服務的角度來看,多媒體與超媒體信息檢索服務是可視圖文、各種數據庫檢索服務的自然發展。這種發展和變化的動因是信息從單一媒體表示發展為多媒體表示。高校圖書館要成為名符其實的數字化圖書館,必須逐步發展和提供多媒體與超媒體信息檢索服務體系。
多媒體與超媒體信息技術是一個新的領域,其有關技術正在發展之中,尚有許多待研究的課題。多媒體與超媒體信息技術的發展對信息存儲管理、人機界面的開發提供有力的支持,它作為人類信息通信與信息聯想的工具,將促進計算機和多媒體技術應用的深入與發展,也有利于促進數字化圖書館的高速發展和功能的不斷完善。
[參考文獻] [1] 張文俊.當代傳媒新技術.上海:復旦大學出版社,1998.年8月
[2] 張樹京.陳漁源.多媒體通信和發展和應用.上海鐵道大學學報, 1994年3月第15卷第1期
[3] 劉國亮.多媒體通信的技術基礎與應用領域.長春郵電學院學報,1994年第12卷第2期
第二篇:圖書館信息檢索大賽
活動主題:圖書館信息檢索大賽
一、主辦單位:重慶醫藥高等專科學校醫學技術系
二、指導單位:重慶醫藥高等專科學校圖書館、醫學技術系黨團總支
三、協助媒體:圖書館公告
四、活動目的及原則:促進同學們對圖書館的了解,增強主人翁意識。使圖
書館得到合理、高效利用。認識圖書館數字資源的重要性。學會數字資源檢索知識,提高檢索能力,以便充分利用圖書館資源。本次活動本著公平、公證、公開、自愿原則。
五、活動時間地點
六、活動構思:
(一)比賽形式重于新穎,力求提高參與度。
我們此次活動在保證比賽順利進行的前提下,力求在比賽的各個環節有所創新。因此,在策劃上,無論是各班級的選拔賽,還是第二階段預賽比賽流程,或是總決賽的設想,我們都應避免落入俗套。畢竟,再精彩的比賽模式,觀看得多了也就無所謂興趣使然。而只有不斷地推陳出新,才能夠真正地把握住觀眾的興趣導向,使其參與到活動中,融入到活動的氣氛中來。因此,我們設想在初賽采取“幸運52”答題的模式,預賽中采取“開心辭典”的模式,決賽采取“幸運52”和“聯合對抗”結合的答題的模式,這都是在現在的中國風靡一時且仍廣受關注的活動形式,且在各大高校起碼在我們學校中尚沒有較為完全或成功的借鑒。因此,我們采取這樣的比賽形式,把日常在電視中才能看到的真正拉近到同學們的身邊,讓同學們親身參與其中,體驗其前所未有卻又夢寐以求的感受。而對于決賽,由于是全系部各班代表之間的最終總決賽,除如上的某些環節
之外,我們策劃能夠加入更多關于高校發展的內容。畢竟,在這樣的比賽中,需要的是更能夠突顯選手個性的環節。而且由于最終的勝負是由在我校特邀評委評定,不是機械的評判,結果不再一目了然,更增加了比賽的緊張性。另外,在選題方面,我們采取專家出題和征集學生所出題目相結合,力求擴大影響范圍。
(二)期盼在全校范圍內推廣,為競賽擴大影響宣傳
一個活動是小活動,但倘若一連串小活動集合成為系列性、規模性的活動也便成為了大型的活動。所以我們希望能夠借此契機,把此項活動推廣出去。而對于此次與各系部學生會的合作,我們設想先就比賽的總實施計劃達到一致,然后前期的由各系部分別進行相同的比賽環節,最后各選拔出一支冠軍隊伍參賽,使此次競賽知識競賽活動凝聚成為規模效應。這首先直接有利于競賽活動的宣傳,再者,也加強了各系部之間的合作和聯系,緊密了兄弟系部之友誼。更重要的是能夠在更大程度上吸納最廣大的學生參與到這一項活動中來,最大限度地讓最多的同學在此次活動中真正受益。
(三)全方位的媒體宣傳
為了加強此次活動的宣傳效果,我們希望能夠盡可能地發揮各種宣傳方法的宣傳效果。首先,在常規媒體宣傳上,我們力求與校園廣播站、校報取得合作,由其協助此次活動,并負責攝像、報道此次活動的總決賽,使整個活動的影響不僅僅局限于某一個系部,而是進入普通同學的思維中,使之成為他們茶余飯后的話題。其次,網絡媒體宣傳方面,我們會利用校園網絡對活動進行大力宣傳。再次,我們屆時也會通過傳單、海報、橫幅等常規宣傳渠道以及在相關單位舉辦其他活動時也會加強此次活動的宣傳。
七、參賽方式:
以代表隊形式參賽,每隊三人。
1、預賽;由各班自行選拔參賽人員,比賽形式時間地點自定。
2、初賽和復賽:初賽和復賽均采取主持人提問形式。設有最佳選擇題、判斷題和問答題。
3、決賽:決賽為3人組合賽(進入決賽的12名隊員按班級分為4組,每組3人。),決賽將采用幻燈片的形式將試題呈現給參賽選手,選手現場答題。題庫及評分標準見附錄。
八、參賽對象:重慶醫藥高等專科學校醫學技術系全體學生(組織者除外)
九、活動前期準備
1.賽事相關活動準備
1)召開系學生會全體會議,通知相關事宜。
2)活動策劃籌備工作(負責部門:待定)
A、辦公室確定成立大賽組委會(不再以部門為單位),全權負責此次大賽的各項活動
B、就賽事各部分進行充分探討,最終確定賽事策劃細節書
C、組委會內部確定分工細節以及各班級聯系人(各班學習委員),負責在賽事進行過程中主辦單位與各班級的聯系工作。
3)活動宣傳工作(負責部門:醫學技術系宣傳部、圖書館)
A.海報
B.橫幅
C.宣傳欄
2.各班級協辦工作
1)召開各班級參賽選手及負責人開會。
2)各班級自行組織負責此次大賽的組委會,對大賽全程負責,名單上報主辦單位組委會。
3.贊助單位聯系工作(負責部門:醫學技術系外聯部)
1)確定贊助單位
2)完成贊助單位的相關策劃書,確定需要贊助金額
3)聯系贊助單位
4.相關媒體的聯系工作(負責部門:醫學技術系宣傳部)
1)安排各媒體負責人其所負責的范圍及權限
2)相關報道具體工作事項的策劃與落實
十、比賽流程:
1、預賽:由各班級組織選拔,形式不限。選出十三支隊伍,每支限三人。
2、初賽:在十三支隊中以抽簽形式選出一支隊直接晉級復賽。其他十二支隊抽簽分為六組進行比賽,選出每組的獲勝者。總共七支隊。
承辦單位提前布置好比賽現場,為每個小組設一名記分員并提前組織參賽隊員和觀眾進入比賽現場。
第一環節:個人必答題(選擇題)
每個小組的各隊員以抽簽形式確定首次答題順序后依次回答。
本環節的成績為個人成績,每位隊員賽前都有60分基準分,每位隊員必須答完屬于自己的4道題,每題10分,答對在基準分上加10分,答錯不得分也不扣分。每位隊員分別答完第一題后再答第二題,四道題均答完后完成第一個環節比賽。
第二環節:小組搶答題(填空題)
本環節和下一環節的基準總分為60分。本環節各組得到的試題可以回答也可以放棄,答對得相應的分數,答錯則扣除相應的分數,放棄不得分也不扣分。各小組得到試題后在規定的時間內商量好確定答案后由代表說出答案。第三環節:難度命運題(簡答題,備注)
本環節試題難度較前兩環節有相應的難度。本環節答題方式和分數規則與上一環節相同。
3、復賽:在通過初賽的七支隊伍中以抽簽形式選出一支隊直接晉級決賽,其他六支隊抽簽分為三組進行比賽,選出每組的獲勝者。總共四支隊。比賽環節同上。
4、總決賽:決賽中的兩支勝者進行亞軍決賽,決賽中的兩支負者選出季軍。比賽環節同上。
十一、題庫范圍:涉及自習室作為二次利用、圖書館流通庫及各閱覽室規章制度、信息檢索知識等常識題,若兩隊均學過該專業添加專業題。
十二、獎項設置:
本次競賽設冠軍、亞軍、季軍,最終獲獎的3人組合將獲得系級獲獎證書(每人一證)。
十三、決賽現場觀眾互動:
決賽的每個環節之后均有兩次抽獎活動。以觀眾所在作為坐標為抽取對象。所有參與觀看決賽的同學均有機會成為幸運觀眾,并贏得精美禮品。
十四、可行性分析:
1、此次活動為重慶醫藥高等專科學校醫學技術系首屆信息檢索知識競賽,這對圖書館來說是首次,在學校也是首次。這種活動非常有意義并且很有必要,可以考慮延續下去,每年舉辦一次。
2、我們有責任也有義務培養當代大學生的信息檢索素質。我們希望通過這個活動先帶動一批人,而這些人來自系部各班級,因此活動的影響面和影響力都足夠大。
3、此次活動旨在進一步提高廣大大學生對信息檢索的重要性的認識。
4、以競賽的形式舉辦此次活動,可以充分調動同學參加的積極性、積極地投入到比賽的準備工作中,同時也擴大了同學們對信息檢索知識及我校圖書館的了解。
5、以競賽的形式舉辦形式并不復雜,所需資金也不多,但在全校大學生中的影響力卻很大。
十五、活動費用預算
幸運觀眾禮品: 元 打印各種宣傳資料:元 證書及獎品費用:元 合計: 元+待定費用
十六、預計效果:
此次活動將做好全面的宣傳工作,影響力將涉及校區各個系部班級。此次活動的開展,將使更多的同學了解圖書館各項規章制度,掌握信息檢索知識。
十七、組委會成員
總顧問:
顧問:
主任:
執行主任:
委員:圖書館、各班學習委員、系學生會各部長
附錄一:評分標準
附錄二:題庫
第三篇:信息檢索技術論文
近年來,計算機技術、語言學以及人工智能技術的發展促進了整個信息檢索技術領域的發展。今天小編要給大家介紹的便是信息檢索技術論文,歡迎閱讀!
信息檢索技術論文
[摘要]通過對近年來計算機科學、人工智能、專利文獻加工等領域的發展進行總結,從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術五個方面介紹專利文獻計算機檢索技術的最新發展。機器翻譯技術和多邊共同分類體系的完善有助于提高計算機檢索效率、消除語言障礙,而語義檢索、圖像檢索和文獻自動處理技術的發展有望使面向不同層次用戶的計算機智能化檢索系統得以實現。
[關鍵詞]專利文獻 計算機檢索 語義檢索 圖像檢索
1、前言
近年來,計算機技術、語言學以及人工智能技術的發展促進了整個信息檢索技術領域的發展,專利文獻的計算機檢索技術正成為情報檢索領域研究的熱點。下文擬從多語言混合檢索、分類檢索、語義檢索、圖像檢索以及輔助技術五個方面介紹專利文獻計算機檢索技術的最新發展。
2、多語言混合檢索
專利文獻是由各國、各地區專利局或世界知識產權局出版的官方文獻,因此一般以各局官方語言出版。雖然大部分專利文獻是英語文獻,但是仍然存在大量日文、中文、德文、法文及其他語種的文獻。出版語言的多樣性給專利文獻的檢索和利用帶來了極大的障礙,要實現多語言混合檢索,機器翻譯是必不可少的技術。目前一些專利局在其上推出了機器翻譯系統,例如我國國家知識產權局提供有漢英機器翻譯,日本特許廳提供有日英機器翻譯,韓國知識產權局提供有韓英機器翻譯等,上述網絡機器翻譯系統對其他國家的用戶閱讀方便和使用本國專利文獻起到了幫助作用。
隨著計算機技術的發展,機器翻譯的技術也迅速發展,從傳統的基于規則的機器翻譯擴展到了基于實例或模版的機器翻譯、統計機器翻譯等。尤其是近年來語言學和人工智能技術的發展,以語義描述或以知識描述為特征的智能機器翻譯系統正逐步成為研究的熱點。專利文獻作為一種特殊的科技文獻,由于其具有特定的句法和語言結構,同時例如權利要求書等具有法律公示性文件的作用,這對翻譯的準確性提出了更高的要求,已有研究者通過在機器翻譯系統內集成多個翻譯引擎、對不同特點的內容使用不同引擎翻譯的方式來提高翻譯質量。
已有的機器翻譯系統基本局限于單篇文獻的機器翻譯,無法實現真正的多語言混合檢索。多語言混合檢索系統不僅可以允許混合語言的檢索式,而且同一個檢索式還可以對不同語言的專利文獻進行檢索,其實現方式主要有如下三種:翻譯檢索式、翻譯文獻或者兩者相結合的混合式。翻譯檢索式的工作量小,比較適合于因特網檢索,但由于檢索式通常缺乏語境,翻譯難度較大;翻譯文獻的方式雖然有利于提高翻譯質量,進而有利于文獻檢索,但存在的主要問題是翻譯量太大、翻譯時間長。
3、分類檢索
分類號一直是專利文獻檢索的重要手段。目前除了基本涵蓋各國專利文獻的國際專利分類(IPC)之外,美國專利商標局、日本特許廳和歐洲專利局各自都有自己的分類體系,分別是UC、FI/FT和ECLA。IPC雖然通用,但存在分類標準不統一、分類條目不夠完備、文獻分類更新不及時等缺陷,導致使用IPC檢索的效果欠佳。UC和FI/FT分別只能檢索美國和日本的專利文獻,ECLA雖然能夠檢索到多國的文獻,但仍然不能有效地檢索日本、韓國、中國等國的專利文獻。
為改善這種局面,美國、日本和歐洲自2000年即開始了“三邊分類和諧計劃”,該計劃旨在推進ECLA、UC和FI三個分類體系的融合以增強分類號檢索的功能,同時對現有IPC分類體系提出改進建議。依據2009年召開的第27次三邊會議,韓國知識產權局已經加入上述計劃,而中國國家知識產權局也以觀察國的身份參與這項工作。此外,近年來美國專利商標局、日本特許廳、歐洲專利局、韓國知識產權局和中國國家知識產權局五局積極開展合作,其中一個重要的合作項目是“共同的分類”。該項目的實施將有利于提高分類的一致性,擴展或細化部分技術領域的分類,進而提高檢索的效率和質量。
不管是美日歐三方開展的“三邊分類和諧計劃”,還是五局共同開展的“共同的分類”項目,都必將推進專利文獻分類體系的進一步發展,實現真正意義上的“基于檢索的分類”,進一步增強分類號在專利文獻計算機檢索中的作用。
4、語義檢索
當前專利文獻檢索的主要手段為關鍵詞和分類號檢索,而由于一詞多義、一義多詞,專利文獻撰寫、加工和翻譯質量不一以及關鍵詞的機械匹配等問題,本質上決定了其查全率和查準率受限制。隨著計算技術、人工智能、自然語言處理等技術的發展,搜索引擎的智能化有望從根本上提高現有檢索系統的檢索質量。
搜索引擎的智能化具體表現為語義檢索,也稱為知識檢索或概念檢索。語義檢索是對檢索條件、信息組織及檢索結果顯示賦予一定語義成分的一種新的檢索方式。語義檢索的本質在于以語義為對象進行搜索,而不是對字符串進行簡單的機械匹配,因此可避免關鍵詞匹配檢索中由于詞和義不對應所導致的問題。
語義檢索過程一般包括對被檢索的文檔以及輸入的檢索式進行語義分析和匹配處理。這種語義分析處理依賴于詞匯的語義描述技術以及分別用于詞義鑒別和詞匯過濾的語義識別技術和詞匯鏈算法。可以通過諸如WordNet等語義詞典對詞匯實現較完備的語義描述,保證人和機器對詞匯的理解一致。
最新發展的潛在語義索引通過將文獻搜索過程中的向量空間模型和奇異值分解相結合,可以揭示文檔中的詞間關系,因而適于構建專利文獻搜索引擎”…。利用語義進行檢索還可以將專利文獻中的非技術性信息考慮在內,例如將特定的技術概念和申請人、發明人等信息進行語義聯系。此外,語義檢索還可以從用戶角度出發,考慮用戶的檢索需求,從而為諸如查新、侵權等不同目的的檢索提供相應的結果。
近年來國內一些開發商也紛紛提供具有語義檢索功能的專利文獻檢索系統,例如東方靈盾開發的專利檢索系統和Patenticst網站。Patentics網站除了可以實現傳統的關鍵詞檢索功能,還支持語義檢索,僅通過輸入檢索所針對的專利文獻號,即可自動對其進行語義分析、文獻檢索,并對結果進行相關度排序。當前專利文獻檢索領域還未廣泛應用語義檢索,但隨著研究的深入,相信未來的搜索引擎不僅能利用語義技術提高檢索的效率,還有望能對檢索結果進行分析、評價,甚至自動生成檢索報告。
5、圖像檢索
根據對圖像檢索所使用方法的特征可以分為基于文本的圖像檢索法(TBIR)和基于內容的圖像檢索法(cBIR)。專利文獻一般都帶有大量的附圖,包括機械結構或化學結構式附圖、電路圖、方框圖、流程圖或曲線圖等。與傳統的關鍵詞檢索和分類號檢索相比,CBIR更加直觀、快速,而且可以克服因文字表述差異而導致的漏檢,因此它正在成為專利文獻檢索領域的研究熱點。專利文獻的附圖都是黑白二元圖像(本文
所稱專利是指發明和實用新型專利,不包括外觀設計專利),不存在顏色和紋理等特征,因此專利文獻的圖像檢索主要是基于形狀和區域的圖像特征。
雖然目前還沒有成熟的專利文獻圖像檢索系統,但一些研究機構已經開發出若干可專門用于專利文獻的圖像檢索原型系統,例如IIT Kanpur的PATseek、Informatics and Telematics Institute的PatMediat以及LTUtechnologies公司的ImageSeeker等。PATseek專門針對美國專利文獻進行圖像檢索,而PatMedia網站上的試驗系統僅針對歐洲專利局的專利文獻,這兩個圖像檢索系統都可實現直接輸入待檢索的圖像,系統自動進行相似度匹配,直接提供專利附圖,同時還可以進行基于文本的圖像檢索。
典型的專利圖像檢索系統包括專利文獻處理部分和圖像檢索部分,如圖1所示:
文獻處理部分又進一步包括文獻預處理和視覺、文本元數據提取和索引兩部分。前者是找出文獻中的圖形和對應的文字描述;后者則是進一步進行圖像特征分析和文本分析,分別提取基本的圖像特征以及能夠表示圖形含義的高層語義特征的關鍵詞,由此分別形成索引后的圖形特征矢量庫、圖像庫、文本描述關鍵詞庫和知識庫。在圖像檢索部分,基于上述提取的元數據,進行圖像相似度匹配,同時還可以基于文本進行圖像檢索。與一般領域的圖形檢索相比,由于專利文獻中每幅圖形一般都對應有文字描述,即使不再進行人工標注或自動標注,都能提取到較好的高層語義特征,這對提高專利文獻圖形檢索的準確性非常有幫助。
目前,專利文獻圖像檢索系統僅處于試驗階段,只能對數量非常少的特定專利文獻進行檢索,且檢索結果相關度還不是很高,但由于圖像檢索具有其他任何檢索方式都不具備的優點,相信隨著人們對專利文獻圖像檢索技術的進一步研究以及語義檢索技術的進一步發展,實現高精度的圖像檢索必將成為現實。
6、輔助技術
高質量的專利文獻是提高檢索質量的基礎。專利文獻分類、標引和摘要改寫是專利文獻加工的主要內容。傳統的專利文獻加工方法主要依賴于人工,其成本高且速度受限制,質量不統一。隨著人工智能和計算機技術的發展,開始出現對專利文獻進行自動分類、自動標引、自動摘要和自動聚類。
專利文獻自動分類已經在歐洲、美國、日本得到了廣泛的研究和嘗試。例如歐洲專利局已經利用自然語言處理的相關技術實現了專利文獻的自動初分類;對日本專利文獻自動分類研究表明,對于使用K臨近算法進行自動分類的情況下,先將專利文獻按部分結構化為語義單元可以提高74%的效率。
PATExpert代表了目前較先進的專利文獻自動處理技術的發展,通過基于語義網的語義處理技術實現了面向內容的專利文獻自動處理,其中的一個主要技術是利用一定的語義表示結構實現專利文獻知識層面的表達。該系統可以執行的處理任務包括:專利文獻內容和元數據的自動抽取;全文、圖像、相關性搜索引擎;專利文獻的自動分類和聚類;面向多語言的輔助理解工具;專利價值自動評估等。
國內有一些研究機構開展了大量的基于IPC體系的專利文獻自動分類的研究,這些研究大部分集中在統計分類技術。近年來隨著人工智能技術的興起,基于人工智能或語義的專利文獻自動分類發展迅速,例如上文提到的Patentics試驗系統也開始嘗試對專利文獻進行自動分類。
中文專利文獻的自動處理仍處于研究階段,雖然國外專利文獻自動處理已經積累了許多寶貴經驗,但由于中文表述的特殊性,許多技術還待消化和開發,例如漢語詞匯之間的分詞技術是制約自動標引質量的一個障礙。隨著信息處理自動化相關技術的發展,專利文獻的自動分類、自動標引、自動聚類和自動摘要正在逐步由半自動走向全自動化,這給搜索引擎的發展帶來了極大的便利。同時,利用語義技術實現基于內容的自動處理將是未來的發展主流,也是提高專利文獻自動處理質量的主要手段。
7、結語
專利文獻計算機檢索是一個涉及了多學科的研究領域,其中以語義檢索為核心的技術推動了搜索引擎、機器翻譯、圖像檢索等相關技術的發展,而由于專利文獻的特殊性,分類體系和文獻自動處理技術也在其中占據了重要地位。隨著研究的進一步深入,現存的語言障礙和檢索效率低下等缺陷在不久的將來必將逐漸被克服,不同層次的用戶有望借助于智能化的自動檢索系統便利地實現專業化檢索。
第四篇:圖書館信息檢索大賽策劃書(模版)
活動主題:圖書館信息檢索大賽
一、主辦單位:太原工業學院圖書館學生管理委員
二、指導單位:太原工業學院圖書館
三、協助媒體:太原工業學院校園廣播站、校報
四、活動目的及原則:促進同學們對圖書館的了解,增強主人翁意識。使自習室得到合理、高效利用。認識圖書館數字資源的重要性。學會數字資源檢索知識,提高檢索能力,以便充分利用圖書館資源。本次活動本著公平、公證、公開、自愿原則。
五、活動時間地點 賽 式 組 別 時 間 地 點 預 賽 十三個系部 由各系部自定 由各系部自定 初 賽 第一組 11月14日上午09:00 第二組 第三組 第四組 第五組 第六組 復 賽 第一組 11月14日下午14:00 第二組 第三組 決 賽 第一組 11月21日上午09:00 第二組 第三組 11月21日下午14:00 第四組
六、活動構思:
(一)比賽形式重于新穎,力求提高參與度。
我們此次活動在保證比賽順利進行的前提下,力求在比賽的各個環節有所創新。因此,在策劃上,無論是各系部的選拔賽,還是第二階段預賽比賽流程,或是總決賽的設想,我們都應避免落入俗套。畢竟,再精彩的比賽模式,觀看得多了也就無所謂興趣使然。而只有不斷地推陳出新,才能夠真正地把握住觀眾的興趣導向,使其參與到活動中,融入到活動的氣氛中來。因此,我們設想在初賽采取“幸運52”答題的模式,預賽中采取“開心辭典”的模式,決賽采取“幸運52”和“聯合對抗”結合的答題的模式,這都是在現在的中國風靡一時且仍廣受關注的活動形式,且在各大高校起碼在太原工業學院中尚沒有較為完全或成功的借鑒。因此,我們采取這樣的比賽形式,把日常在電視中才能看到的真正拉近到同學們的身邊,讓同學們親身參與其中,體驗其前所未有卻又夢寐以求的感受。
而對于總決賽,由于是全校各系部冠軍之間的最終總決賽,除如上的某些環節之外,我們策劃能夠加入更多關于高校發展的內容。畢竟,在這樣的比賽中,需要的是更能夠突顯選手個性的環節。而且由于最終的勝負是由在我院專家人士評定,不是機械的評判,結果不再一目了然,更增加了比賽的緊張性。另外,在選題方面,我們采取專家出題和征集學生所出題目相結合,力求擴大影響范圍。
(二)期盼在全校范圍內推廣,為競賽擴大影響宣傳
一個活動是小活動,但倘若一連串小活動集合成為系列性、規模性的活動也便成為了大型的活動。所以我們希望能夠借此契機,把此項活動推廣出去。而對于此次與各系部學生會的合作,我們設想先就比賽的總實施計劃達到一致,然后前期的由各系部分別進行相同的比賽環節,最后各選拔出一支冠軍隊伍參賽,使此次競賽知識競賽活動凝聚成為規模效應。這首先直接有利于競賽活動的宣傳,再者,也加強了各系部之間的合作和聯系,緊密了兄弟系部之友誼。更重要的是能夠在更大程度上吸納最廣大的學生參與到這一項活動中來,最大限度地讓最多的同學在此次活動中真正受益。
(三)全方位的媒體宣傳
為了加強此次活動的宣傳效果,我們希望能夠盡可能地發揮各種宣傳方法的宣傳效果。首先,在常規媒體宣傳上,我們力求與校園廣播站、校報取得合作,由其協助此次活動,并負責攝像、報道此次活動的總決賽,使整個活動的影響不僅僅局限于某一個系部,而是進入普通同學的思維中,使之成為他們茶余飯后的話題。其次,網絡媒體宣傳方面,我們會利用校園網絡對活動進行大力宣傳。再次,我們屆時也會通過傳單、海報、橫幅等常規宣傳渠道以及在相關單位舉辦其他活動時也會加強此次活動的宣傳。
七、參賽方式:
各系部在冠軍隊伍中產生總冠軍,以代表隊形式參賽,每隊三人。
1、預賽;由各系部自行選拔參賽人員,比賽形式時間地點自定。
2、初賽和預賽:初賽和復賽均采取主持人提問形式。設有最佳選擇題、判斷題和問答題。
3、決賽:決賽為3人組合賽(進入決賽的12名隊員按系部分為4組,每組3人。),決賽將采用幻燈片的形式將試題呈現給參賽選手,選手現場答題。題庫及評分標準見附錄。
八、參賽對象:太原工業學院所有全日制本專科學生
九、活動前期準備
1.賽事相關活動準備
1)召開校學生會全體會議,通知相關事宜。
2)活動策劃籌備工作(負責部門:圖書館學生管理委員會)
a、辦公室確定成立大賽組委會,全權負責此次大賽的各項活動
b、就賽事各部分進行充分探討,最終確定賽事策劃細節書
c、組委會內部確定分工細節以及各系部聯系人(系部學生會主
席),負責在賽事進行過程中主辦單位與各系部的聯系工作。
3)活動宣傳工作(負責部門:校學生(分)會、圖書館學生管理委員會)
a.海報
b.橫幅
c.網絡相關報道:校園網、d相關報紙的宣傳:校報、系部報紙
e.校園廣播站全程播報(包括總決賽所有內容)---最主要的途徑。
2.各系部協辦工作
1)召開各系部參賽選手及負責人開會。
2)各系部自行組織負責此次大賽的組委會,對大賽全程負責,名單上報主辦單位組委會。
3.贊助單位聯系工作(負責部門:圖書館學生管理委員會外聯部)
1)確定贊助單位
2)完成贊助單位的相關策劃書,確定需要贊助金額
3)聯系贊助單位
4.相關媒體的聯系工作(負責部門:圖書館學生管理委員會宣傳推廣部)
1)安排各媒體負責人其所負責的范圍及權限
2)相關報道具體工作事項的策劃與落實
十、比賽流程:
1、預賽:由各系部組織選拔,形式不限。選出十三支隊伍,每支限三人。
2、初賽:在十三支隊中以抽簽形式選出一支隊直接晉級復賽。其他十二支隊抽簽分為六組進行比賽,選出每組的獲勝者。總共七支隊。
承辦單位提前布置好決賽現場,為每個小組設一名記分員并提前組織參賽隊員和觀眾進入比賽現場。
第一環節:個人必答題(選擇題)
每個小組的各隊員以抽簽形式確定首次答題順序后依次回答。
本環節的成績為個人成績,每位隊員賽前都有60分基準分,每位隊員必須答完屬于自己的4道題,每題10分,答對在基準分上加10分,答錯不得分也不扣分。每位隊員分別答完第一題后再答第二題,四道題均答完后完成第一個環節比賽。
第二環節:小組搶答題(填空題)
本環節和下一環節的基準總分為60分。本環節各組得到的試題可以回答也可以放棄,答對得相應的分數,答錯則扣除相應的分數,放棄不得分也不扣分。各小組得到試題后在規定的時間內商量好確定答案后由代表說出答案。
第三環節:難度命運題(簡答題,備注)
本環節試題難度較前兩環節有相應的難度。本環節答題方式和分數規則與上一環節相同。
3、決賽:在通過初賽的七支隊伍中以抽簽形式選出一支隊直接晉級決賽,其他六支隊抽簽分為三組進行比賽,選出每組的獲勝者。總共四支隊。比賽環節同上。
4、總決賽:決賽中的兩支勝者進行亞軍決賽,決賽中的兩支負者選出季軍。比賽環節同上。
十一、題庫范圍:涉及自習室作為二次利用、圖書館流通庫及各閱覽室規章制度、信息檢索知識等常識題與專業題。
十二、獎項設置:
本次競賽設冠軍、亞軍、季軍,最終獲獎的3人組合將獲得校級獲獎證書(每人一證)。
十三、決賽現場觀眾互動:
決賽的每個環節之后均有兩次抽獎活動。以觀眾所在作為坐標為抽取對象。所有參與觀看決賽的同學均有機會成為幸運觀眾,并贏得精美禮品。
十四、可行性分析:
1、此次活動為太原工業學院圖書館首屆信息檢索知識競賽,這對圖書館學生管理委員會來說是首次,在學院也是首次。這種活動非常有意義并且很有必要,可以考慮延續下去,每年舉辦一次。
2、大學生團體是當今社會的領軍人物,這個團體素質的好壞在一定程度上會影響整個社會的風氣,因此我們有責任也有義務培養當代大學生的信息檢索素質。我們希望通過這個活動先帶動一批人,而這些人來自學院各系部班級,因此活動的影響面和影響力都足夠大。
3、此次活動旨在進一步提高廣大大學生對信息檢索的重要性的認識。
4、以競賽的形式舉辦此次活動,可以充分調動同學參加的積極性、積極地投入到比賽的準備工作中,同時也擴大了同學們對信息檢索知識及我院圖書館的了解。
5、以競賽的形式舉辦形式并不復雜,所需資金也不多,但在全校大學生中的影響力卻很大。
十五、活動費用預算
幸運觀眾禮品: 元
打印各種宣傳資料:元
證書及獎品費用:元
合計: 元+待定費用
十六、預計效果:
此次活動將做好全面的宣傳工作,影響力將涉及校區各個系部班級。此次活動的開展,將使更多的同學了解圖書館各項規章制度,掌握信息檢索知識。
十七、組委會成員
總顧問:
顧問:
主任: 執行主任:
委員:圖書館學生管理委員會、各系部主席、校學生會各部長
附錄一:評分標準
附錄二:題庫
第五篇:WEB全文信息檢索技術
WEB全文信息檢索技術
摘要:本文探索了在INTERNET網上實現全文檢索的技術。計論了從網上信息的標引、分類等預處理到組織信息檢索的過程,并就智能檢索技術的發展進行了闡述。關鍵詞:信息檢索 因特網 全文檢索
一、前言
Internet網是目前全球最大的、最有影響力的信息網絡,它將政府、學校、圖書館、商務場所、研究機構和其它組織中的局域網(LAN)集成為一個單一的、龐大的、跨越全球的通訊網絡。越來越多的人們利用這一網絡與世界各地的人進行交流。如何利用Internet網獲取有價值的信息,已成為科研人員必備的一項基本技能。
因特網是一個開放型的巨大的信息資源庫,擁有上千萬臺以上的主機和過億的用戶;并且由于因特網信息蘊含的無限豐富,信息組織、表達的直觀、生動以及信息服務的方便性和多樣性,愈來愈多的信息搜索者被其獨特的魅力所吸引。而在近幾年,因特網用戶的數量更是成倍地增長。可見,因特網檢索已成為實際上最普及、最受關注、最常涉及的信息檢索領域。
二、概述
網上的信息具有數量大、形式多、內容廣、專業性不強等特點,給情報搜集、分類、檢索等工作帶來了新的問題和挑戰。如何充分利用因特網上的信息資源正成為情報科學研究者所關注的熱點。全文信息檢索就是概據Internet信息的特點而發展起來的一種檢索方式。它主要指研究對整個文檔信息的表示,存儲、組織和訪問,即根據用戶的查詢要求,從信息數據庫中檢索出相關信息資料。
全文檢索的中心環節是文件內容表達、信息查詢的獲得以及相關信息的匹配。一個好的全文信息檢索系統不僅要求將輸出信息進行相關性排列,還應該能夠根據用戶的意圖、興趣和特點自適應和智能化地調整匹配機制,獲得用戶滿意的檢索輸出。
要實現全文檢索,首先必須對WEB信息進行預處理。
三、WEB信息的預處理
信息預處理的主要功能是過濾文件系統信息,為文件系統的表達提供一種滿意的索引輸出。其基本目的是為了獲取最優的索引記錄,使用戶能很容易地檢索到所需信息。
(1)格式過濾:信息預處理應該能夠過濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。
(2)語詞切分:語詞是信息表達的最小單位,而漢語不同于西方語言,其句子的語詞間沒有分隔符因此需要進行語詞切分。常用的語詞切分方法有按詞典進行最大詞組匹配、逆向最大詞組匹配、最佳匹配法,聯想-回溯法、全自動詞典切詞等。近年來,又出現了基于神經元網絡的和專家系統的分詞方法和基于統計和頻度分析的分詞方法。
(3)詞法分析:漢語語詞切分中存在切分歧異,如句子“網球拍賣完了”,可以切分為“網球/拍賣完了”,也可以切分為“網球拍/賣完了”。因此需要利用各種上下文知識解決語詞切分歧異。此外,還需要對語詞進行詞法分析,識別出各個語詞的詞干,以便根據詞干建立信息索引。對于英語語詞,建立索引之前首先要去除一些停頓詞(如常見的功能詞“a”,“the”,“it”等)和詞根(如“ing”,“ed”,“ly”等)。
(4)詞性標注和短語識別:在切分的基礎上,利用基于規則和統計的方法進行詞性標注。在此基礎上,還要利用各種語法規則,識別出重要的短語結構。
(5)自動標引:從網頁文檔中提取出一組能最大程度上概括其內容特征、可作為用戶檢索入口的關鍵性信息,用該組信息對文文件進行標引,使用戶可以通過輸入關鍵信息檢索到該文文件的簡要信息,如標題、摘要、時間、作者和URL等,進一步點擊可查詢到該文 1 檔.
(6)自動分類:建立并維護一套完整的分類目錄體系,根據文文件的信息特征,計算出與其相關程度最大的一個或多個分類,將文檔劃歸到這些分類中去,使用戶可以通過瀏覽分類體系直接查詢到該文檔.
.
四、檢索
檢索包括文件信息表達和查詢信息表達以及相關信息預測過程。
(1)信息表達:信息的表達有多種方式,如布爾表達、矢量空間表達、自然語言表達等,每種表達方式由應用系統服務者提出并由整個應用系統的目的和需求所決定,并對應于相應的存儲模式和檢索算法,信息查詢和組織的效率,也就是速度和存儲的空間在很大程度上決定了檢索服務系統的性能。
(2)查詢分析:用戶端的查詢信息首先要進行分析處理,提取出查詢項索引、邏輯表達式或其它查詢特征描述。和文件信息索引不同的是:查詢索引處理是及時地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進行遠程數據的搜索和獲取預先生成的本地索引。查詢索引和文件索引采取同樣的表達方式,因此能夠采取相似性估計算法檢索出相關文件。
(3)查詢擴展:近年來,為了提高信息檢索的性能,將應用領域知識和索引、相關性、估計、查詢表達相結合實現查詢擴展,即查詢索引還包括不在用戶查詢中出現的查詢詞部分。典型的知識庫查詢擴展應用如圖1所示,知識庫中存儲的知識為原始查詢增添了相關詞,從而擴展了原始查詢。
(4)查詢詞的選擇策略:
·非獨立詞:非獨立詞指的是和查詢詞具有較大相關性的詞。但是預先必須計算文件集合中的所有詞之間的相關性。
·反饋詞:根據用戶反饋的文件信息,按照在相關文件和非相關文件中詞的出現頻率和分布決定出重要的詞,將這些詞增加到用戶查詢中。
·交互式選擇:用戶從通過上述策略得出的待選詞中決定最后的查詢詞。
反饋網絡屬于人機交互范疇,目的在于提高查詢性能和針對性。不同的用戶根據實際情況提供不同的反饋信息,不同的信息檢索服務系統按照其功能與檢索方法也有不同的反饋結構和交互方式,因此查詢結果也不盡相同。
(5)信息檢索模型:信息檢索系統的核心是搜索引擎,它需要從大量復雜信息中,篩選出符合用戶需要的信息。根據搜索引擎查找相關信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、矢量空間模型以及概率模型等。
布爾邏輯模型布爾邏輯模型是最簡單的檢索模型,也是其他檢索模型的基礎。標準布爾邏輯模型為二元邏輯,即一系列對應于文件特征的二元變量。這些變量包括從文件中提取的文本檢索詞,有時也包括一些更為復雜的特征,如數據、短語、私人簽名和手工加入的描述子。在布爾模型中有確切的文件特征表達集合。用戶可以根據檢索項在文檔中的布爾邏輯關系遞交查詢。匹配函數由布爾邏輯的基本法則確定。所檢索出的文檔或者與查詢相關,或者與查詢無關。查詢結果一般不進行相關性排序。
模糊邏輯模型為了處理精度和復雜性之間的矛盾,引入了模糊邏輯模型,它以邏輯真值為[0,1]的模糊邏輯為基礎的,以隸屬函數概念來描述現象差異的中間過渡。在查詢結果處理過程中引入模糊邏輯運算,將所檢索的文件信息和用戶的查詢要求進行模糊邏輯比較,按照相關性的優先次序排出查詢結果,在布爾檢索中借助模糊邏輯模型能夠克服布爾邏輯查詢結果的無序性。
矢量空間模型和布爾檢索模型不同,矢量空間模型中查詢和文件都映射為同一n維空間矢量。利用奇異值分解(SVD)、查詢詞和文件的內部結構聯系,通過歐幾里德距離和余弦法則作相似性比較,根據矢量空間的相似性,排列查詢結果。矢量空間模型不僅可以方便地產生有效的查詢結果,而且能夠提供查詢結果分類,為用戶提供準確定位所需的信息。
概率模型在信息檢索中存在不確定性問題,對查詢本身來說,它不能唯一地表示信息需求,對于結果來說,定查詢結果的正確與否。對于布爾檢索也是如此,因為查詢的提交本身就是一種不確切方式。為了解決在布爾檢索模型中的不確定性問題,引入了概率檢索模型。該模型基于概率排隊理論:當文件按相關概率遞減原則排列時可以獲得最大的檢索性能。
五、全文信息檢索技術的發展
目前的全文檢索技術還存在著一些未盡人意的結果,主要是通常的信息檢索系統性能較低,原因是將孤立詞和詞匯術語作為查詢描述子,因而文件內容的相似性較差。智能化信息檢索是人工智能和信息檢索的相結合的產物。它能使信息檢索系統“理解”用戶的信息需要和文件包含的信息內容。它在對內容的分析理解、內容表達、知識學習、推理機制,決策等基礎上實現檢索的智能化。
目前人工智能和信息檢索的結合主要包括三方面:(1)信息檢索和專家系統:主要研究方向是開發一個專家中介系統來協助查詢形成、搜索策略選擇以及預測檢索文件;(2)信息檢索和自然語言處理:它實際上是以字或詞為符號的一種符號系統。目前自然語言處理對信息檢索的應用仍停留在簡單語言處理上,例如確認詞根和詞組等。(3)信息檢索和知識表達:此領域的研究主要是通過應用領域知識來理解文件和查詢的信息內容。
目前,雖然某些在WWW上的信息檢索服務系統采取了智能用戶代理的等方式,可以根據用戶事先定義的信息檢索要求,在網絡上實時監視信息源,如指定Web頁面的更新、網絡新聞、電子郵件等,并將用戶所需的信息通過電子郵件等方式,主動提供給用戶,減少用戶檢索信息的時間。但是商用信息檢索系統仍主要以布爾模糊邏輯為主,輔以部分自然語言的處理。智能化信息檢索技術的發展,特別是知識學習和知識庫以及人機交互方式的應用,將大大提高信息檢索服務系統的精度和相關性。隨著智能化技術的發展,全文信息檢索技術必將更廣泛地應用于網上信息檢索領域。附:參考文獻
1)、www.tmdps.cnposed of SVM and binary decision tree and used for Chinese Web page classification.The category whose amount of training examples is maximum is selected as the category that can be identified by current classifier and the training data of remain categories is used as negative examples when a new classifier is constructed.It can reduce the train scale of SVM classifier and improve the training efficiency.During the test process, each classifier is called in the order that it was constructed.The experiments show that it not only reduces the size of train set, but also has very high training efficiency.Its precision and recall are also very good.2.A Chinese Web page classification algorithm that is based on the combination of SVM-Decision tree and clustering is proposed.For multi-class classification, the classifiers are composed of SVM and binary decision tree.Combined with some clustering method, we select those negative examples that may be support vectors with high probability and add them to the SVM training set.Any page can be classified by comparing the distance of clustering centers or by SVM.Experiments show that this method can greatly reduce the train scale of SVM classifiers and improve the training efficiency.Its precision and recall are also very high.3.A valid method to use the unlabeled web page data to improve the classifier which has only a few labeled training examples is designed.It first selects some web pages with high similarity and appropriate difference from the unlabeled web page pool using vector space model and adds these unlabeled examples to the labeled training set.SVM classifiers are retrained and used for classification again.Experiments show that this method can use the unlabeled data effectively and enhances the training set.It improves the classification recall and reduces the need for labeled training examples.4.An open Chinese web document classification system is designed and implemented.Several Chinese web page classification algorithms and research work on using unlabeled data to improve classification performance presented in this thesis are integrated into this system.It is also designed according to the practical need of experiments and use.Modular architecture is adopted to facilitate functional expansion and performance improvement.5.The application of character-based indexing technology to the search of Chinese web documents is studied.Because Chinese Web documents deal with many fields and change quickly, it is difficult to create a dictionary large enough for the information processing demand.Different meanings occur often during Chinese word segmentation and can result in segmentation errors.Some results are skipped over or some errors occur during the process of searching some words because of these problems.The recall and precision are low in these cases.Organization structure, retrieval algorithm and compression of character-based indexing is discussed in detail.Byte aligned compression method is proposed.The structure and implementation of the entire system are described at last.This system is proved to have good response time and precision and be a practical one by tests.