久久99精品久久久久久琪琪,久久人人爽人人爽人人片亞洲,熟妇人妻无码中文字幕,亚洲精品无码久久久久久久

現代信息檢索學習報告

時間:2019-05-15 09:46:48下載本文作者:會員上傳
簡介:寫寫幫文庫小編為你整理了多篇相關的《現代信息檢索學習報告》,但愿對你工作學習有幫助,當然你在寫寫幫文庫還可以找到更多《現代信息檢索學習報告》。

第一篇:現代信息檢索學習報告

76993082.doc

(圖與內容無關)

Modern Information Retrieval 現代信息檢索學習報告

姓名:

班級:

學號: 教師:

76993082.doc

一,我的感想

在報這課程時,對這門課程并不了解,只是簡單的認為信息檢索就是翻翻書找找文獻等是單純的查找。但是經過這一學期的課程,我發現每一條信息,每一篇文章都是系統的歸類,劃分范圍類型,而檢索的途徑也很多種,如有作者途徑檢索、分類途徑檢索等,檢索式更是分類齊全繁多。

有很多收獲,感覺很充實,發現我們的生活中時時刻刻都在檢索信息.在老師的指引下,我們對檢索工具一步一步地熟悉和應用,對于檢索的方法,我覺得不管是在哪個網站檢索,最重要的還是關鍵詞的選擇。關鍵詞選的“關鍵”,不僅可以提高檢索速度,而且大大提高了檢索結果的質量,可以很容易找到自己需要的資料,總之要縮小范圍。

二,學習收獲

信息檢索課是無意間報名的,如不是一個偶然的事件,要不是我找錯教室,也許我就會錯過了一個真正的學習的機會。根據CNNIC最新統計調查顯示,在互聯網應用中,信息檢索已經排在了第二位,成為僅次于電子郵件的互聯網應用。搜索網站可以幫助我們快速便捷地在互聯網中進行信息的檢索、查詢。信息檢索對我們來說并不陌生,在這個信息泛濫的年代,很難想象如果一夜之間如果沒有了Internet將對我們的生活產生怎樣的影響。

以前我在網上找資料基本上處于一種盲目的狀態。在百度里輸入

76993082.doc

關鍵詞,不少檢索出來的東西,基本上用處不大,或者并沒有什么依據,只是網友自己的解答。本學期上了信息檢索課,我學習到了檢索的一些知識,并且也由此及彼地把這些知識應用到信息的檢索中。在學習階段,通過上信息檢索課我對信息檢索的認識又上升到了一個新的高度。

我覺得信息檢索可以應用在我們每個課程中,自己可以給自己覺得有意義的課題,進行一個追蹤或者資料的查詢,可以把自己學到的知識鞏固,并且可以深化自己隨著方面的理解。例如在我們的一堂《企業財務管理》課程,老師布臵了一個作業,一個企業并購案例分析,香港巨商李嘉誠之子,李澤楷,盈科數碼動力主席與新加坡總理李光耀之子,李顯揚,新加坡電信行政爭奪香港電訊的收購權。在分析這道題時,就涉及到信息的檢索,首先要看看這三家公司的經營情況,還要檢索當時參與收購的財團,還有收購的獲勝方,收購價格,最終收購后的經營狀況等等。最后通過自己查到的這些資料分析為什么盈科數碼動力會獲勝,但是經營確是賠本的。

通過學習以后發現,信息檢索的策略也是非常重要的,我原來誤以為一個好的檢索策略只能提高查準率,大不了我多查幾篇資料,現在發現它還能提高你的查全率,而且對于你從較高層次上把握課題的研究方向、發展脈絡是極有幫助的。

附:常用搜索網站信息和基本檢索技巧

一,八大搜索網站簡單介紹

1、“Google”是功能強大,易用性最強的搜索網站,搜索速度快而且提供了最豐富的高級搜索功能。

Google(http://www.tmdps.cn.yahoo.com)支持網頁、網站搜索,搜索速度快而且準確性比較高。

4、“網易”網站搜索非常出色,但缺少提示,網易搜索的操作界面不太方便,在使用的過程中也缺少提示。

網易搜索(http://search.163.com)支持網頁、網站搜索,網頁搜索使用的是百度的搜索技術,除了分頁方式以外,其他的返回結果都與百度一樣,但推薦的站點比較少。

5、“搜狐”曾是IE默認的中文搜索網站,網站搜索值得推薦,但重復現象較多搜狐的搜索結果中沒有標出關鍵字,查閱起來非常不便。

搜狐(http://search.soho.com)支持網頁、網站搜索,在國內享有很高的聲譽,曾經一度是微軟IE瀏覽器使用的默認中文搜索網站,在IE瀏覽器地址欄直接輸入關鍵字即可進行搜索。

6、“慧聰”是出色的 行業搜索網站,但缺少高級搜索功能,死鏈率也不低,而且搜索結果中重復的網站較多。

長期以來,國內的搜索技術提供廠商很少,百度作為先驅者,占據了大部分份額。到了2002年,國內搜索市場中出現了一匹黑馬,那就是慧聰搜索(http://www.tmdps.cn)是國家“九五”重點科技攻關項目“中文編碼和分布式中英文信息發現”的研究成果。天網搜索的FTP服務器文件搜索功能非常強大,而且還為用戶整理了一份龐大的熱門搜索關鍵字目錄,方便用戶瀏覽和下載所需的文件。二,信息檢索技巧

1、選擇恰當的關鍵字

互聯網上流傳的所有搜索技巧都是在如何確定關鍵字上做文章,選擇一個好的關鍵字是搜索成功的關鍵。關鍵字代表著我們要搜索資料的特征,如果您找不

76993082.doc

到所需的信息,大部分情況是因為在關鍵字的選擇方向上發生了偏移。找出關鍵字可不是一件簡單的事情:首先您需要知道或者估計出目標網頁內包含的文字,在腦子里形成一個比較清晰概念,再從中提煉出此類信息最具代表性的關鍵字。盡量不要選擇常用詞匯進行搜索,但可以同時使用多個關鍵字并加入與、或、非等多種邏輯關系進行搜索,這樣才能避免返回無關的搜索結果。

a.避免輸入及邏輯關系錯誤 首先我們要避免輸入的關鍵字中有錯別字,以及其他錯誤的操作。不同的搜索網站往往都有各自的特點,在某些搜索網站上,您可以使用“Where can I find software?”這樣的自然語言進行搜索;但在某些搜索網站上,您甚至不能成功地使用單個漢字作為關鍵字進行搜索。另外,在使用多關鍵字通過與、或、非邏輯關系進行搜索時,不同的搜索網站所采用的邏輯關系表示符號也可能有所不同。所以我們有必要針對不同的搜索網站選擇不同的關鍵字,并在首次使用一個搜索網站時,花一點時間閱讀搜索網站的幫助文檔,這是非常有必要的。

b.使用多關個鍵字來提高 檢準率 對于大部分的搜索任務來說,一般都能夠通過搜索網站找到需要的網頁,但是如果不細心選擇關鍵字,搜索網站可能會返回很多并不是您需要的結果。此時,如果您將另外一個跟搜索目標相關的關鍵字加在一起搜索,返回的結果就會少很多,也更加準確。因此,很多時候我們需要使用多個關鍵字查詢的方法來提高搜索準確率。但需要注意的是,搜索網站對關鍵字的個數可能會有限制。另一方面,也要注意搜索內容之間的邏輯關系是否合理。

2.句子檢索法可有效提高文本檢準率

在使用搜索網站時,不少人經常被“關鍵字”這個名稱所限,而忘了關鍵字可以是一個字、一個詞,甚至一句話。例如在搜索小說、文章等文本內容時,最簡單的方法,是用文本的標題搜索,但最高效的方法,則是用文中的一句話來搜索,可以讓您的搜索效率提高不少。3.文件檢索法 利于快速查找文件目標

如果您的搜索目標是一個文件,如一個公司Logo的圖像文件,或者一個設備驅動程序的壓縮包,您除了可以用公司的名稱或者設備的名稱進行搜索外,還可以從文件的名稱入手。例如,當您在搜索設備驅動程序時,如果選擇設備的品牌、型號為關鍵字時,搜索網站會返回許多無關的信息,這時,如果在這些關鍵字的后面再加上ZIP或RAR等常見壓縮文件擴展名,您會有意外的收獲。4?!皰伌u引玉”法利于快速查找相關信息 如果您有一個非常喜歡的專業網站,并希望從互聯網上找到更多同類的網站,這時怎么選擇關鍵字最有效呢?或許搜索這個網站的內容類型會找到一些不錯的站點,例如使用“軍事網站”、“醫學站點”做關鍵字,但很多時候這種搜索方法也可能一無所得。實際上最有效的方法是拋磚引玉,用您最喜歡的網站的站點地址作為關鍵字。因為鏈接到那個站點的往往是同類站點,用這種方法您肯定能夠找到一些相關的網站。

5.中西結合檢索法可以很好地完成某些搜索任務

在使用搜索網站時,靈活地結合中文和英文可以很好地完成某些搜索任務。您除了可以將要翻譯成中文的英文詞匯用作關鍵字,并指定搜索網站只返回中文網頁的結果,嘗試將搜索網站當成翻譯機器來使用;還可以將中文詞匯的一部分翻譯成英文,例如您正想將“土豆燒牛肉”翻譯成英文,只要您知道土豆的英文,您就可以輸入關鍵字 “土豆燒牛肉 potato”,從互聯網上找到含有土豆燒牛肉

76993082.doc 的英文網頁。

三,信息檢索的應用

本學期選修了現代信息檢索課程,覺得很有用,雖然在一開始對于這門課程,到底能夠學下什么,到底可以應用多少產生過質疑。覺得現代信息檢索,名字叫得聽高級,到底學什么不了解,但在這門課程學完后我有了理解。“快速便捷地找到自己所需要的信息”是這門課程的要求,那怎么才能應用與我所學的旅游管理專業上呢?

隨著互聯網技術的廣泛應用,旅游業的網上營銷是近期行業內探討的熱門話題,而其中一個重要的推廣手段——搜索引擎,在企業中發揮的作用也漸漸突顯出來。對搜索引擎以及旅游行業專業人士—— “去哪兒”旅游搜索引擎的了解,綜觀搜索引擎對推動在線旅游業發展方面所創造的價值,可以讓旅游業界人士對運用搜索引擎來最大化收益有個更清晰的理解。

通過對“去哪兒”旅游搜索引擎的了解,可以看整個在線旅游行業的現狀,細致分析了消費者利用網絡查找及預訂相關旅游服務的情況,不但有利于完善和豐富旅游搜索引擎自身的發展,對旅游運營商——航空公司、酒店及旅游代理商了解搜索引擎的及消費者購買流程更是大有裨益。

“去哪兒”的調查發現,使用網上預訂的旅客都是旅游??停M行網上預訂的消費者是熱衷旅游的人士,26%稱在過去一年中他們至少度假4次;雖然中國的網絡用戶主要是在中國境內旅行,越來越多的中國人計劃出國旅行,將近40%的人希望下一次旅行時能夠走出國 6

76993082.doc

門。

對于網上旅行者特征的調查,“去哪兒”的報告顯示,這部分消費者是屬于吸引力很強的人群,73%使用信用卡,22%擁有并駕駛小汽車,88%擁有大學學歷。

而對他們的預訂方式的調查發現,更多的人愿意使用互聯網預訂旅行。“去哪兒”的報告顯示,一半以上的互聯網用戶曾經在某個地方在網上購買機票,略低于一半的人曾在網上預訂酒店。

從市場應用角度來講,航空旅游行業對搜索引擎的依賴性是比較強的。我們可以從用戶的反饋看到,凡是在網上有旅行預訂經歷的用戶,有97%的人都會通過搜索引擎來尋找旅游產品。這也給航空公司、旅行代理,還有酒店一個很強烈的信號——利用搜索引擎來傳達他們的相關信息,是企業推廣的有效手段之一?!?/p>

關于信息檢索的應用有部分摘抄自2007的一個騰訊新聞網的《關于旅游業與搜索引擎的發展關系》,其中還有介紹Google的旅游搜索引擎,但由于Google2010年3月推出中國內地,轉至香港,就不做介紹分析。

以上為我對現代信息檢索的感想,學習收獲,和現代信息檢索在游業方面應用的看法,可能不是太全面,或者太狹隘,望何老師見諒和指導。

2011年12月5日星期一

第二篇:信息檢索學習報告

信息檢索學習報告

第一部分:對自己的學習做個自我評價,對于“信息檢索”這門課程的學習,我給自己的評價是8分(10分制)。

首先,我對檢索確確實實有了更深入、更準確的理解。它不再是我之前觀念中那種單純的搜索查找,而是一項系統的技術。在通過課堂的講解和教材的指導后,我也基本掌握了對各種信息進行檢索的方法、技巧以及對檢索系統與工具的選擇。一定程度上達到了學習本課程的目的。

其次,由于檢索技術概括的面之廣,而在實際使用與操作中,涉及的檢索對象有限,使用的系統、語法、方法、工具等都集中在一些常用或習慣的部分,導致很多內容只是到懂得、知道的地步,遠達不到熟練使用與操作。

最后,通過系統的學習,我已經可以檢索到自己需要的資料,實現學以致用的目的。第二部分:每次課堂學習的收獲,開學以來,在C203上理論課的時間一共是7節。針對我們所學專業——地理資源和城鄉規劃管理作了舉例和講解。其中詳細、具體學習的內容如下:

a)信息檢索基礎知識——信息與信息檢索的認識,明白檢索的對象、意義等。然后重點以信息檢索工具及其選擇原則、信息檢索方法及途徑、檢索式的擬定、信息檢索和分析步驟進行學習。其中檢索語言類型、檢索語言的規范、檢索詞的用法最為實用,學習后就立竿見影解決了平時檢索的很多像檢索不全、不準或過多等問題。

b)網絡信息檢索——就與網絡相關的檢索,彌補了除對圖書、期刊的檢索的局限性,讓學習的知識可以在平時的娛樂、休閑中起作用。對搜索引擎的了解雖不是像一門技術可以掌握,但至少了解其工作原理。網絡資源、導航的學習可以說切切實實節省了時間,提高了我們檢索的效率。

c)學術論文的寫作——作為學習這門課程的幾大目的之一,掌握論文寫作是必要的。通過學習知道了其格式、要求和寫作程序,但還沒實際操作,以至記憶不深刻,還不能不翻書完全對立完成寫作。

d)對圖書、期刊、特種文獻、數據與事實信息的檢索——不同的信息在不同的檢索系統和工具上完成。在之前學習的基礎上,只要清楚在哪里才能檢索哪種信息就可以有效的找到相關資料,當然這也要求我們能將檢索目標準確的判斷為哪種信息和較好的使用檢索語言。第三部分:完成上機實驗題目的收獲,我們上機實驗的題目主要是對檢索語言的練習和利用一檢索系統對相應信息進行檢索的練習。這兩方面與我們現在的學習、生活聯系相當密切,直接的操作比上理論課更直觀的感受了我們學習的內容有什么作用,對我們有什么幫助。也同樣檢查了我們是否真正掌握這些方法,讓我知道在什么情況要做何處理。

第四部分:對信息檢索這門課做個評價,上完這門課,我才知道為什么其他學校同學爭先恐后選修這門課。它比起其他很多課程更具有實用價值,學完即用。學時短,但成效可以非常顯著,現在我已經可以利用學到的很多東西了。但是,上機時間有些短,如果可以再增加兩堂實驗課,再多布置一些題目進行練習,我想可以更好地在課堂中發現自己不知道如何處理的情況和不清楚的方法并處理這些問題。

第三篇:現代信息檢索論文

期末課程論文

論文標題:課程名稱:信息檢索技術課程編號:學生姓名:尹江津學生學號:所在學院:計算機科學與工程學院學習專業:計算機科學與技術課程教師:

文本分類及相關技術研究

1220500 1100310230

2013年7月2 日

文本分類及相關技術研究

信息檢索(Information Retrieval,IR)是研究信息的表示、存儲、組織和獲取的一門學科,其目標是為用戶快速、準確地提供其所需的信息。信息檢索起源于20世紀50年代,在60年代取得了關鍵性進展,其中最著名的是GerardSalton開發的SMART系統以及Cym Cleverdon提出的Cranfield評價方法,SMART系統和Cranfield評價方法有力地推動了信息檢索的發展。在70年代和80年代,多種關于文檔檢索的模型被提出,文本檢索會議(TREC)于1992年開始舉辦,該會議推動了大規模文檔集合環境下的信息檢索技術的發展。隨著互聯網上信息的迅速增加,為了進一步提高用戶信息檢索的質量和效率,網絡上出現了更高效地信息索工具——搜索引擎(Google,Yahoo,Bing,百度等),搜索引擎為用戶在互聯網這個分布式環境下檢索需要的信息提供了極大的方便。

文本分類是一個監督學習過程,它根據一個類信息已知的訓練文檔集合,訓練出文本特征和文本類別間的關系模型,然后通過這個學習得到的模型對待分類文本進行分類。文本分類技術是處理和組織文本數據的重要手段,同時也是信息檢索的重要基礎,把大量的文本信息按主題層次進行組織可以極大地簡化信息檢索的過程,按照類別對文檔進行檢索或對檢索結果進行分類,都可以提高檢索的查準率。由于文本分類技術可以對大量的文本進行分類,文本分類在信息檢索、自然語言處理、垃圾信息過濾、Web挖掘等領域得到了廣泛應用。

一、文本分類概述 1.文本分類的一般過程

數據分類是數據分析的一種重要形式,數據分類通常用兩個步驟:學習和分類。在學習步,分類算法利用訓練數據來構建分類器,訓練數據有多個元組以及與元素關聯的類標簽構成。元組X被表示為n維的屬性向量,每一個元組屬于一個或多個事先定義好的類別,類別由類標號屬性(class label attribute)決定,類標號屬性由離散、無序值構成。由于每一個訓練元組的類標號已知,因此,學習步是一個監督學習過程。學習步可以看作是學習映身函數,函數,對于給定的元組Z該函數可以預測與X關聯的類別標號。文本是數據的一種具體形式,也是語言的實際運用形態,文本在人們生常生活中無處不在,任何有具體一定含義的文字都可以統稱為文本。文本分類系統的任務是:在給定的分類體系下,根據文本的內容自動地對待分類文本進行分類,確定待分類文本的類別。其數學公式表示如下:

其中,A為類信息未知文本的集合,B為分類體系中類別信息的集合文本分類一般包括以下5個過程:文本預處理、文本表示、特征降維、分類器的選取與訓練以及分類結果的評價。

文本分類系統的主要功能模塊為:

(1)文本預處理:為了使文檔的格式滿足分類器的輸入要求,首先需要對原始語料進行處理,將其格

式進行規范化,;

(2)文本表示:將文本分解為基本處理單元,用數學模型來表示;(3)特征降維:降低特征空間的維數,提高分類器的效率和準確率;(4)分類器:選擇合適的分類器并用訓練數據集進行訓練;(5)性能評價:選擇對分類器的性能進行評估的性能評價標準。

2.文本預處理·

自動文本分類的第一步是文本預處理。通常情況下,各種不同類型的文檔的來自不同的領域,從而文檔的存儲形式各異,并且計算機處理的文本不僅包含文字內容,還包含有功能性標簽等不規范符號,文本分類模型不能直接對原始文檔進行處理。必須對原始文本進行預處理,去除其中的噪聲,規范化其形式,從而使文本滿足分類模型的輸入要求。文本預處理是影響文本分類準確度的關鍵因素,文本預處理的主要任務是從原始文本提取主要內容并對其格式進行規范化,一般包括以下幾個步驟:去除文檔中的格式標記、過濾非法字符、字母大小寫轉換、去除停用詞和稀有詞、詞干化處理。

3.文本表示

文本本身不能被直接用來分類,為了使文本能夠輸入到計算機中進行處理,首先應將原始文本轉換為數學模型,然后用計算機對數學模型進行處理。在實際應用中,將原始文本轉為文本向量和詞頻矩陣后,這些數學模型非常龐大,計算機處理時需要花費大量的時間,為了提高處理效率,一般都假設詞語與詞語之間相互獨立,詞語在文本中的位置被忽略,文檔被表示為不同特征項的集合。這種方法被稱為“樸素(Naive)”的方法或“詞袋“模型。文本表示模型主要有布爾模型、向量空間模型以及統計語言模型,雖然這三種模型采用不同的方法來表示文檔,這三種模型都采用了“詞袋”模型的思想。

4.信息增益

信息增益是指某特征項在文本中出現前后的信息熵之差,在機器學習領域中,經常用信息增益來衡量某個特征項的重要性。對于詞語t和文檔類別C,通過統計C中出現和不出現t的文檔數來衡量t對C的信息增益。特征項t的信息增益用如下公式計算:

其中,Pr(Ci)表示在文本集合中屬于白類的文本出現的概率,Pr(t)表示文本集合中包含特征項t的文本在文本集合中的出現概率,Pr(Ci|t)表示在文本中包含詞語f的條件下文本屬于類Ci的條件概率,Pr(t)表示文本集合不包含特征項t的文本在文本集合中的出現概率,Pr(Ci|t)表示在文本中不包含詞語t的條件下文本屬于類Ci的條件概率,m是類別總數。根據公式計算出各個特征項的信息增益后,除去增益值小于指定閩值的特征項,剩余的即為選中的特征;或按特征項的信息增益從大到小排序,刪除信息增益很小的單詞。

二、文本分類方法 1.Naive Bayes方法

Naive Bayes分類方法(以下簡稱NB法)是一種簡單而又非常有效的分類方法。NB法的一個前提假設是:在給定的文檔類語境下,文檔屬性是相互獨立的。假設面為一任意文檔,它屬于文檔類C={cl,C2,.,Ck)中的某一類cj。根據NB分類法有:

對文檔反進行分類,就是按計算所有文檔類在給定di情況下的概率,概率值最大的那個類就是di所在的類,即:

可知,對于給定分類背景和測試文檔,用NB法分類的關鍵就是計算P(Cj)和P(di|cj)。計算P(cj)和尸(硝lcj)的過程就是建立分類模型(或者說學習)的過程。根據.P(dj|ci)計算方式的不同,可以將Naive Bayes方法分為最大似然模型(Maximum Likelihood Model)、多項式模型(Multinomial Model)、泊松模型(PoisonModel)等[ELM03]。

2.使用最大熵模型進行中文文本分類

最大熵模型是一種在廣泛應用于自然語言處理中的概率估計方法,它可以綜合觀察到的各種相關或冪相美的概率知識,對許多問題的處理結果都到這或超過了其他方法的最好結果。但是,將最大熵模型應用在文本分類中的研究卻非常少,本章使用最大熵模型進行了中文文本分類的研究。通過實驗,比較和分析了不目的中文文本特證生成方法,以及使用平滑技術的情況下,基于最大熵模型的分類器的分類性能;將其和Bayes、KNN、SVM三葶爭典墨的文本分類器進行了比較;使用Bagging來提高最大熵模型的分類穩定性。

1).最大熵模型

最大熵模型是用來進行概率估計的。假設a是某個事件,b是事件a發生的環境(或稱上下文),我們想知道a和b的聯合概率,記為p(a,b)。更一般地,設所有可能發生的事件組成集合為A,所有環境組成的集合為B,我們想知道,對于任意給定的aA,bB,概率p(a,b)是多少?

我們抱這個問題放到自然語言處理的領域來討論,對于文本分類問題,一個文檔分到某個類別可以看成一個事件,文檔中出現的詞可以看成這個事件的發生環境,我們想知道包含詞b的文檔屬于某一類a的概率。很容易想到的方法是通過訓練語料進行統計。給定一個訓練集,定義A={a1,a2,A,am)是文檔所屬類別集,B={bl,b2,A,bm}是文檔的特征詞集,num(ai,bj)為疆練集中二元組(ai,bj)出現的次數,那么我們可以使用如下公式進行概率估計:

這個方法有個很大的問題,即“稀疏事件”(sparse evidence)問題,即便是很大的訓練文本,很多

二元縫組(ai,bj)仍然沒有出現,武斷的認為它的概率為0顯然是不可取的。最大熵模型是這樣來解決稀疏事件問題的,它使未知事件的概率分布總是盡可能均勻,即傾向予得到最大熵。例如一個軍事、政治和科技的三類文本分類題,我們得知出現“飛秘”這個詞的、80%的文檔屬于軍事類別,對于“飛機”這個詞在蒺飽兩類中的分布未知。根據最大熵原則,如果給定一個包含“飛機”這個詞文檔,那么認為文檔以0.8的概率屬于軍事類別,分別以0.1的概率屬于其它兩類;如果文檔中不包含“飛機”這個詞,那么認為文檔分別以相同的、1/3的概率屬于每一個類。即,在符合已知約束條件下,使未知事件盡可能均勻。具體來說,根據Shannon的定義,熵的計算公式如下:

那么,求解滿足最大熵原則的概率分布公式如下:

三、總結與展望

文本分類技術是組織和處理文本數據的重要手段,其主要任務是如何在給定的分類體系下,根據文本的內容自動地確定與文本關聯的類別。文本分類可以有效解決大量文本信息歸類的問題,并且是信息檢索、Web挖掘、內容信息過濾等研究的重要基礎。主題模型是概率模型,由于主題模型可以捕獲潛在的語義結構信息,主題模型在文本分類、信息抽取、觀點挖掘等文本挖掘任務中的應用得到了較深入的研究。

本文對文本分類進行了研究,介紹了文本分類的一般過程與關鍵技術,主要包括:文本預處理、文本表示、性能評價指標,同時還對主題模型PLSA、LDA、sLDA和iTopicModel的構建方法和參數估計方法進行了介紹。針對已有的監督主題模型與基于機器學習的文本分類算法假設文檔之間相互獨立、不能有效利用文檔間的關聯關系的問題,提出了監督關聯主題模型SRTM和關聯文本分類算法TC.iTM。為了利用利用文檔間的關聯關系來提高監督主題模型的預測準確度,我們基于iTopicModel提出了監督關聯主題模型SRTM,將文檔間的關聯關系、文檔的文本信息、文檔的標號進行統一建模,首先用古典線性回歸模型對文檔標號進行建模,給出SRTM的聯合概率分布,通過EM算法最大化聯合概率分布的對數似然對SRTM的參數進行估計,然后用Fold.In[54]方法對訓練數據以外文檔的標號進行預測。最后我們用廣義線性模型對文檔標號進行建模,對SRTM進行擴展,使SRTM可以處理多種類型的文檔標號。Cora研究論文分類數據集和電影評論數據集上的實驗表明,在文檔網絡中,SRTM的預測結果要優于現有的監督主題模型。

參考文獻: [學位論文] 姜英杰,2010鄭州大學:計算機系統結構

[學位論文] 劉欣,2010重慶大學:計算機科技與技術

[學位論文] 陳樹清,2010南京理工大學:計算機應用技術

第四篇:信息檢索教程學習報告

信息檢索教程學習報告

一.學習自我評價

剛開始接觸信息檢索這門課覺得很茫然,因為從來沒有接觸過,甚至聽說過,所以對這門課很有興趣,有知識的好奇才是學習的原動力,所以我比較認真的聽課,通過這一學期的學習多多少少還是對這個學科有一點了解,隨著現代信息技術的快速發展,信息數量呈爆炸性增長,信息的存儲和傳播方式發生了巨大的變革,而信息的雜亂性、無序性、分散性無疑加大了查找和利用信息的難度,影響了獲取信息的質量和效率。于是信息檢索便應運而生,而通過這一學期的學習,我掌握了信息檢索的方法和技巧,提高了自己的學習效率,提高了自己解決問題的能力,最主要的還是給生活上提供了很大的方便,最基本的,查找信息的時間大大減少這都得益于信息檢索這門課和尚老師的教導,而自己在學習上也比較認真和努力,所以說也算基本掌握了這門課的主要內容,而在生活上的種種收獲更讓我覺得知識的,通過尚老師的教授和自己對這門課的學習,提高了自己的素質,也十分感謝。

二.課堂學習收獲

信息檢索這門課總共包括九章,雖說每一章內容不一樣,但是核心卻是一樣的,都是服務生活,信息的客觀,時效,傳遞,共享這些屬性讓我們更全面具體的了解了信息,作為一個喜愛瀏覽雜志期刊的學生,第四章給我很大的幫助,了解了檢索期刊的途徑和工具,更是了解到期刊全文數據庫,以及檢索方法,而通過第五章的學習,更是給我們平時的學習生活提供力很大幫助通過對學術論文的了解,以及對論文檢索方法和技巧和地方的學習,給現在提供了很大幫助,耿鬼以后的畢業論文打下了基礎,而國外論文的學習更是豐富了我們的學習生活,各種科技報告和文獻的學習也是、對我們幫助很大,七八章的學習更是讓我們平時的生活豐富和方便,最后我們還有兩百道題的學習鞏固,更是讓我們收獲很多,增長見識,讓自己在如今的社會中取得一定的優勢。

三.上機實驗收獲

上機是對所學知識的應用實踐,是鞏固提高我們所學知識的手段以及最佳方法,在上機中我們通過網絡對老師要求的內容進行檢索,讓我們對所學知識進行深化,通過布爾邏輯方式,特定文件類型檢索,精確匹配——雙引號,把搜索范圍限定在特定站點中——SITE等好幾種方式去檢索。使我熟練的掌握了這幾種檢索方式,提高了我的檢索技能。堅持實踐和課堂相結合更是讓我收獲良多

四.檢索課程評價

帶著好奇與求知去學習是最好的動力,如今的生活信息與我們息息相關,我們每天都在與信息打交道,通過這一課程的學習,讓我通過反覺器官接受外界各種各樣的信息,更是通過很多方式傳遞,而通過這一學期的學習讓我不僅能更快捷的收索到信息,而且讓我們能更準確的傳遞信息,不僅方便了我的生活,也提高了我的學習質量與效率,所學到的知識與技術更是能讓我一生受用,知識改變命運

第五篇:信息檢索報告

2017-2018學年第1學期 《信息檢索與利用》實習報告

院部 : 年級: 2015專業: 姓名: 學號: 20150070214 任課教師:

商學院 級 電子商務 李亮 張燕

一、信息檢索概論

1.課題名稱: 電子商務物流問題及對策研究

2.課題分析:

21世紀是一個以網絡為核心的信息時代,以網絡為平臺以信息技術為基礎的電子商務(E-Commerce)方興未艾。數據顯示,2012年我國電子商務市場交易總額突破8萬億元。而根據《國務院關于促進信息消費擴大內需的若干意見》預測,我國到2015年電子商務交易額將超過18萬億元,以卓越亞馬遜、淘寶商城、新蛋網、凡客誠品、當當網、京東商城等為代表的B2C電子商務成為時下電子商務的主流。于此同時,B2C電子商務的發展也對現代物流業提出了新的更高標準的要求,低質量高成本的傳統物流已難適應新的要求。在國際物流領域,通常把社會物流總成本的GDP占比作為衡量一國物流運轉效率的重要指標,雖然我國B2C電子商務快速發展,但這一指標從2004年的18.8%到2007年的18.4%再到2012年的18%,沒有明顯的改善,與發達國家(10%以下)之間的差距仍舊很大。我國物流配送時效低、資源浪費極其嚴重的弊端越來越突出,此外逆向物流及其相關的各種問題也被提出并受到廣泛關注,物流不能滿足B2C電商發展需求。因此通過深入分析B2C電子商務環境下我國物流業發展的外部環境和現狀,積極探索物流業發展的新問題新挑戰,全面調整其發展策略以適應B2C電子商務的迅猛步伐,將對物流業自身的長遠發展大有裨益。

3.確定檢索詞:

電子商務 物流問題 對策 分析

4.利用計算機運算符編寫檢索式: 電子商務 and 物流問題 and 對策 or 分析

二、中文檢索系統

1.根據所選課題進入CNKI數據庫檢索(1)一般檢索:共 1191 篇

(自主選擇一篇期刊論文給出題錄信息)題名:電子商務物流配送存在的問題及對策分析 作者:孟強

作者機構:黑龍江大學信息管理學院 文獻來源: 企業經濟

該題錄源刊影響因子: 復合影響因子 0743 綜合影響因子 0451(自主選擇一篇碩博論文給出題錄信息)

題名:湖北省電子商務物流服務業發展現狀及對策研究 作者:詹杰

作者機構:華中師范大學 文獻來源: 物流服務業(2)高級檢索:共 120 篇

(自主選擇一篇碩博論文給出題錄信息)

題名:王峰

作者:首都經濟貿易大學 文獻來源: 物流管理

2.超星數據庫檢索:檢索與課題或專業相關圖書(選擇一本圖書并寫下圖書的題錄信息)書名:電子商務物流 作者:周長青,付蕾 出版日期:2017.01 中圖分類號:F713.365.1

3.讀秀數據庫檢索: 設定“知識檢索”,檢索相關文獻,將檢索結果截圖。

三、特種文獻檢索

1.專利:檢索與課題或專業相關或相近文獻

專利數據庫名稱:CNKI 檢索結果: 共 4652 篇

(自主選擇一篇專利文獻寫出題錄信息)發明名稱:一種電子商務物流提醒系統 發明人: 陳欽鵬

申請號:CN201710304448.6 申請日:2017-05-03 公開號:CN107146054A 公開日:2017-09-08 申請人:王海駿

2.標準:利用知網檢索有關食品安全的標準文獻并選擇一篇寫下題錄信息。標準編號:GB/T 2200-2006

標準中文名稱:食品安全管理體系.食品鏈中各類組織的要求

中標分類號:X00 標準狀態:中國標準

四、外文檢索系統

使用eric或science direct數據庫自擬課題進行檢索 1.將檢索結果界面截圖

2.檢索結果:共 2902 篇(自主選擇一篇寫出如下信息)

題名:A Delve into the Deployment of eCommerce and Higher Educational Learning

作者:Djoleto, Wilhelmina

五、思維導圖軟件與文獻管理軟件

1.根據所選課題利用思維導圖軟件Free mind構圖,并將結果截圖或直接手繪思維導圖。

2.安裝文獻管理軟件E-study,并將學習單元建立界面截圖。

六、綜述

實習報告做完之后,結合課題,根據檢索信息,寫出綜述文獻上交。(200-300字左右)

在本次信息檢索與利用實習報告結束后,我再次了解了電子商務物流問題,電子商務物流是最近幾年的新興產業,同時在電子商務物流系統中,也存在著許許多多的問題。

物流成本問題是我國B2C電子商務物流發展所要解決的首要問

題。物流成本過高,使得B2C電商企業和物流企業的經濟效益明顯下降,而整個物流系統的整體效益也不高;逆向物流問題是我國B2C電子商務物流發展的新問題。缺乏系統性的退貨流程使得逆向物流效率低下,尚未實現信息化的處理方式使得逆向物流效益低下,不完善的退貨政策使得退貨物流的服務水平低下,而不健全的逆向物流模式又使得逆向物流的發展成為一個難題。如此“三低一難”的逆向物流問題已經成為我國B2C電子商務物流進一步發展的瓶頸。

要解決以上我國B2C電子商務物流發展問題就必須從多方面下手。強化物流法制建設,深化物流理論研究,加強物流基礎設施建設,合理選擇物流模式,革新物流管理方式等是當前形勢下所必須采取的措施,只有這樣才能保證我國B2C電子商務物流的穩態良性發展,保證B2C電子商務物流滿足B2C電子商務發展對物流服務的基本需求,從而保證國民經濟整體保持又好又快的發展形勢。

在撰寫實習報告過程中,我發現檢索式的書寫和檢索方法是一個有許多技巧的過程,通過跟老師的學習我只掌握了一部分,后面又跟同學們探討學到了一些技巧,以后我會更加努力學習文獻檢索的技巧以充實自己。

通過這一個學期跟隨老師的學習,我學到了很多實用知識。我前后一共學到了CNKI、超星數字圖書館、中國專利信息網、中國標準全文數據庫、國家知識產權局等數據庫的應用,學會使用這些數據庫對我以后在查找文獻方面提供了很大的便利。

總之,我對信息檢索這個課程有了更加深刻的了解,也對如何選

好關鍵詞這個重點、難點有了一定的掌握。在這個信息時代,我們必須盡可能多地掌握更多的信息,盡可能地充實自己,完善自己,同時,也在此向我的恩師張燕老師以及所有在我論文寫作過程中給予我幫助的同學致以深深的感謝!

下載現代信息檢索學習報告word格式文檔
下載現代信息檢索學習報告.doc
將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
點此處下載文檔

文檔為doc格式


聲明:本文內容由互聯網用戶自發貢獻自行上傳,本網站不擁有所有權,未作人工編輯處理,也不承擔相關法律責任。如果您發現有涉嫌版權的內容,歡迎發送郵件至:645879355@qq.com 進行舉報,并提供相關證據,工作人員會在5個工作日內聯系你,一經查實,本站將立刻刪除涉嫌侵權內容。

相關范文推薦

    信息檢索報告

    信息檢索報告姓名:袁章潔學號:1112040014農業科學學院土地資源管理專業A類:圖書檢查一、檢索課題1、課題名稱:牛奶保健2、課題分析本類圖書主要在醫藥衛生范疇之內,主要研究牛奶......

    信息檢索報告

    《全國報刊索引》檢索報告 姓名:許先強班級:09級工商管理一班學號:09103011041 檢索課題:創新型企業人才培養方法 檢索工具:《全國報刊索引》(社會科學技術版) 檢索途徑:分類途徑 檢......

    現代信息檢索題目及

    《現代信息查詢與利用 》參考題目一、 每一位同學從以下題中選擇一題來做,也可以自擬題目: 城市下崗工人工作生活狀況促進城鄉義務教育均衡發展問題大型賽事對城市發展的影響......

    信息檢索學習報告(5篇模版)

    學習報告 這學期我們學習了一門實踐性很強的課程——《信息檢索與利用》,通過老師的指導掌握了信息檢索的理論知識、各類文獻信息資源知識、了解了信息組織原理、掌握了檢索......

    信息檢索實習報告

    信息檢索實習報告 學院: 經濟與管理學院 班級: 信息管理與信息系統專業102班 姓名: 方慶德學號: 2010094058 指導教師:理論教師:劉莉實踐教師: 劉卓然 日期:2011-10-31 一......

    信息檢索綜合報告

    目錄 第一部分 課題分析 ................................................. 2 第二部分 檢索策略與結果 ........................................... 3 一、中文數據庫......

    大學生信息檢索報告

    檢 索 報 告 學院:專業:學號:姓名:- 1 網絡信息安全特征 保證信息安全,最根本的就是保證信息安全的基本特征發揮作用。因此,下面先介紹信息安全的5 大特征。 1. 完整性 指信息在傳......

    文獻信息檢索報告

    文獻信息檢索報告一、課題概述 1.課題研究的現狀: 2.課題研究的意義:。 二、檢索步驟: 1.課題分析: 學科范圍: 主題: 檢索年限: 中英文關鍵詞: 2.制定檢索策略 檢索工具的選擇 3.輸入檢......

主站蜘蛛池模板: 岛国在线观看无码不卡| 99精品视频69v精品视频| 2019国产精品青青草原| 国产中文字幕乱人伦在线观看| 97夜夜澡人人爽人人| 99久久国产综合精品五月天喷水| 性欧美大战久久久久久久久| 免费国产裸体美女视频全黄| 久久久久久久久888| 欧美大胆老熟妇乱子伦视频| 成人无码一区二区三区| 久久国产乱子伦精品免费乳及| 亚洲精品无码久久久久秋霞| 99久久精品费精品国产| 亚洲丁香五月天缴情综合| 国产精品人妻一码二码尿失禁| 国产成人精品亚洲一区| 护士张开腿被奷日出白浆| 亚洲欧美中文字幕5发布| 亚洲欧美精品一中文字幕| 日本护士╳╳╳hd少妇| 蜜桃av无码免费看永久| 日韩亚洲欧美中文高清在线| 亚洲一区二区| 精品第一国产综合精品aⅴ| 99久热在线精品996热是什么| 狠狠色丁香婷婷综合| 一区二区三区国产亚洲网站| 国产清纯在线一区二区| 亚洲中文字幕精品一区二区三区| 十八禁免费观看| 国内精品免费久久久久电影院97| 夜夜未满十八勿进的爽爽影院| 无套内谢孕妇毛片免费看| 男女超爽视频免费播放| 亚洲成熟女人毛毛耸耸多| 未满十八18禁止免费网站| 中日精品无码一本二本三本| 国产精品99久久久久久久久久久久| 一本一本久久a久久精品综合| 国产精品久久国产精麻豆99网站|