久久99精品久久久久久琪琪,久久人人爽人人爽人人片亞洲,熟妇人妻无码中文字幕,亚洲精品无码久久久久久久

化學化工信息檢索論文

時間:2019-05-15 10:59:02下載本文作者:會員上傳
簡介:寫寫幫文庫小編為你整理了多篇相關的《化學化工信息檢索論文》,但愿對你工作學習有幫助,當然你在寫寫幫文庫還可以找到更多《化學化工信息檢索論文》。

第一篇:化學化工信息檢索論文

學習化學化工信息檢索后的收獲

段志寬

化學化工學院

化學(師范)二班

20100512

摘要:本文概述了學習化學化工信息檢索后的收獲,主要從轉變思想觀念、認識到化工信息檢索的重要性、掌握信息檢索的方法和步驟以及對今后學習化工信息檢索的規劃四方面進行論述。

關鍵字:化學化工

信息資源

檢索

收獲

通過一個學期對化學化工信息檢索與利用的學習,在老師的指引下感覺自己在檢索方面得到很大的提高,徹底的改變了自己以前錯誤的檢索思想觀念,漸漸的認識到化學化工信息檢索在學習、生活、事業以及科技中的重要性。學習完這門科目得到收獲主要體現在一下幾方面。

一、接觸到化學化工信息檢索后轉變自己的網絡搜索思想觀念。

隨著互聯網的普及和發展,剛開始對網絡信息雖然有一定的了解,但是碰到問題一般都使用大家常用的搜索引擎和多媒體資源,一般都能得到自己想要的基本結果,因此心中有個概念;baidu、biying、google 是萬能的信息資源,依靠常用的搜索引擎資源就能解決一切問題,沒有必要學習文獻檢索課程,甚至認為有點浪費時間和精力。但是經過老師一周課的講解下來,感覺自己的想法是無知的。通過對本書的學習使我認識到:

(1)二十一世紀是一個以信息為主的社會。這是人類經由原始社會、農業生產社會、工業生產社會、進入更高層次的信息生產與交流的社會。任何人和行業都無法回避和拒絕對信息的檢索、接收和交流,既是信息的生產者,又是信息的接收者和傳遞者。各種信息匯聚成廣博而洶涌的信息流,沖擊和推動著社會的各行各業的發展。化學化工信息僅僅是這信息流的一個支流,同時又與其他學科的信息互相滲透、交流。信息的增長和廣泛已超出人們的想象和領受能力,人們不得不對信息進行分類和篩選,從中獲得自己所關心的及與此相關聯的具有應用價值的信息。因此,人們首先提出一個命題,然后按照一定的規律和程序向信息的海洋撒開大網,“撈取”與命題相關的信息,既要廣博而不疏漏,又要快速準確而不繁雜混亂,這就是科學的信息檢索方法。

(2)化學化工學科是一個以實驗和應用為主的學科,是以科學實驗的現象和數據為基石的學科。若想解決一個化學化工的“問題”或確立一個化學化工的“命題”,則必須查找與此相關的化學化工信息。從而了解“問題”的過去、現狀以及可能解決問題的幾種途徑。.二、認識到化工信息檢索在各領域起著積極的作用。

信息檢索是存儲和查找信息的方法和手段,它能幫助人們從浩如煙海的信息海洋中迅速、準確、全面地查找到所需要的信息,從而能夠充分地利用它們。可以說,信息檢索的主要作用在于它能有效提高人們捕捉信息和利用信息的效率。其主要體現在以下幾方面:

(1)信息檢索在科學研究中起到承前啟后的作用。科學技術的發展是具有一定繼承性和延續性的,幾乎任何一項發明創造都需要積累大量前人的理論經驗資料,再通過分析、總結和升華才能進行新的探索,并有所突破。因此,掌握信息檢索技術,以便能快速、準確地完成科技信息積累工作和及時獲取到最新術,以便能快速、準確地完成科技信息積累工作和及時獲取到最新科研動態信息,對科技工作者來說意義十分重大。

(2)信息檢索能使科研工作達到事半功倍的效果。信息的存儲和檢索過程使雜亂無章的大量信息有序化,并提供快速查閱的技術手段。科研人員一旦掌握了各種檢索方法,便能以盡可能少的時間和精力完成大量的資料積累工作,大大提高工作效率。

(3)信息檢索能使信息資源得以充分的開發和利用信息的存儲實質上就是信息的采集、加工、分析、整理及優化的過程,它使人類豐富的智力資源得以深層次的開發;信息的檢索即是信息資源被充分利用的捷徑。因此,信息的存儲與檢索工作會帶來顯著的社會效益。

(4)信息檢索有利于實現資源共享現代信息檢索與網絡通訊技術的高度結合,使數量加速增長、更新頻繁的科技信息得以及時的傳播和交流,而且真正實現了資源共享,這是促進人類社會科學技術發展的有效手段。

(5)信息檢索是提高人們生活質量的“促進劑”國際互聯網絡的全球普及以及網上信息的與日俱增,直接影響著人們的日常生活。衣食住行的諸多繁瑣問題通過網絡就能迎刃而解,坐在家里便能“行走天下”,這已經逐步成為現實。網上信息如此豐富,人們要想從中搜索到各自所需,就必須掌握現代信息檢索技術。化學化工信息檢索就是建立在信息存儲與檢索理論基礎上的化學化工專業及其相關專業信息的檢索過程。化學化工信息檢索是隨著化學化工文獻信息的日益增長而逐漸發展起來的,如今,無論在手工檢索還是計算機檢索方面,化學化工信息檢索系統和檢索技術都處于比較領先的地位。

三、學會基本檢索策略的步驟和方法

(1)系統分析檢索課題的內容實質。包括明確檢索目的和具體要求,需要查找的文獻信息的出版類型、文種、時間范圍,以及課題的學科領域、專業范圍、文獻信息外表特征的已知信息等,并對課題進行概念分析,析出主題概念。

(2)在分析課題的基礎上,確定檢索系統。目前,計算機檢索系統種類繁多,檢索者在根據課題需要選擇檢索系統時,不僅要了解其信息收錄的內容范圍、文獻類型和時間范圍、檢索功能強弱、使用方法等情況,還要考慮所需費用的高低以及自己具備的檢索條件、計算機技術條件等。選擇一個切合實際的信息檢索系統,是檢索成功的先決條件之一。

(3)確定檢索方法。根據檢索課題的檢索目的和時間范圍,以及檢索系統所提供的數據庫存儲文獻信息的全面性,確定合適的檢索方法,使檢索過程有序化。

(4)確定檢索途徑。在數據庫信息集合中是以記錄為存儲單位的。一個信息記錄包含若干個字段,包括主題詞字段、分類號字段、題名字段、文摘字段、著者字段、文獻類型字段、出版者、出版地及出版時間等等字段,每一個字段都是可檢索字段。也就是說機檢中的檢索途徑與字段相對應,超過目前手工檢索所能提供的途徑,例如,出版者、出版時間、文獻類型等都可以作為檢索入口,而且各種途徑還能組配起來,進行交叉檢索。因此,確定機檢檢索途徑需要先了解數據庫文獻信息記錄的字段組成,即有哪些檢索字段。不同數據庫的字段組成都有所區別,根據數據庫提供的檢索字段和檢索要求確定合適的檢索途徑,而且要注重多途徑檢索。

(5)確定檢索詞,明確各詞之間的邏輯關系,構造提問表達式。在確定檢索途徑的基礎上,確定檢索用詞。

(6)輸入提問表達式,對數據庫文檔進行檢索,查找出相關文獻信息,并予以分析篩選。

(7)如果尚未達到檢索需求,可以對提問表達式進行修改,或調整檢索途徑等其他環節,重新檢索,直到達到檢索要求為止。

(8)索取原文。一般情況下,利用檢索工具查找到的是一次文獻信息的線索,而能否根據其提供的線索獲取到原文,是達到最終檢索目的的關鍵。大多數檢索工具為了縮小篇幅,常用縮寫形式代表引用文獻的全稱,因此,檢索者要利用檢索工具提供的有關縮寫名稱對照表等工具,查明原文的具體出處,然后利用各種館藏目錄和聯合目錄查找其館藏單位,并與其聯系索取原文。

四、今后學習網絡信息檢索的規劃。

(1)在閑暇時間里經常翻閱有關信息檢索課本。信息檢索課本基本涵蓋了作者學分析檢索的方法和策略,通過學習能更好的掌握、學習前人的經驗以及吸取其精華,達到事半功倍的效果。閱讀過程中可以適當記錄一些作者提供的有用資源網站,便于自己以后需要時的使用和查詢。

(2)充分利用學校圖書館網絡資源。未接觸到這門課程前,英語的六級真題一般都通過百度搜索然后進入相應網站下載,有時可以下載下來但運氣不好時,可能會需要金幣、積分等約束條件。自從老師點擊進入學校網站首頁,點擊“圖書館藏”進入“中文電子資源”的“銀符考試系統”,進入分類目錄,有“真題和模擬題的語言類、計算機類、公務員類、法律類、經濟類、工程類”,點擊“語言類”的“大學英語”,進入其目錄中就可以看到“大學英語六級”,單擊進入就可以看到各年份考過的英語六級資料,不但可以下載還可以在線做題,省去大量的精力。因此,熟悉自己學校的網上圖書館,有利于充分利用學校資源同時也提高自己檢索效率。

(3)遇到檢索難題多向周圍朋友或老師咨詢。出現問題并不可怕,可怕的是自己不能解決問題而任其自然。其實當碰到檢索問題向周圍的人求助得到自己想要的結果。就拿百度文庫來說吧,有時下載期刊需要財富值,也許就是你一個煩惱的問題,但是有些人就知道進入“小木蟲”網站搜索就可以得到網友免費提供的文庫。

參考文獻:

[1] Hock,Randolph.The Extreme Searcher’s Guild to Web Search Engines: A Handbook for the Serious Search(2nd ed.).Medford , NJ;CyberAge Books ,2001 [2] http:// searchenginewatch.com [3] 李夢龍等.Internet 與化學信息導論.北京:化學工業出版社,2001 [4]余向春.化學化工信息檢索與利用.大連:大連理工大學出版社,2008

第二篇:信息檢索論文

《現代信息檢索》課程心得體會

摘要:為了培養大學生對科技信息資源檢索與利用的能力,我校開設了現代信息檢索這門課程。人文社科學院11策劃班在本學期開設的這門課程,通過8周的學習,我們掌握的大量有關信息檢索方面的知識,同時本人對于此次課程學習也有一些感想和心得。這些對于我們未來的學習都有很大的幫助。

關鍵詞:信息檢索、課程學習、心得體會

在信息爆炸的2l世紀,面對海量信息包圍的困境。除了智商、情商。決定人生成敗與否的關鍵因素是什么?是搜商——人類一種通過工具獲取新知識的能力(搜索能力)。因此具備敏感的信息意識,掌握先進的信息檢索技術,并能熟練利用各種豐富的信息資源,成為高等院校培養的跨世紀人才所必備的知識和技能。為了培養大學生對科技信息資源檢索與利用的能力,我校開設了現代信息檢索這門課程。這是一門實用性和操作性很強的課程,以介紹各種信息資源的檢索方法和檢索技巧為主要內容,是培養大學生的學習能力、動手能力及創新能力的重要工具課程,同時能使大學生在短時間內從海量的信息資源中找出符合自己需求的科技信息。作為大四學生的我們即將迎來畢業,隨之而來的是畢業論文的撰寫,通過這門課的學習,我們學會了論文的收集與整理。下面我從幾點來闡述我對這門課程的理解與感受:

一、大學生信息素質教育的現狀

《現代信息檢索》課的重點是掌握檢索知識和檢索方法,利用網絡和虛擬數據庫等信息資源,運用檢索工具查閱文獻信息,獲取所需的文獻資料。但如何將這些文獻信息轉化為更有價值的知識,如何將信息檢索與大學生科技創新緊密結合起來,促進人才的創新培養,仍然是有待進一步解決的問題。就我們學校而言,如果不是開設這門課程,我們大多數情況下都是自己摸索著進行信息檢索,并且只會一些簡單的檢索方法。通過這門課的學習,我發現這門課的實際用途還是挺大的,不管是進圖書館借閱書籍還是對于論文的撰寫都有很大的幫助。

二、大學生信息素質教育的目標

大學生信息素質教育著力提高學生敏感主動的信息意識,加強學生對信息的敏感程度才能使其自覺地捕捉、分析、判斷和吸收信息,將潛在的信息需求表達出來,并實施具體的信息行為。同時也會提高學生獲取信息的能力,制定科學的檢索策略,通過各種檢索途徑,用不同的檢索方法獲取信息。最后有利于終身學習和信息創新能力的發展,信息的獲取、分析評價和利用能力是終身學習必須具備的能力,只有具備了這樣的能力才能實現終身學習的目的。

三、本學期學習的情況

由于課程開設在大四上學期,我想主要是為了我們畢業論文的撰寫和未來的長期發展做準備的。理論課,我們主要學習了關于信息的概念、信息檢索原理、檢索語言、檢索技術、檢索策略等理論知識,老師的講解讓我們充分的理解了有關信息檢索方面的知識。理論課程之間也穿插著實踐課程的學習,我們進入圖書館閱覽室,以4人為一小組的形式進行實踐操作。我們根據題目要求進行檢索,在這個過程中老師給予了我們很大的幫助。

最后一次的實踐課程我們進入機房進行網上信息檢索。由于互聯網的發展和普及,也要求我們對互聯網信息資源搜索有一定的了解。我們重點學習了國內主要的信息檢索系統:維普、中國知網、萬方和超星數字圖書館,以及特種文獻檢索系統(專利文獻、會議文獻和學位論文等)的使用。我們在做題的過程中全面地進行信息搜索,進行綜合分析了解了一些要求,如注明參考文獻、檢索方法和檢索步驟等。

上機實際操作的課程,讓我們自己獨立制定檢索策略,包括檢索詞的擬定、檢索字段的選擇、檢索式的構建、檢索年代的限定和檢索方法的選擇等,然后進行具體的檢索操作、檢索結果評價分析。根據分析結果重新調整檢索策略,直至最終得到滿意的檢索結果。課題檢索完成的過程中.我們將檢索策略、檢索步驟和檢索結果寫在word文檔中,形成檢索報告,以此來呈現我們的學習效果。整個實踐的過程讓我們體會到選擇檢索詞不是一蹴而就的,而是一個反復修正的過程,只有這樣才能很好地完成一個檢索課題。同時我們也與老師進行了交流,可提高了我們的知識面和參與度。此外通過上機,我們在練習過程中能夠檢索到大量的學科專業信息,讓我們經歷檢索課題的全過程。學會分析課題和調整檢索策略,使我們的檢索技能得到全面提高,同時可也激發了我們強烈的學習欲望和科研興趣。

四、信息檢索與畢業論文開展

畢業設計和學位論文作為一種學習、實踐、探索和創新相結合的綜合教學,它是對大學生所學知識深度和廣度的全面檢驗,是大學生信息素養水平高低的綜合體現。而信息資源的占有情況.直接關系到科技論文水準的高低。因此在大四上學期學校給我們開設的這門課程,有效的提高了我們對于畢業論文撰寫的認識。從原來不知道怎么寫,應該從哪收集資料,到現在會運用適當的檢索工具進行檢索,我們對于畢業論文的撰寫已經有了一個很好的開始。

五、結語

信息檢索課作為高等學校提高學生信息素質,培養學生創新精神和科研創新能力的主要課程,承擔著培養學生查找和獲取知識的信息能力的任務。本文針對現階現代信息檢索課程開設的現狀、目標以及自己的一些感想和心得體會,以期對該課程未來的學習有所幫助。

參考文獻:

[1] 方彩霞.實用科技信息資源檢索與利用課程的教學探索[J].科技視界,2012,,(9):68—69.[2] 王麗蕊.高校信息檢索課程教學現狀與改革研究[J].科技資訊,2012,:(26):225.[3] 湯凝.《科技信息檢索》教學新模式的研究[J].江蘇技術師范學院學報,2011,,17(7):78—81.

第三篇:信息檢索論文

應用化學

化學與化工信息檢索論文

題目:造紙污水處理技術現狀及進展

學生姓名------學號--------專業應用化學指導教師----

2010年12月 25日

造紙污水處理技術現狀及進展

摘要:本文在查閱相關資料的基礎上,介紹了國內外的造紙廢水處理的常用方法,并對各種方法進行了評價和分析,綜述了造紙廢水處理研究的現狀和進展。

關鍵詞:造紙;廢水處理;治理技術

隨著造紙工業的迅速發展,造紙工業廢水已經成為水環境的重要污染源之一。在造紙過程中,除纖維素和部分半纖維素之外的大量有機物要進入廢水中,并且即使經過充分的廢液回收利用,也還是或多或少地會有一些纖維素和半纖維素流失進入廢水中。含有大量有機物的造紙廢水排入水體,對水體會造成不同程度的污染。同時造紙過程中通常還需要加入一些必要的化學藥劑和化學助劑,這些物質流失進入水體中更是加重了水體污染[1]。造紙工業的漂白工段通常是采用含氯化合物漂白,導致排出的漂白廢水中含有大量的氯化有機物,其中的氯苯酚、氯化脂肪酸、氯化樹脂酸、dioxin等有毒且難以處理的氯化有 機物,對環境中的生物具有強烈的毒害、致畸、致多發性腦神經病變作用[2],因此如何有效地去除造紙廢 水中的含氯有機物已經成為廢水處理的一大難題。本文在查閱大量文獻資料的基礎上主要介紹國內外處理造紙廢水的方法和新技術,并就國內外治理造紙廢水的現狀和未來的發展前景加以評述。

1概況

據經貿委粗略估計,目前我國大小造紙廠約有近萬家。造紙工業總的特點是:使用原料種類多、生產工藝類型多、中小企業多、技術裝備落后者多。調查統計表明,造紙工業廢水年排放總量達17億t,占工業廢 水總排放量的10以上。造 紙工業廢水主要包括黑液或紅液(蒸煮制漿廢水)、中段廢水(制漿洗滌、篩選、漂白廢水)、造紙 白水(抄紙廢水)三大類,其中蒸煮黑液的環境污染最為嚴重,占整個造紙工業污染的90%。制漿廢水 BOD、COD、SS、pH、色度、濁度等均嚴重超標;中段廢水成分與制漿廢水相近,但濃度低,富含漂白工段產生的對環境危害最大的有機氯化物;抄紙廢水中主要含有細小纖維、填料(高嶺土等)和膠料(松香等),BOD值較低。造紙工業廢水的治理是國內外造紙行業亟待解決的難題[3]。

2治理方法

2.1物理化學法

物理化學法是通過物理或者化學反應的作用來達到去除廢水中的污染物的目的,主

要有以下方法:

2.1.1臭氧法

臭氧氧化技術已問世多年,近年來,由于低成本的臭氧發生裝置和臭氧處理裝置的出現而重新成為研究熱點。臭氧(O3)是一種強氧化劑,O3作為兩性離子,能選擇性地分解發色基團。安郁琴[4]將經過化學混凝處理后和經過化學混凝過濾吸附處理后的麥革漿黑液利用臭氧法處理,處理 20分鐘后脫色率可以達到 82.1%,但 CODCr去除率僅 15.8%,BOD5去除率為24.8%,Ff1此可見,臭氧脫色效果顯著,但對 CODCr和 BOD5的去除效果不明顯。臭氧在水中的溶解度較低,如何更有效地使臭氧溶解于水中從而提高其利用率已經成為該技術研究的熱點。使用臭氧法也會產生其它副產物,其中最受關注的是羰基化合物中的醛類,比如甲醛、乙醛,這些物質具有急性毒性和慢性毒性,并具有一定的致畸、致癌、致突性。

2.1.2光催化氧化

光催化氧化技術是近年來比較活躍的研究領域,光催化氧化技術是在光化學氧化技術的基礎上發展起來的。張志軍等[5]利用中壓汞燈作光源,研究了氯代二苯并一對一二啞英(CDDS、包括DCCD、PcDD和OCDD)在 TiO2催化下的光解反應,在室溫下,4h內DCCD、PCDD和OCDD分別降解87.2%、84.6%和91.2%。M.Cristina Yeber等

[6]將 TiO2、Zno同定在玻璃上,對漂白廢水進行了光催化氯化處理,處理 120min后,廢水的色度可完全去除,總酚含量減少了85%,TOC減少了50%,處理后殘留有機物的急性毒性和AOX比處理前大為減少,高分子化合物幾乎全部降解。

2.1.3混凝法

混凝法是目前國內外重點研究的方向之一,該法適應性強、基建投資低、管理簡單,是水處理常用的方法,在造紙行業的廢水處理中使用普遍。造紙廢水中由于含有大量纖維和化學藥劑,所以一般在處理造紙廢水時首先要用混凝法除去這些物質。張學洪、解慶林[9]等利用聚合氯化鋁處理廣西某造紙廠的造紙終端廢水(CODcf=400mg/L),處理后可以達到國家污水排放標準(CODcf<100 mg/L)。黃國林、樂長高等[1O]利用水溶性酚醛樹脂和硫酸反應得到的聚合物處理撫州某造紙廠制漿車間排污口的廢水,在最佳工藝條件下反應時,CODc和ss去除率分別可以達到80%一85%和 90% 一95%,處理水可以達到排放標準。

2.2 生物法

廢水的生物處理方法就是利用微生物的新陳代謝功能使廢水中呈溶解狀和膠體狀的有機污染物被降解并轉化成無害穩定的物質,使廢水得到凈化。生物法處理廢水因其運行成本低,效果較好而在廢水處理中得到了廣泛應用。造紙廢水中含有大量有機物質,廢水的可生化性較好,可以為生物法的微生物提供大量的營養物質,從而能保證微生物的正常生長繁殖和生物法處理廢水的正常運行。利用生物法對造紙廢水進行二級處理可有效去除BOD、COD。造紙廢水生物處理法主要有以下幾種:

2.2.1好氧生物處理法

利用好氧微生物(主要為好氧菌)的新陳代謝作用來降解污染物,其中應用最多的主要是活性污泥法,我國的科研人員對活性污泥法處理造紙廢水進行了大量的研究,取得了許多成功的經驗。造紙廢水中的木素是不易生物降解的物質,活性污泥對木素具有極好的吸附性能,通過生物降解和活性污泥吸附作用,可達到除去木素的目的,從而降低溶解木素的濃度。芬蘭OULU紙漿廠[11]利用活性污泥法加污泥曝氣再生處理漂白硫酸鹽紙漿廢水,可使BOD去除率達 90%,COD去除率達84%。活性污泥法由于其處理成本低、易于管理、處理效果較好而在廢水處理中的應用越來越多。

2.2.2生物膜法

相對于活性污泥系統而言,生物膜系統具有如下顯著優點:高容積負荷、更強的抗毒能力和耐負荷沖擊能力、無須污泥回流且處理設施緊湊。朱光燦、呂錫武等[12]研究了采用脫木素—缺氧—好氧生物膜工藝處理造紙廢水。其中的脫木素工藝可有效地將黑液中堿木素脫穩析出,并提高廢水的可生化性,當廢水 pH=5,絕干纖維污泥與廢水 COD質量之比為 1.1,硫酸鋁投加量為 160m g/L時,COD去除率大于 63%。生物法在利用微生物處理造紙廢水時候,如果造紙廢水中含有大量不利于微生物生長的物質時候,生物法處理效果較差,因此在制漿造紙過程中可以通過改變漂白劑的種類,提高造紙廢水的可生化性,使其更利于生物法處理。

2.3 其他方法

2.3.1電化學法

利用電化學法進行廢水的處理是電化學法獲得應用的典型領域。通過電化學反應中的直接或者間接氧化和還原作用,可以破壞有毒或難降解有機物的結構,去除其生物毒性,提高其可生化性。電化學法處理廢水一般無需加入化學藥品,后處理簡單,占地面積小,管理方便,被稱為清潔處理法。景峰、王耀新、朱文菊等將電化學和凝聚沉淀法兩種方法聯合起來處理造紙廢水,使造紙廢水COD去除率達到55%~70%,色度去除,率達90%~95%[13]。目前關于電化學法的許多問題特別是降解機理、處理速度和經濟

性問題尚未完全解決,電化學處理廢水電耗較高,使該方法的工業應用受到限制。

2.3.2濕式空氣氧化法

濕式空氣氧化法是目前研究較多的新型處理方法,即在高溫、高壓下在液相中利用空氣或者氧氣作為氧化劑,將廢水中的有機物氧化成二氧化碳和水,從而達到去除污染物的目的。國內從80年代開始進行濕式空氣氧化法的研究,先后進行了造紙黑液、含硫廢水、酚水及煤制氣廢水、農藥廢水、印染廢水等的實驗研究,目前,濕式空氣氧化法在國內尚處于試驗階段。與常規方法相比,濕式空氣氧化法具有適用范圍廣、處理效率高等優點。但由于濕式空氣氧化法一般要求在高溫高壓的條件下進行,對設備材料的要求較高,須耐高溫、高壓并耐腐蝕,因此設備費用高,系統的一次性投資大,在實際推廣應用方面仍存在著一定的局限性。

2.3.3超臨界水氧化法

在處理難降解有機廢水方面,超臨界水氧化技術是目前研究較為活躍的新技術。由于超臨界水氣液 相界面消失.成為一均相體系,因而超臨界水中的有機物反應速度極快。Model等[14]對有機炭含量達 27.33 g/L的廢水進行超臨界水氧化處理,在實驗條件下,1分鐘內就使有機氯和有機炭的去除率分別達到99.99%和99.97%。超臨界水氧化技術具有良好的工業應用前景,但是由于對反應條件要求較為苛刻(高溫、高壓),對設備要求偏高,因此還有一些實際的技術問題需要解決。造紙廢水治理技術展望

隨著全球可持續發展戰略的實施,循環經濟和 清潔生產技術越來越受到人們的關注,造紙工業廢水治理從末端治理向清潔生產工藝、物質循環利用、廢水回用綜合防治方向發展。未來造紙工業廢水治理將突出以下幾個方面:

(1)貫徹循環經濟理念、重視清潔生產技術的開發與應用,提高物質的轉化率和循環使用率,從源頭上削減各污染物的產生量并在廠內將大量廢水循環回用,實現封閉循環,結合廢水綜合治理,最終實現廢水零排放。

(2)綜合目前國內外技術發展情況,應重視開發和引進先進的治理技術:重視黑液 處理技術(主要為堿 回收 技術)、重 視 SS、BOD、COD 的去除技術及脫色技術。

(3)應重視 生物處理方法在造紙工業廢水處理中的應用,生物技術具有成本低、效益高、與其他方法組合可大大提高造紙廢水的處理率,隨著分子生物學技術、物種微生物技術的發展和應用,具有高效、耐毒性的菌種不斷培育成功,為生物技術的廣泛應用提供了前提條件。

(4)人工濕地處理系統作為一種成本低廉、節能降耗、簡單易行、效果顯著、無二次污染的廢水處理技術,是造紙廢水處理的新方法[15]。

(5)廢紙造紙企業均存在諸多設計、建造、管理問題,阻礙廢水回用現狀的進一步改善。節水空間仍然很大。生產過程中,應加強管理,培養員工節水意識。調動員工積極性,根據實際生產經驗,提出合理的回改進措施[16]。

參考文獻

[1] 張 珂,陳仁銳。丁明秀,等.造紙工業污染防治技術與環境管理[M].北京:輕工業出版社,1988.14-15.

[2] 謝 澄,陳中豪,疏明君,等.生物流化床~化學絮凝法處理紙漿漂白廢水[J].工業用水與廢

水,2002,33(I):27-30.

[3] 黃夏銀,馮彬.造紙廢水處理技術研究現狀及展望[J].污染防治技術,2004,12:17(4):9-11.

[4] 劉全校,安郁琴.臭氧 用于治理造紙廢水.紙和造紙,2000,7:44.

[5] 張志軍,包志成,王克歐.二氧化鈦催化下的氯代二苯并一對一二啞英光解反應[J].環境化學,1996,15(1):47.

[6] M Cfistina Yeber,Jaime Rodrlguez,Juanita Freer,et a1.Photocatalytic Degradation of

C:ellulose Bleaching Effiuent by supportedTiO2 andZ 0.C卜lEM0sPERE2000,41:1193.

[9] 張學洪,解慶林,李金城,等,造紙廢水的混凝處理研究[J].桂林工學院學報,2000,(4):

189-191.

[10] 黃國林,樂長高,粱平.利用聚合物處理造紙廢水的研究[J,環境科學與技術,1997,(1):

24—26.[11] 范懋功.活性 污泥法處理造紙廢水….給水排水,1996,22(12):29—31.

[12] 朱光燦,呂錫武,宋海亮,等,脫木素一缺氧一好氧生物膜工藝處理造紙廢水試驗研究[J],給水排水,2004.30(1):56—59.

[13] 景 峰,王耀新,宋文菊,試論電化學一凝聚法處理造紙廢水[J].黑龍江環境通報,2000,24(2):

81—82.

[14] Model M.Processing Methods for the Oxidation ofOrganics in Supercritical Water『P1.US

Patent:4543(9).1 985.09.24.

[15] 朱光燦,呂錫武,宋海亮,等,造紙廢水治理技術研究現狀及展望[J],污染防治技術,2004.17(4):14.

[16] 張金紅,廢紙造紙廢水回用工藝現狀及改造實例[J],湖北造紙,2010.3:38.

第四篇:信息檢索論文

居民用電遠程抄表系統

長期以來,供電企業電能數據的抄算都是基于電能表的手工作業方式,即每月定期派人到各用戶那里抄錄電能表的用電數據作為電費計算和收繳的依據。隨著電力負荷的急劇增長,一戶一表和直供到戶等營銷舉措的不斷深入,用電企業紛紛將家屬宿舍的用電治理業務交還供電企業,致使供電企業的電量抄錄的工作量急劇膨脹。白銀供電公司在城網農網改造結束后,僅市區居民直供用戶將達到9萬戶,就地分散的手工抄表根本無法適應用電治理的需要。因此,遠程抄表系統的技術研究和產品開發勢在必行。

1遠程自動抄表系統的現狀及其特點

一般情況下,一個家屬樓單元有14~18塊低壓電能表,單元子區數據采集器負責采集其下屬的電能表電量數據,配變集中器則負責收集配電變壓器下面的所有單元子區采集器的數據。從數據傳輸的角度看,其組網方式有:兩級純專線組網方式、兩級混合組網方式、兩級載波組網方式。

從組網拓撲的角度講,只要在用戶電能表、單元子區采集器、配變集中器采用專用信道通信,遠程自動抄表系統的纜線工程量就非常大,有線專用信道的維護也有一定困難。鑒于這種情況,各科研單位和廠商都在努力做到取消單元子區采集器,實現用戶電能表與配變集中器的直接低壓電力線載波通信,這樣就大大減少了纜線工程量,而且數據遠程傳輸的組網拓撲與低壓配電網保持一致,有利于系統的運行維護和用戶數量的模數化擴展。這種拓撲要求一個用戶終端,不但要實現電能計量,還要實現數據信息的編碼、解碼、載波收發等功能。可以構成完全基于低壓電力線信道的載波電能表 配變集中器 營業站主機的組網拓撲。實踐證實:目前市場上已經開發出來的窄帶調制的低壓載波表和配變集中器很難保證電量或控制數據的可靠傳輸。主要原因是低壓電力線載波信道的特性隨機性、時變性很大,非常地不穩定。因此,低壓電力線載波技術是直接通過電力線組網的遠程抄表系統進一步推廣應用的瓶頸。

2試點居民小區遠程抄表系統方案

在為試點居民小區遠程抄表系統做的總體技術方案設計時,本文遵循三條基本原則:

(1)在試點小區的配電變壓器和小區住戶之間不敷設任何專用有線信道,數據的上行或下行傳送必須使用現成的低壓電力線作為數據媒介。

(2)只在配電變壓器和住戶地點對應安裝數據的收發裝置,建立起各用戶電能表終端與配變集中器的直接數據鏈路,中間不安裝任何硬件上的中繼或第二級集中轉發裝置。

(3)用戶電能表終端除了記錄電量外,它還應該執行就地保護和遠方監控功能。

2.1系統組成結構

系統由營業站用電治理主機、配電變壓器集中器、接在配電變壓器低壓電力線上的多個用戶電能表終端(接于A相的A1~Ap終端、接于B相的B1~Bm終端、接于C相的C1~Cn終端)和通信信道組成。配電變壓器集中器和用戶電能表終端分別與配電變壓器、用戶一一對應并就地分布式安裝。用電治理信息只能在系統的上下級之間傳輸。其中用電治理主機到配電變壓器集中器的信息傳輸媒介采用擴頻無線信道或公共電話網(第一級信道),配電變壓器集中器到用戶電能表終端的信息傳輸媒介利用低壓電力線載波信道(第二級信道)。顯然,整個系統與配電變壓器下面的電壓電力網一樣呈樹形分布結構,可隨用戶發展和負荷增長任意擴展。

本系統的任務在于實現低壓用戶電量數據的遠程傳輸和抄算,對低壓電力用戶的負荷和用電進行遠程監控。

由于使用了分布式安裝結構,在系統建設上與集中抄表箱用電系統相比,無須龐大繁瑣的纜線工程,施工難度將會大幅下降。系統的擴展將隨用戶或配變數量的遞增而模數化擴展,就象增加一個用戶增加一塊電能表那樣簡單。因此,系統擴展極具伸縮性,不會象集中式系統那樣新建時資源閑置,用戶發展時容量又不夠。應該說,這個系統比較符合營業用電治理系統發展的主流方向。

2.2網絡通信協議的選擇與研究

在計算機網絡中,信道共享技術已經比較成熟。一般可分為兩類,即受控接入和隨機接入。

隨機接入共享信道的特點是所有用戶都可以根據自己的意愿隨機地發送信息。實際上就是爭用接入,征用勝利者才能獲得總線,從而發送自己的信息。典型的隨機接入是載體偵聽多重訪問/沖突檢測(CSMA/CD)網絡,其為總線型結構,如圖2所示。后文重點介紹的基于CEbus的擴頻載波線性掃頻信號(Chirp)由于具有自相關性,所以適用于CSMA網絡。結合電力線的傳輸特性,綜合比較各種網絡,在本文所要開發的遠抄系統中選用CSMA協議應該是比較合適的。CSMA協議網絡的缺點,如時延不確定、重載時效率下降,對數據傳輸量較小的遠程抄表系統來講,并不是值得考慮的問題。

2.3用戶電能表終端的總體設計

用戶電能表終端由AC/DC開關電源模塊、電量傳感器模塊、故障保護模塊、計量模塊、負荷控制模塊、LED顯示模塊、MCU系統模塊、低壓擴頻載波通信模塊構成。

多輸出開關電源負責為用戶電能表終端供電,它輸出DC 5V0.5A和DC±15V0.5A電源各一組,其交流輸入的設計范圍為AC220V±20。為了降低電源模塊的體積,采用TOP2XX脈寬調制功率開關為核心器件,構成單端反激式電路。

故障保護模塊負責監視低壓用戶的負荷電器的運行情況,當發生短路、過流、漏電或電網電壓超標時,向MCU系統模塊發出信號請求執行斷電控制程序。

計量模塊負責把用戶的用電功率轉化為頻率正比于功率大小的脈沖串,提供給MCU系統模塊進行電量計算。即使用戶實施了竊電行為,它仍然可以輸出正確的電量計算脈沖串,并向MCU系統發出竊電信號。

負荷控制模塊是一個受MCU系統輸出的TTL電平控制的大功率交流無觸點開關,能夠過零關斷或開啟6kW的負荷功率。

MCU系統由AT89C528位單片機、X5045看門狗芯片和DS1302時鐘日歷芯片構成。它是用戶電能表終端的計算監控中心,主要負責對電量脈沖串進行計算或處理,執行就地或遠方的負荷控制程序,與低壓擴頻載波通信模塊進行數據交換并控制其收發信。

顯示模塊由一個8位LED及其動態掃描控制芯片構成,主要完成電量數據的舊的查詢顯示,便于用戶了解自己的電量或電費情況。

低壓擴頻載波模塊主要由SSCP200低壓電力線擴頻載波網絡控制器、前置功放和電力線耦合電路構成,負責對MCU系統送來的數據進行線性掃頻調制,放大后耦合到電力線上,對通過電力線送來的載波信號進行掃頻解調后送給MCU系統。這種數據通信采用了收發分時控制的半雙工通信。該模塊與配變集中器的設計通信距離為1000m。在信道特性最惡劣的情況下,也要保證不小于600m。

2.4配電變壓器集中器的總體設計

配變集中器主要由三個分相耦合的低壓擴頻通信模塊、三個按相配置的電能表模塊、MCU單片機系統、3個雙口RAM和一個工控機系統及電話線調制解調器構成。

低壓擴頻載波通信模塊分相配置,是為了杜絕跨相耦合載波信號,電能表和MCU電路按相配置是為了使集中器能夠并行處理各相的用戶終端數據,增加數據傳輸和處理速度。以上電路基本上與用戶終端類似,只是不具備故障保護、竊電偵測和負荷控制電路而已。

在配變集中器內設置電能表模塊便于對每一相的總電量進行計量和統計分析,以作為用電治理部門考核線損和平衡3相負荷的依據。

工控機完成與每一相的MCU系統交換數據,并通過Modem和公用電話網與營業站抄算主機交換數據信號。上行和下行數據要經過工控機的處理,并在不需要數據通信的時候儲存在工控機的磁盤中。鑒于數據處理量不是很大,選用486工控機就能滿足要求。

2.5營業站抄算主站的總體設計

營業站抄算主機主要由PC機、電話線Modem及其軟件構成。主要負責營業站到配電變壓器集中器之間的數據指令的調制發送、解調接受及綜合分析處理。另外,電話線Modem還可以將營業站用電治理主機與電費托收銀行聯機。

PC微機主要完成用戶用電數據的采集,送電能表參數、用電信息、欠費警告及斷電控制,不安全和違章用電監視報警,用戶用電治理及查詢,報表輸出等功能。

其中,用電采集程序可以進行定時統抄、不定時統抄及單用戶隨時查抄;用電量可按地址統計,也可按相位統計,以便合理地調整配電變壓器A、B、C三相負載的配置,使供電系統的性能發揮得更好;在電費結算時,可通過分時計費,合理定價,使負載基本恒定;電表參數、用電信息可送到用戶終端,從而非常方便地修改電能表參數,顯示用戶的用電量及結算電費;欠費警告及斷電控制功能可督促用戶按時交費;不安全和違章用電監視報警功能可使用電監察人員迅速準確地維護用電秩序;日報表、月報表、年報表的形成和輸出方便而快捷。

3結論與展望

3.1研究結論

我們在幾種不同的環境下對用戶電能表終端和配變集中器進行了測試,取得了比較滿足的結果。依照CEBus標準編制的程序,在傳輸過程中,沒有發現誤碼的存在。不同的測試環境下,干擾強度與信道輸入阻抗的波動范圍是影響擴頻載波可靠通信距離的兩個主要因素,數據通信成功的平均幀延遲時間與平均通信距離的關系較大。

戶表采集器的性能指標如下:

·載波通信距離:架空網或電纜電網均可達1000m;

·抄表成功率:可達99.7;

·抄表正確率:100;

·讀數準確度:計數精度達到小數點后兩位,用戶電能表讀數與標準電能表的誤差不大于1個字(即0.5kWh);

·時鐘誤差:天天小于 1s;

·用戶電能表功耗:待機時≤200mW,發送數據時≤700mW,發送時間≤25ms,接收靈敏度≤2mW;

·采用工業級芯片,環境溫度:-20~ 85℃;

·工作電壓:AC165~260V;

·掉電保護:電源斷電情況下,數據可保存10年;

3.2總結與展望

電能直供到戶是供電企業最重要的營銷舉措,這使得電能營銷部門的電能抄算業務量成倍增長。采用新的遠程抄表技術來改善用電治理和電能營銷的裝備水平、優化電能市場服務的技術手段是供電企業最緊迫的需求。

我國的低壓電能供給都是以配電變壓器為一個臺區單元,在配電變壓器和用戶之間不使用任何獨立的中繼通信設備或專用信道,直接利用低壓電力線構成與低壓電網系統結構相對應的用戶電能表終端+配變集中器+營業站電能抄算主機組網的遠程抄表系統,我們認為這符合低壓遠抄系統的主流發展方向,因而具有推廣應用前景。

具有低壓擴頻載波數據遠傳功能的用戶電能表終端和配變集中器是構成本文所提出的遠程抄表方案的核心裝置。最終的技術目的的實現必須建立在成功地開發用戶電表終端和配變集中器的基礎之上,還要做營業站抄算主機的軟件編制和數據庫編制。顯然本文所做的工作還離這一目標有相當長的一段距離。本文只是對用戶電能表終端及其擴頻載波通信模塊作了實用化開發設計和樣機試制,并且通過樣機的現場測試。配變集中器、軟件只作了一個方案性的設計。

本文所取得的另一個成果就是,把用戶電能表終端設計成一個智能化的綜合性終端,除了完成電能的記錄和計量外,它還具有用戶現場防竊電、防誤接線、故障保護、遠方停送電、遠方修改電能表參數和負荷控制功能,這些技術手段對提高供電企業的用電治理水平無疑具有積極的意義。

參考文獻

[1]邵源,鐘炬,等.關于低壓用戶集中抄表系統綜述.電力系統自動化,1999(9).[2]徐平平,邱玉春.電力集中抄表中的通信技術.電力系統通信,1999(4).[3]楊士中.靜電無繩廣播方法.[4]周世煒,張紹卿,洪文學.一種基于電力配電網絡的雙向工頻通信技術.電子技術,1999(8).[5]邱玉春.利用電力線組網的監控網絡協議選擇.現代通信,2000(1).[6]邱玉春,徐平平.低壓電力線載波通信特性分析.電力系統通信,1998:6(48).

第五篇:信息檢索論文

論搜索引擎中文自動分詞技術

【摘要】

搜索引擎是應用在web上的軟件系統,它以一定的策略搜集和發現信息,再對信息進行處理和組織后為用戶提供web信息查詢服務。搜索引擎分三個大模塊:網頁搜集,預處理和查詢服務。其中對搜索信息的預處理階段的關鍵技術是中文分詞和建立倒排文件,本文主要論述搜索引擎工作過程中的中文自動分詞技術。

【關鍵字】:搜索引擎,中文分詞,分詞方法,分詞難題 【正文】

信息的飛速增長,使搜索引擎成為人們查找信息的首選工具,Google、百度等大型搜索引擎一直是人們討論的話題。目前在中文搜索引擎領域,國內的搜索引擎已經和國外的搜索引擎效果上相差不遠。之所以能形成這樣的局面,有一個重要的原因就在于中文和英文兩種語言自身的書寫方式不同,這其中對于計算機涉及的技術就是中文分詞。

一、為什么要進行分詞?

漢語是世界上最古老和最豐富的語言之一,但是漢語語法才有將近一百年的歷史,而且現代漢語白話文的形成歷史也比較短,加上漢語自身的特點,因此它的形式化研究更加困難。對英文而言,是以詞為單位,詞與詞之間有空格隔開,而中文是以字為單位,多個字連在一起才能構成一個表達具體含義的詞,詞與詞之間沒有分割,因此,對于支持自然語言檢索的工具,從語句中劃分出具有獨立意義的詞的過程即進行中文分詞必不可少。

二、什么是中文分詞?

中文分詞技術就是搜索引擎針對用戶提交查詢的關鍵串進行的查詢處理后,根據用戶的關鍵詞串用各種匹配方法進行的一種技術。中文分詞技術屬于自然語言處理技術范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過程就是分詞算法。例如,英文句子I am a student,用中文則為:“我是一個學生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。我是一個學生,分詞的結果是:我 是 一個 學生。

三、中文分詞與搜索引擎

分詞技術使用在搜索引擎網頁預處理階段。搜索引擎網頁預處理第一步是為原始網頁建立索引,形成索引網頁庫;第二步是對網頁進行切分,也就是分詞,將每一篇網頁轉化為一組次的集合;最后將網頁索引詞的映射轉化為索引詞到網頁的映射,形成倒排文件。

中文分詞到底對搜索引擎有多大影響?對于搜索引擎來說,最重要的并不是找到所有結果,因為在上百億的網頁中找到所有結果沒有太多的意義,沒有人能看得完,最重要的是把最相關的結果排在最前面,這也稱為相關度排序。中文分詞的準確與否,常常直接影響到對搜索結果的相關度排序。而且中文分詞的準確度,對搜索引擎結果相關性和準確性有相當大的關系。

四、中文分詞技術的分類

我們討論的分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統計的分詞方法和基于知識理解的分詞方法。(一)基于字典、詞庫匹配的分詞方法

這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。

常用的幾種機械分詞方法如下:

(1)最大正向匹配法(MaximumMatching Method)通常簡稱為MM法

其基本思想為:假定分詞詞典中的最長詞有i個漢字字符,則用被處理文檔的當前字串中的前i個字作為匹配字段,查找字典。若字典中存在這樣的一個i字詞,則匹配成功,匹配字段被作為一個詞切分出來。如果詞典中找不到這樣的一個i字詞,則匹配失敗,將匹配字段中的最后一個字去掉,對剩下的字串重新進行匹配處理…… 如此進行下去,直到匹配成功,即切分出一個詞或剩余字串的長度為零為止。這樣就完成了一輪匹配,然后取下一個i字字串進行匹配處理,直到文檔被掃描完為止。

(2)逆向最大匹配法(Recerse MaximumMatching Method))通常簡稱為RMM法

RMM法的基本原理與MM法相同 ,不同的是分詞切分的方向與MM法相反,而且使用的分詞辭典也不同。逆向最大匹配法從被處理文檔的末端開始匹配掃描,每次取最末端的2i個字符(i字字串)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個字,繼續匹配。相應地,它使用的分詞詞典是逆序詞典,其中的每個詞條都將按逆序方式存放。在實際處理時,先將文檔進行倒排處理,生成逆序文檔。然后,根據逆序詞典,對逆序文檔用正向最大匹配法處理即可。

由于漢語中偏正結構較多,若從后向前匹配,可以適當提高精確度。所以,逆向最大匹配法比正向最大匹配法的誤差要小。統計結果表明 ,單純使用正向最大匹配的錯誤率為 1/16 9,單純使用逆向最大匹配的錯誤率為 1/245。例如切分字段“碩士研究生產”,正向最大匹配法的結果會是“碩士研究生 / 產”,而逆向最大匹配法利用逆向掃描,可得到正確的分詞結果“碩士 / 研究 / 生產”。

(3)最少切分法:使每一句中切出的詞數最小。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現象也較少。統計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統,都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。

一種方法是改進掃描方式,稱為特征掃描或標志切分,優先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結果進行檢驗、調整,從而極大地提高切分的準確率。

(二)全切分和基于詞的頻度統計的分詞方法

基于詞的頻度統計的分詞方法是一種全切分方法。在討論這個方法之前我們先要明白有關全切分的相關內容。(1)全切分

全切分要求獲得輸入序列的所有可接受的切分形式,而部分切分只取得一種或幾種可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基礎上的分詞方法不管采取何種歧義糾正策略,都可能會遺漏正確的切分,造成分詞錯誤或失敗。而建立在全切分基礎上的分詞方法,由于全切分取得了所有可能的切分形式,因而從根本上避免了可能切分形式的遺漏,克服了部分切分方法的缺陷。

全切分算法能取得所有可能的切分形式,它的句子覆蓋率和分詞覆蓋率均為100%,但全切分分詞并沒有在文本處理中廣泛地采用。(2)基于詞的頻度統計的分詞方法:

這是一種全切分方法。它不依靠詞典,而是將文章中任意兩個字同時出現的頻率進行統計,次數越高的就可能是一個詞。它首先切分出與詞表匹配的所有可能的詞,運用統計語言模型和決策算法決定最優的切分結果。它的優點在于可以發現所有的切分歧義并且容易將新詞提取出來。

(三)基于知識理解的分詞方法

該方法主要基于句法、語法分析,并結合語義分析,通過對上下文內容所提供信息的分析對詞進行定界,它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷。這類方法試圖讓機器具有人類的理解能力,需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式。因此目前基于知識的分詞系統還處在試驗階段。

(四)一種新的分詞方法

并行分詞方法:這種分詞方法借助于一個含有分詞詞庫的管道進行 ,比較匹配過程是分步進行的 ,每一步可以對進入管道中的詞同時與詞庫中相應的詞進行比較 ,由于同時有多個詞進行比較匹配 ,因而分詞速度可以大幅度提高。這種方法涉及到多級內碼理論和管道的詞典數據結構。

到底哪種分詞算法的準確度更高,目前并無定論。對于任何一個成熟的分詞系統來說,不可能單獨依靠某一種算法來實現,都需要綜合不同的算法。筆者了解,海量科技的分詞算法就采用“復方分詞法”,所謂復方,相當于用中藥中的復方概念,即用不同的藥才綜合起來去醫治疾病,同樣,對于中文詞的識別,需要多種算法來處理不同的問題。

五、分詞中的難題

有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實遠非如此。中文是一種十分復雜的語言,讓計算機理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破。

(一)切分歧義

就人對漢語的理解而言,漢語的分詞是一個理解的過程,這個過程綜合了詞法、語法、語義等各種信息。因此,一個理想的分詞系統也應綜合運用這些信息,而在計算機處理中這些信息的提取又是以分詞為前提的。所以,分詞與這些信息的運用是既相聯系又相制約的一種相輔相成的關系,而純粹的機械切分必然會帶來切分歧義。

歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:學歷史知識,因為“學歷”和“歷史”都是詞,那么這個短語就可以分成“學歷”和“歷史”。這種稱為交叉歧義。像這種交叉歧義十分常見由于沒有人的知識去理解,計算機很難知道到底哪個方案正確。

交叉歧義相對組合歧義來說是還算比較容易處理,組合歧義就必需根據整個句子來判斷了。例如,在句子“這個門把手壞了”中,“把手”是個詞,但在句子“請把手拿開”中,“把手”就不是一個詞;在句子“將軍任命了一名中將”中,“中將”是個詞,但在句子“產量三年中將增長兩倍”中,“中將”就不再是詞。這些詞計算機又如何去識別? 如果交叉歧義和組合歧義計算機都能解決的話,在歧義中還有一個難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個應該是詞,哪個應該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓 球拍 賣 完 了”、也可切分成“乒乓球 拍賣 完 了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個詞。

(二)新詞

專業術語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實能稱為詞的那些詞。最典型的是人名,人可以很容易理解句子“張三虎是山東人”中,“張三虎”是個詞,因為是一個人的名字,但要是讓計算機去識別就困難了。如果把“張三虎”做為一個詞收錄到字典中去,全世界有那么多名字,而且每時每刻都有新增的人名,收錄這些人名本身就是一項巨大的工程。即使這項工作可以完成,還是會存在問題,例如:在句子“張三虎頭虎腦的”中,“張三虎”還能不能算詞?

新詞中除了人名以外,還有機構名、地名、產品名、商標名、簡稱、省略語等,還有目前網絡流行語詞,如“有沒有”、“傷不起”“神馬浮云”、“童鞋們”、“蘿莉”等等都是很難處理的問題,而且這些又正好是人們經常使用的詞,因此對于搜索引擎來說,分詞系統中的新詞識別十分重要。目前新詞識別準確率已經成為評價一個分詞系統好壞的重要標志之一。

判斷一個系統的中文分詞功能好壞,主要在于消歧功能和對未登錄詞識別功能。并且優秀的分詞策略應該是盡量不拆分,需要拆分時,先把長的拆成中的,如果結果還是少,再把中的拆成短的。

【參考文獻】

【1】 吳勝遠;并行分詞方法的研究--《計算機研究與發展》1997年07期

【2】 張旭;一個基于詞典與統計的中文分詞算法[D];電子科技大學;2007年

【3】 梁斌;走進搜索引擎 電子工業出版社 2007年1月

【4】(美)克羅夫特;搜索引擎:信息檢索實踐 機械工業出版社

2010年

下載化學化工信息檢索論文word格式文檔
下載化學化工信息檢索論文.doc
將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
點此處下載文檔

文檔為doc格式


聲明:本文內容由互聯網用戶自發貢獻自行上傳,本網站不擁有所有權,未作人工編輯處理,也不承擔相關法律責任。如果您發現有涉嫌版權的內容,歡迎發送郵件至:645879355@qq.com 進行舉報,并提供相關證據,工作人員會在5個工作日內聯系你,一經查實,本站將立刻刪除涉嫌侵權內容。

相關范文推薦

    信息檢索論文

    信息檢索與搜索引擎(論文) 網頁凈化與消重技術 學院(系):信息科學與工程學院 專 業:計算機應用技術 年 級: 學生 姓名: 學 號指導 教師 網頁凈化(noise reduction):識別和清除網......

    信息檢索論文

    信息檢索與利用論文 學院:機械與電子學院 專業:機械電子工程 班級: 093152 姓名: 學號: 09315205 指導教師: 2012年 04 月日檢索題目:機械產品綠色設計 分析課題:本課題的學......

    信息檢索論文

    信息檢索實驗報告 題目:現代會計發展趨勢分析 學院: 班級: 學號: 姓名: 成績: 遼寧工程技術大學基礎教學部 現代會計發展方向分析 摘要:綜合考慮我國各級會計人員的主要工作任務的......

    信息檢索論文

    關于數字化學習資源利用的思考 人資1W 學號:10213103 姓名:陳磊 班級:10摘 要:隨著教育信息化工程的整體推進,要求數字化學習資源的建設也要同步地向前發展。正確認識數字化......

    電氣工程信息檢索論文

    臭氧發生器系統設計 姓名:顏學剛 學院:電氣信息工程學院 班級:09東電氣2班學號:09813227 摘要:農業社會依賴人的體力勞動,工業社會依靠機械生產,知識經濟社會,知識、信息、智力是新......

    信息檢索課程論文

    論大學生如何提高信息素養 摘 要:信息素養要求大學生具備檢索、論文評價和有效使用所需信息的能力。大學生信息素養由信息意識與信息能力構成。大學期間,學校應通過學校教育、......

    網絡信息檢索論文

    網絡時代新特征 ——讀《理解媒介:論人的延伸》有感由于沒讀《世界是平的》,所以談談讀《理解媒介:論人的延伸》對網絡時代新特征的理解。 加拿大傳播學巨匠麥克盧漢的著作《理......

    信息檢索論文5篇

    宿州學院信息時代文獻檢索的新發展 論文標題: 信息時代文獻檢索的新發展 學 院: 信息工程學院 班 級: 學生姓名: 學 號: 完成日期: 2014年 11月 4日 2014年 11月 目錄 摘要: .........

主站蜘蛛池模板: 亚洲日韩中文字幕无码一区| 无码人妻精品一区二区蜜桃网站| 国产无遮挡无码视频在线观看| 丰满人妻无奈张开双腿av| 精品一区精品二区制服| 精品日韩欧美一区二区在线播放| 日本大尺度吃奶呻吟视频| 国产sm调教折磨视频| 免费无毒永久av网站| 亚洲 中文 欧美 日韩 在线| 久久久日韩精品一区二区三区| 国产美女裸身网站免费观看视频| 亚洲av日韩av综合aⅴxxx| 久久亚洲精品综合国产仙踪林| 亚欧免费无码aⅴ在线观看| 欧美浓毛大泬视频| 国内精品自线一区二区三区| 中文字字幕在线中文无码| 精品一区二区三区免费播放| 欧美 日韩 国产 另类 图片区| 亚洲综合无码一区二区| 777爽死你无码免费看一二区| 中文字幕一区二区三区日韩精品| 成人超碰| 久久99精品久久久久久琪琪| 亚洲色欲www综合网| 亚洲熟妇av乱码在线观看| 欧美黑人性暴力猛交高清| 国语高潮无遮挡无码免费看| 人人妻人人澡人人爽欧美一区双| 国产乱国产乱老熟300视频| 热99re6久精品国产首页| 无码av中文一区二区三区桃花岛| 熟妇人妻va精品中文字幕| 日韩精品无码免费专区网站| 熟女少妇精品一区二区| 人妻少妇邻居少妇好多水在线| 中文字幕无码免费久久9一区9| 亚洲欧美精品无码一区二区三区| 特黄 做受又硬又粗又大视频| 综合人妻久久一区二区精品|