第一篇:信息檢索論文
信息檢索實驗報告
題目:現代會計發展趨勢分析
學院: 班級: 學號: 姓名:
成績:
遼寧工程技術大學基礎教學部
現代會計發展方向分析
摘要:綜合考慮我國各級會計人員的主要工作任務的變化,采用以能力要素法的分析框架,構建出了涵蓋職業知識、職業技能、職業價值觀三大模塊的各層次會計人才框架。會計人才要想成為有能力的會計師,必須要擁有一定數量的執業所需的知識、一定的技能、運用知識解決實際問題的能力以及職業工作方法。參照IFAC的研究成果,本研究將會計人才的能力分為職業知識、職業技能和職業價值觀。關鍵詞:會計人才;能力框架;評價
Modern accounting development direction analysis
Maxiaochen
Liaoninghuludao Abstract :Comprehensive consideration at all levels in our country accountant main task changes, which adopts competence factors analysis framework of law, constructed covers occupational knowledge, vocational skills, professional values of all levels three modules accounting personnel framework.Accounting personnel to be capable of accountants, must have a certain number of practising the necessary knowledge, certain skills, use knowledge ability to solve practical problems as well as professional working methods.Reference IFAC research achievements, this study accounting personnel's ability is divided into vocational knowledge, professional skills and professional values Keywords:Accounting personnel;Ability framework;evaluation
1.引言
會計人才應具備的基礎知識主要包括人文知識、自然科學知識、藝術知識、外語等。會計依存于?定的社會經濟、政治、法律和文化等環境。文化歷史、社會政治、數理經濟甚至美學藝術,都有助于會計人才了解其與其他之間復雜的相互依賴關系,并與各種不同背景的人交往。人文科學知識對會計人才開闊跟界、扦啟智力、陶冶情操起著重夫的作用,對確和改造人生觀、價值觀起巨大的影響作用。人文教育的核心,就是要培養:生宄善的人格、獨立的個性、健康的心、強烈的社會責任感。當今世界,學科之問滲透和交叉不可避免。在知識經濟時代,會計人的素噴與文化素質是相輔相成的,會計在走向市場的過程中,需賞有文化底蘊的積淀作為配套,才能使得、知識技能得以更有效的發揮。專業知識構成會計職業的主題以及其他商業學科的主題,并且共同組成會計人才知識的最豐要部分。會計人才是從事很強的專也性工作的人才,因此,專業知識是其知識結構的核心部分,也是其知識結構的特色所在。會計人才需要有精深的專業知識,胃精深,是指會計人才對自己所要從事專業的知識和技術的理解具有一定的深度,有質和量的要求,對基本概念、理論體系、研究方法、學科歷史和現狀、國內外最新信息等都要了解和把握。同時,對其專業鄰近領域的知識也要有所了解和熟悉,善于將其所學的領域與其他相關知識領域緊密聯系起來。
2、職業技能
技能是勝任能力的重要組成部分,恰當的職業技能能夠幫助會計人員正確地運用他們通過教育所獲得的知識。技能通常不是通過學習一門具體的課程而學到的,而是通過會計課程和會計實踐的綜合作用而獲得的。國際會計師聯合會(IFAC)的《國際教育準則》第3號“職業技能內容”提出,會計職業技能包括:智力技能、技術與功能性技能、個人技能、人際交往與溝通技能、組織和企業管理技能等6項。適當的職業技能為會計人才提供了競爭優勢。職業技能并非都從學校教育中獲取,也并非所有的技能都能在進入職業時就擁有,很多技能是在后續教育中、在不斷積累的經驗中得以發展的,是通過終身學習得來的。
會計部門一—般是企業的一個綜合}生管理部門,除對外與股東,銀行、工商、稅務等部門的溝通外,作為信邑掌握者和提供者的會計人才,還應與企業內部業務部門人員進行相互溝通,良好的溝通為會計人才參與經營決策提供了良好的契機。有效的溝通者傳遞出的信息明確、強有力、具有說眼力。會計人才的工作始于最貼近公司生產一線的經營工作,所以企業所有的會計人才都必須具備該項能力。高級會計人才更要具備該項能力,他們應能有效地與股東、企業CEO等高層領導或經營部門的負責人進行溝通,協調各方利益;他們需要與政府主管或監管部門、銀行、中介機構等及時溝通,為公司爭取良好的外部環境;他們還需要代表企業走進國內外資本市場,努力使自己成為資本市場溝通的橋梁紐帶。會計工作崗位分IT明確,每一崗位部有其明確的職責。有分工就有合作,必須對團隊內各成員具體負責的工作進行有機整合,以實現整體財務目標。盡管各級會計人員職稱層次不同,各自的職責不同,從事的工作范圍大小不同,但都必須從整體出發,緊密配臺,共同做好本職工作。會計人才常常要通過團隊合作來解決具體財務問題,這可能包括在本部門內合作和與其他部門的財務專家的合作。高級會計人才還應是一個團隊的創建者,應團結并鼓勵組織內所有人員互相配合,在團隊合作中還要負起監督的作用,促使財務部門各成員都負責地完成好本職工作。
3、職業價值觀
會計是一個對國家經濟發展非常重要的行業,不斷出現的財務丑聞,也使人們開始意識到會計是一個高風險的職業。為了確保市場經濟有序運行,維護自身聲譽和利益,會計人才必須遵循法律、法規,必須正直、客觀。這是對所有會計人才的基本要求。我國在從業資格考試中增加職業道德科目實際上正體現了社會對會計人才職業道德的需求。
會計人才應有終身學習的責任從長遠來看,灌輸終身學習的承諾遠}匕任何知識重要,終身學習是一種需要掌握的技能,一種需要開發的思想態度和社會所認同的價值觀。在知識經濟時代,技術變革盼決速和知識淘汰的加速意味著必須經常不斷地進行知識更新。如果說,在農業或工業時代不識字是文自的話,那么,到了知識經濟時代,不會再學習的人就會成為現代文自而被這個時代所淘汰。會計人才有效發揮作用所需的知識在以極決的速度繼續擴大和變化,他們面臨著增長知識和技能的期望。美國會計教育改進委員會(AECC)在其l990年公布的第一號公告會計教育的目標》中就強調“會計教育最重要的目標是教導學生獨立學習的素質。大學教育應是提供學生終生學習的基礎,使他們在畢業后能夠以獨立自我的精神持續地學習新的知識。因此。終生獨立自學能力就成為會計專業人員生存與成功的必備條件。”強烈的求知欲,加上極強的學習能力,這是保證不落后于時代始終能夠把握行業發展動向、并站在行業發展前端的重要本領。21世紀真正的成功管理者和領導者的決定素不再是他們知道什么,而是他們能以多快的速度學習。終身學習的能力是會計人才自下而上與成功的必備條件。要稱之為知識工作者,在迅速變化的、復雜的經濟環境面前,會計人才就必須成為終生的學習者!
5、結論
綜上,會計人才必須具備職業知識、職業技能及職業價值觀,并應能很好地整合這些要素。“四大”用人對學歷和證書|坪不看重,主要參考的是人的能力和綜合素質,實際上就說明了這一情況。
參考文獻
[1] 馬曉琳.淺談企業會計管理的方法[J ].中國科技信息,2005 ,(2).[2] 張國臣.企業會計戰略的籌劃[J ].長江大學學報,2007 ,(30).[3] 李爭艷.合理避稅方法之我見[ J ].內蒙古科技與經濟, 2007 ,(11).[4] 治喜平.企業會計技巧[ N ].科技咨詢導報, 2007 ,(16).[5]孫成方:避稅與反避稅[J].稅收實務 [6]楊輝:管理會計合理性分析[J].財會與財政 [7]張海雨:我國現行稅法下的會計思考[J].上海財稅 [8]劉兆華.會計實務與案例.2008.檢索總結
通過信息檢索這門課程的學習,我已經可以將信息檢索的功能應用到自己的學術論文實踐中。信息檢索是一種強大的工具應用形式,通過運用檢索工具,諸如中國知網、萬方數據庫、維普資訊網等相關檢索工具,可以得到海量的資源。而且這些資源是與我們在百度上搜到的資源所不同的。這些資源無論從論文內容上還是格式上都相當的正規,對我們的學習起到了正確的引導作用。
查詢資料時,登陸檢索的相關網站,找到想要查找的相關數據庫,輸入對論文的要求,就可以找到符合要求的資源了。但是由于論文知識的有限程度,我又去圖書館借閱了相關書籍,并查閱了相關稅法方面的法規準則。把他們綜合起來寫下了這篇論文。
一般來說,書本檢索工具具有查閱方便的特點,但同時有時受很多因素的影響,不能及時的查到相關信息!在寫這篇論文時,我就遇到這樣的問題。但是運用到檢索工具后既方便又快捷,很快解決了遇到的問題。但總體上,還是把所有檢索工具綜合起來應用,這樣既能反應各個學科的全面內容,對于開拓知識面也有很大的幫助。
通過對檢索工具進一步地熟悉和試用,對于文獻檢索的方法,我覺得不管是在哪個網站檢索,最重要的還是關鍵詞的選擇。關鍵詞選的“關鍵”,不僅可以提高檢索速度,而且大大提高了檢索結果的質量,可以很容易找到自己需要的數據或文獻資料,總之要縮小范圍,除了關鍵詞以外,還可以檢索信息的外表特征,諸如:作者名、文獻出處名等。必要時還需明確所需檢索的文獻信息的類型,諸如:期刊論文、書籍文獻、專利文獻、會議文獻、標準文獻等,以此確定檢索工具的類型。并且掌握了一點用google搜索的技巧,了解一點指導老師的研究動向,知道了很多很好的“文獻庫”和與我們專業有關的網站,對英文論文有了接觸,以前經常在網上打開一個搜索引擎,有時是用百度有時是用google,試圖找到一些想找的東西,結果找是能找到的,但往往花了太多的時間,要不斷篩選。學習這門課,有助于更快的達成目的,明白google和百度的各有千秋。百度是個很好的中文搜索引擎,但往往會顯示一些完全無關的東西,而在這一方面google就好一點。
在社會的學習和生活中,人們獲得信息的能力在不斷的增強,也隨之對獲得信息的能力不斷提升,信息是一個不斷被開發利用的工具、同時也是一個閑置的資源而不是財富。隨著很多新型信息檢索系統技術的使用,現今的大學圖書館已不再僅僅是過去的‘藏書樓’,信息檢索與利用的技術內涵、教育方式、檢索體系等都發生了重大得變化。面對茫茫書海,當代的大學生決不是單憑‘眼睛好’就能解決問題,只有熟悉各種信息源、學會最基本的文獻檢索與利用技能,學習并掌握一套較完整的 開發、利用信息資源的科學方法,才能讓這些信息充分的為大學生的成才服務。培養信息獲取和利用能力的重要性對當代大學生是相當重要的,我國社會對大學生的能力結構的需求,大體可分為實用型、應用開發型和研究開發型。實用型能力結構的基礎是較強的實踐和實踐能力,輔以一定的觀察、分析能力的能力結構形式,主要適宜在企業和相關基層部門從事具體的技術工作。應用開發型能力結構需要很強的學習、實踐能力,具有較強的觀察、分析能力輔以一定的表達、管理能力的能力結構形式。主要適合各類企業和設計部門從事技術開發、管理、培訓等工作。研究開發型能力結構的基礎是較強的學習、實踐能力,具有較強的觀察、分析能力,并以一定的創新能力為補充的能力結構形式。這種能力結構主要適合在高新技術產業、科研機構、高等院校從事新技術開發、新理論研究等高層次的科學創新工作。
總之,經過這一個學期的學習,我對文獻檢索這個課程有了更加深刻的了解,也對如何選好關鍵詞這個重點、難點有了一定的掌握。在這個信息爆炸的時代,我們必須盡可能多地掌握更多的信息,盡可能地充實自己,完善自己,所以掌握數據庫的應用在我們今后的生活中會很有好處的。
第二篇:信息檢索論文
應用化學
化學與化工信息檢索論文
題目:造紙污水處理技術現狀及進展
學生姓名------學號--------專業應用化學指導教師----
2010年12月 25日
造紙污水處理技術現狀及進展
摘要:本文在查閱相關資料的基礎上,介紹了國內外的造紙廢水處理的常用方法,并對各種方法進行了評價和分析,綜述了造紙廢水處理研究的現狀和進展。
關鍵詞:造紙;廢水處理;治理技術
隨著造紙工業的迅速發展,造紙工業廢水已經成為水環境的重要污染源之一。在造紙過程中,除纖維素和部分半纖維素之外的大量有機物要進入廢水中,并且即使經過充分的廢液回收利用,也還是或多或少地會有一些纖維素和半纖維素流失進入廢水中。含有大量有機物的造紙廢水排入水體,對水體會造成不同程度的污染。同時造紙過程中通常還需要加入一些必要的化學藥劑和化學助劑,這些物質流失進入水體中更是加重了水體污染[1]。造紙工業的漂白工段通常是采用含氯化合物漂白,導致排出的漂白廢水中含有大量的氯化有機物,其中的氯苯酚、氯化脂肪酸、氯化樹脂酸、dioxin等有毒且難以處理的氯化有 機物,對環境中的生物具有強烈的毒害、致畸、致多發性腦神經病變作用[2],因此如何有效地去除造紙廢 水中的含氯有機物已經成為廢水處理的一大難題。本文在查閱大量文獻資料的基礎上主要介紹國內外處理造紙廢水的方法和新技術,并就國內外治理造紙廢水的現狀和未來的發展前景加以評述。
1概況
據經貿委粗略估計,目前我國大小造紙廠約有近萬家。造紙工業總的特點是:使用原料種類多、生產工藝類型多、中小企業多、技術裝備落后者多。調查統計表明,造紙工業廢水年排放總量達17億t,占工業廢 水總排放量的10以上。造 紙工業廢水主要包括黑液或紅液(蒸煮制漿廢水)、中段廢水(制漿洗滌、篩選、漂白廢水)、造紙 白水(抄紙廢水)三大類,其中蒸煮黑液的環境污染最為嚴重,占整個造紙工業污染的90%。制漿廢水 BOD、COD、SS、pH、色度、濁度等均嚴重超標;中段廢水成分與制漿廢水相近,但濃度低,富含漂白工段產生的對環境危害最大的有機氯化物;抄紙廢水中主要含有細小纖維、填料(高嶺土等)和膠料(松香等),BOD值較低。造紙工業廢水的治理是國內外造紙行業亟待解決的難題[3]。
2治理方法
2.1物理化學法
物理化學法是通過物理或者化學反應的作用來達到去除廢水中的污染物的目的,主
要有以下方法:
2.1.1臭氧法
臭氧氧化技術已問世多年,近年來,由于低成本的臭氧發生裝置和臭氧處理裝置的出現而重新成為研究熱點。臭氧(O3)是一種強氧化劑,O3作為兩性離子,能選擇性地分解發色基團。安郁琴[4]將經過化學混凝處理后和經過化學混凝過濾吸附處理后的麥革漿黑液利用臭氧法處理,處理 20分鐘后脫色率可以達到 82.1%,但 CODCr去除率僅 15.8%,BOD5去除率為24.8%,Ff1此可見,臭氧脫色效果顯著,但對 CODCr和 BOD5的去除效果不明顯。臭氧在水中的溶解度較低,如何更有效地使臭氧溶解于水中從而提高其利用率已經成為該技術研究的熱點。使用臭氧法也會產生其它副產物,其中最受關注的是羰基化合物中的醛類,比如甲醛、乙醛,這些物質具有急性毒性和慢性毒性,并具有一定的致畸、致癌、致突性。
2.1.2光催化氧化
光催化氧化技術是近年來比較活躍的研究領域,光催化氧化技術是在光化學氧化技術的基礎上發展起來的。張志軍等[5]利用中壓汞燈作光源,研究了氯代二苯并一對一二啞英(CDDS、包括DCCD、PcDD和OCDD)在 TiO2催化下的光解反應,在室溫下,4h內DCCD、PCDD和OCDD分別降解87.2%、84.6%和91.2%。M.Cristina Yeber等
[6]將 TiO2、Zno同定在玻璃上,對漂白廢水進行了光催化氯化處理,處理 120min后,廢水的色度可完全去除,總酚含量減少了85%,TOC減少了50%,處理后殘留有機物的急性毒性和AOX比處理前大為減少,高分子化合物幾乎全部降解。
2.1.3混凝法
混凝法是目前國內外重點研究的方向之一,該法適應性強、基建投資低、管理簡單,是水處理常用的方法,在造紙行業的廢水處理中使用普遍。造紙廢水中由于含有大量纖維和化學藥劑,所以一般在處理造紙廢水時首先要用混凝法除去這些物質。張學洪、解慶林[9]等利用聚合氯化鋁處理廣西某造紙廠的造紙終端廢水(CODcf=400mg/L),處理后可以達到國家污水排放標準(CODcf<100 mg/L)。黃國林、樂長高等[1O]利用水溶性酚醛樹脂和硫酸反應得到的聚合物處理撫州某造紙廠制漿車間排污口的廢水,在最佳工藝條件下反應時,CODc和ss去除率分別可以達到80%一85%和 90% 一95%,處理水可以達到排放標準。
2.2 生物法
廢水的生物處理方法就是利用微生物的新陳代謝功能使廢水中呈溶解狀和膠體狀的有機污染物被降解并轉化成無害穩定的物質,使廢水得到凈化。生物法處理廢水因其運行成本低,效果較好而在廢水處理中得到了廣泛應用。造紙廢水中含有大量有機物質,廢水的可生化性較好,可以為生物法的微生物提供大量的營養物質,從而能保證微生物的正常生長繁殖和生物法處理廢水的正常運行。利用生物法對造紙廢水進行二級處理可有效去除BOD、COD。造紙廢水生物處理法主要有以下幾種:
2.2.1好氧生物處理法
利用好氧微生物(主要為好氧菌)的新陳代謝作用來降解污染物,其中應用最多的主要是活性污泥法,我國的科研人員對活性污泥法處理造紙廢水進行了大量的研究,取得了許多成功的經驗。造紙廢水中的木素是不易生物降解的物質,活性污泥對木素具有極好的吸附性能,通過生物降解和活性污泥吸附作用,可達到除去木素的目的,從而降低溶解木素的濃度。芬蘭OULU紙漿廠[11]利用活性污泥法加污泥曝氣再生處理漂白硫酸鹽紙漿廢水,可使BOD去除率達 90%,COD去除率達84%。活性污泥法由于其處理成本低、易于管理、處理效果較好而在廢水處理中的應用越來越多。
2.2.2生物膜法
相對于活性污泥系統而言,生物膜系統具有如下顯著優點:高容積負荷、更強的抗毒能力和耐負荷沖擊能力、無須污泥回流且處理設施緊湊。朱光燦、呂錫武等[12]研究了采用脫木素—缺氧—好氧生物膜工藝處理造紙廢水。其中的脫木素工藝可有效地將黑液中堿木素脫穩析出,并提高廢水的可生化性,當廢水 pH=5,絕干纖維污泥與廢水 COD質量之比為 1.1,硫酸鋁投加量為 160m g/L時,COD去除率大于 63%。生物法在利用微生物處理造紙廢水時候,如果造紙廢水中含有大量不利于微生物生長的物質時候,生物法處理效果較差,因此在制漿造紙過程中可以通過改變漂白劑的種類,提高造紙廢水的可生化性,使其更利于生物法處理。
2.3 其他方法
2.3.1電化學法
利用電化學法進行廢水的處理是電化學法獲得應用的典型領域。通過電化學反應中的直接或者間接氧化和還原作用,可以破壞有毒或難降解有機物的結構,去除其生物毒性,提高其可生化性。電化學法處理廢水一般無需加入化學藥品,后處理簡單,占地面積小,管理方便,被稱為清潔處理法。景峰、王耀新、朱文菊等將電化學和凝聚沉淀法兩種方法聯合起來處理造紙廢水,使造紙廢水COD去除率達到55%~70%,色度去除,率達90%~95%[13]。目前關于電化學法的許多問題特別是降解機理、處理速度和經濟
性問題尚未完全解決,電化學處理廢水電耗較高,使該方法的工業應用受到限制。
2.3.2濕式空氣氧化法
濕式空氣氧化法是目前研究較多的新型處理方法,即在高溫、高壓下在液相中利用空氣或者氧氣作為氧化劑,將廢水中的有機物氧化成二氧化碳和水,從而達到去除污染物的目的。國內從80年代開始進行濕式空氣氧化法的研究,先后進行了造紙黑液、含硫廢水、酚水及煤制氣廢水、農藥廢水、印染廢水等的實驗研究,目前,濕式空氣氧化法在國內尚處于試驗階段。與常規方法相比,濕式空氣氧化法具有適用范圍廣、處理效率高等優點。但由于濕式空氣氧化法一般要求在高溫高壓的條件下進行,對設備材料的要求較高,須耐高溫、高壓并耐腐蝕,因此設備費用高,系統的一次性投資大,在實際推廣應用方面仍存在著一定的局限性。
2.3.3超臨界水氧化法
在處理難降解有機廢水方面,超臨界水氧化技術是目前研究較為活躍的新技術。由于超臨界水氣液 相界面消失.成為一均相體系,因而超臨界水中的有機物反應速度極快。Model等[14]對有機炭含量達 27.33 g/L的廢水進行超臨界水氧化處理,在實驗條件下,1分鐘內就使有機氯和有機炭的去除率分別達到99.99%和99.97%。超臨界水氧化技術具有良好的工業應用前景,但是由于對反應條件要求較為苛刻(高溫、高壓),對設備要求偏高,因此還有一些實際的技術問題需要解決。造紙廢水治理技術展望
隨著全球可持續發展戰略的實施,循環經濟和 清潔生產技術越來越受到人們的關注,造紙工業廢水治理從末端治理向清潔生產工藝、物質循環利用、廢水回用綜合防治方向發展。未來造紙工業廢水治理將突出以下幾個方面:
(1)貫徹循環經濟理念、重視清潔生產技術的開發與應用,提高物質的轉化率和循環使用率,從源頭上削減各污染物的產生量并在廠內將大量廢水循環回用,實現封閉循環,結合廢水綜合治理,最終實現廢水零排放。
(2)綜合目前國內外技術發展情況,應重視開發和引進先進的治理技術:重視黑液 處理技術(主要為堿 回收 技術)、重 視 SS、BOD、COD 的去除技術及脫色技術。
(3)應重視 生物處理方法在造紙工業廢水處理中的應用,生物技術具有成本低、效益高、與其他方法組合可大大提高造紙廢水的處理率,隨著分子生物學技術、物種微生物技術的發展和應用,具有高效、耐毒性的菌種不斷培育成功,為生物技術的廣泛應用提供了前提條件。
(4)人工濕地處理系統作為一種成本低廉、節能降耗、簡單易行、效果顯著、無二次污染的廢水處理技術,是造紙廢水處理的新方法[15]。
(5)廢紙造紙企業均存在諸多設計、建造、管理問題,阻礙廢水回用現狀的進一步改善。節水空間仍然很大。生產過程中,應加強管理,培養員工節水意識。調動員工積極性,根據實際生產經驗,提出合理的回改進措施[16]。
參考文獻
[1] 張 珂,陳仁銳。丁明秀,等.造紙工業污染防治技術與環境管理[M].北京:輕工業出版社,1988.14-15.
[2] 謝 澄,陳中豪,疏明君,等.生物流化床~化學絮凝法處理紙漿漂白廢水[J].工業用水與廢
水,2002,33(I):27-30.
[3] 黃夏銀,馮彬.造紙廢水處理技術研究現狀及展望[J].污染防治技術,2004,12:17(4):9-11.
[4] 劉全校,安郁琴.臭氧 用于治理造紙廢水.紙和造紙,2000,7:44.
[5] 張志軍,包志成,王克歐.二氧化鈦催化下的氯代二苯并一對一二啞英光解反應[J].環境化學,1996,15(1):47.
[6] M Cfistina Yeber,Jaime Rodrlguez,Juanita Freer,et a1.Photocatalytic Degradation of
C:ellulose Bleaching Effiuent by supportedTiO2 andZ 0.C卜lEM0sPERE2000,41:1193.
[9] 張學洪,解慶林,李金城,等,造紙廢水的混凝處理研究[J].桂林工學院學報,2000,(4):
189-191.
[10] 黃國林,樂長高,粱平.利用聚合物處理造紙廢水的研究[J,環境科學與技術,1997,(1):
24—26.[11] 范懋功.活性 污泥法處理造紙廢水….給水排水,1996,22(12):29—31.
[12] 朱光燦,呂錫武,宋海亮,等,脫木素一缺氧一好氧生物膜工藝處理造紙廢水試驗研究[J],給水排水,2004.30(1):56—59.
[13] 景 峰,王耀新,宋文菊,試論電化學一凝聚法處理造紙廢水[J].黑龍江環境通報,2000,24(2):
81—82.
[14] Model M.Processing Methods for the Oxidation ofOrganics in Supercritical Water『P1.US
Patent:4543(9).1 985.09.24.
[15] 朱光燦,呂錫武,宋海亮,等,造紙廢水治理技術研究現狀及展望[J],污染防治技術,2004.17(4):14.
[16] 張金紅,廢紙造紙廢水回用工藝現狀及改造實例[J],湖北造紙,2010.3:38.
第三篇:信息檢索論文
關于數字化學習資源利用的思考
人資1W 學號:10213103
姓名:陳磊 班級:10摘 要:隨著教育信息化工程的整體推進,要求數字化學習資源的建設也要同步地向前發展。正確認識數字化學習資源建設的現狀,并提出正確有效的舉措與做法,對于數字化學習資源的建設具有重要的指導作用。
關 鍵 詞:數字化學習資源、發展趨勢、應用與開發、質量監控
一、關于數字化學習資源的內容———要關注國際上教育思想的轉變
1.1在考慮數字化學習資源建設的過程中,首先應當看到,從上世紀90年代末到本世紀初這幾年間,整個國際教育界的教育思想有一個大的轉變。[1] 由于在網絡環境下既有豐富的學習資源,又有很強的交互性,便于自主學習、自主探究,所以,隨著網絡的普及,在建構主義理論的支持下,基于網絡的“以學生為中心”的教育思想在上世紀90年代初期、中期甚至到90年代末都一直很流行,而傳統的“以教師為中心”的教育思想則受到嚴厲的批判。與此同時,在教學過程中教師必不可少的主導作用(如正確的啟發引導、重點與難點的分析把握、促進新知與舊知之間的聯系等等)也被當作糟粕扔掉了。
與國際教育界上述教育思想觀念的轉變相適應,數字化學習資源建設的內容也要相應地實現由支持“以教為主”或“以學為主”,轉變為支持“學教并重”。1.2 支持“以教為主”的數字化學習資源,由于其主要關注點是輔助教師解決教學中的重點、難點,提高教學效率,更好地向學生傳授知識(而對學生自主學習、自主探究等活動則缺乏相應的關注與支持),故其內容強調要為一線教師的學科教學提供多媒體課件、CAI課件、典型課例、教學設計方案和各類試題等資源;支持“以學為主”的數字化學習資源,由于其主要關注點是要促進學者的自主學習、自主探究活動和小組的協作學習、協作探究活動(而對如何輔助教師的“教”,則缺乏相應的關注與支持),故其內容應是能起認知探究工具作用與協作交流工具作用的數字化學習資源。
二、關于數字化學習資源的管理———要關注兩個新的發展趨勢
關于數字化學習資源的管理,有兩個新的發展趨勢值得我們關注。
2.1目前對數字化學習資源的管理,主要考慮的問題是如何通過數據庫存儲方式對學習資源的數據內容進行有效的管理,但管理數字化學習資源的最終目的,是為了能在教學過程中充分地利用這些資源。所以,我們在建設數字化學習資源的過程中不僅應當關注學習資源的數據內容管理,同時也應當關注(甚至更應當關注)學習資源應用環境的支持與管理。
學科群資源網站是以不同學科的數字化學習資源為核心,建設起一個集資源共建共享、在線課件開發、聯機備課、學科信息發布、互動交流等功能于一體的多學科、多層次的學科網站群,目的是使數字化學習資源的利用能更加符合教師和學生的思維方式與行為習慣。
2.2目前,絕大部分省、市或地區的數字化學習資源都是分散存儲于該省、市的各個學校或該地區的不同學習資源網站上,應當采用何種機制才能對分散存儲的資源進行有效管理并進行共建、共享,這是數字化學習資源建設關注的焦點之一。我們認為,建立“區域內分布式資源網絡管理系統”是有效解決大范圍數字化學習資源整合與共享問題的較佳方案。建設區域內分布式資源網絡管理系統的核心技術包括兩項內容:
2.2.1對資源目錄的集中管理
本地區的學習資源中心(例如省電教館)要為廣大用戶提供一個能覆蓋本地區所有數字化學習資源網站的資源目錄管理系統,以便本地區不同學習資源網站之間的互相訪問與資源共享。而且,還要有專人對該資源目錄系統進行經常性維護,從而達到本地區范圍內各資源站點目錄的同步更新與統一管理。與此同時,系統還應提供專用的教學搜索引擎,以實現對不同資源站點上相關信息的快速查詢與檢索;當用戶需要打開某個資源時,資源目錄管理系統應提供重定向功能 2.2.2對資源數據的分布式存儲
數字化學習資源網絡系統是由多個資源站點組成的,資源網內每一個提供資源信息服務的站點都是資源網中的一個節點———用于存儲實際的物理資源,資源節點之間基于一定的信任授權關系進行資源互訪,資源元數據信息與本地區學習資源中心目錄管理系統中的目錄信息保持同步,因此可以實現網絡系統內數字化學習資源的分布式存儲和集中式管理,并在本地區范圍內提供廣泛的基于共享的數字化學習資源服務。
三、關于數字化學習資源的質量監控———評審機制的建立和實施
3.1當前數字化學習資源的建設呈無序狀態,很多單位在組織資源建設時,只注重數量而忽視質量。應該通過建立有效的數字化學習資源評審機制,并提高評審結果的科學性和權威性來規范資源建設行為。與此同時,還應制定具有可操作性的數字化學習資源評價指標體系,這種評價指標的制定要突出數字化學習資源的教育特性和新課程標準對學習資源的要求,并要以素質教育和創新教育為基本出發點。3.2 為了保證數字化學習資源評審的科學性與有效性,應當采用專家評審與群眾(用戶)評價相結合的方式。
專家評審應建立包括幾方面專業人員的評審小組,通常應該包括學科教學專家、教育技術專家、信息技術人員、統計人員(對資源評審結果進行統計)等。在整個評審過程中每個成員應各司其職,把好相應環節的質量關。
群眾(用戶)評價從時間上看,分為使用前評價和使用后評價兩種。使用前評價是根據事先制定的數字化學習資源評價指標體系,為不同用戶編寫不同的問卷來獲取評價信息及相應的得分———使用前的評價得分。使用后評價則主要依據公開發布該資源后被引用情況的統計信息(如被點擊次數、被下載次數、被引用次數等)以及用戶使用該資源后在網上的評論信息,把二者結合起來(即把被引用情況的統計信息和網上的評論信息結合起來)進行綜合評價,才能得出相應的得分———使用后的評價得分。再對使用前評價和使用后評價所產生的兩種得分作加權統計———由此即可得出群眾(用戶)評價的總得分。
最后,將專家評審的結果與群眾(用戶)評價的總得分二者結合起來,這才是能夠保證數字化學習資源評審科學性與有效性的最終結果,并可以此作為確定該數字化學習資源評價等級以及收費標準的主要依據。
【參考文獻】
[1]何克抗,從Blending Learning看教育技術理論的新發展[J].電化教育研究,2004,(3):1~6.2
第四篇:信息檢索論文
居民用電遠程抄表系統
長期以來,供電企業電能數據的抄算都是基于電能表的手工作業方式,即每月定期派人到各用戶那里抄錄電能表的用電數據作為電費計算和收繳的依據。隨著電力負荷的急劇增長,一戶一表和直供到戶等營銷舉措的不斷深入,用電企業紛紛將家屬宿舍的用電治理業務交還供電企業,致使供電企業的電量抄錄的工作量急劇膨脹。白銀供電公司在城網農網改造結束后,僅市區居民直供用戶將達到9萬戶,就地分散的手工抄表根本無法適應用電治理的需要。因此,遠程抄表系統的技術研究和產品開發勢在必行。
1遠程自動抄表系統的現狀及其特點
一般情況下,一個家屬樓單元有14~18塊低壓電能表,單元子區數據采集器負責采集其下屬的電能表電量數據,配變集中器則負責收集配電變壓器下面的所有單元子區采集器的數據。從數據傳輸的角度看,其組網方式有:兩級純專線組網方式、兩級混合組網方式、兩級載波組網方式。
從組網拓撲的角度講,只要在用戶電能表、單元子區采集器、配變集中器采用專用信道通信,遠程自動抄表系統的纜線工程量就非常大,有線專用信道的維護也有一定困難。鑒于這種情況,各科研單位和廠商都在努力做到取消單元子區采集器,實現用戶電能表與配變集中器的直接低壓電力線載波通信,這樣就大大減少了纜線工程量,而且數據遠程傳輸的組網拓撲與低壓配電網保持一致,有利于系統的運行維護和用戶數量的模數化擴展。這種拓撲要求一個用戶終端,不但要實現電能計量,還要實現數據信息的編碼、解碼、載波收發等功能。可以構成完全基于低壓電力線信道的載波電能表 配變集中器 營業站主機的組網拓撲。實踐證實:目前市場上已經開發出來的窄帶調制的低壓載波表和配變集中器很難保證電量或控制數據的可靠傳輸。主要原因是低壓電力線載波信道的特性隨機性、時變性很大,非常地不穩定。因此,低壓電力線載波技術是直接通過電力線組網的遠程抄表系統進一步推廣應用的瓶頸。
2試點居民小區遠程抄表系統方案
在為試點居民小區遠程抄表系統做的總體技術方案設計時,本文遵循三條基本原則:
(1)在試點小區的配電變壓器和小區住戶之間不敷設任何專用有線信道,數據的上行或下行傳送必須使用現成的低壓電力線作為數據媒介。
(2)只在配電變壓器和住戶地點對應安裝數據的收發裝置,建立起各用戶電能表終端與配變集中器的直接數據鏈路,中間不安裝任何硬件上的中繼或第二級集中轉發裝置。
(3)用戶電能表終端除了記錄電量外,它還應該執行就地保護和遠方監控功能。
2.1系統組成結構
系統由營業站用電治理主機、配電變壓器集中器、接在配電變壓器低壓電力線上的多個用戶電能表終端(接于A相的A1~Ap終端、接于B相的B1~Bm終端、接于C相的C1~Cn終端)和通信信道組成。配電變壓器集中器和用戶電能表終端分別與配電變壓器、用戶一一對應并就地分布式安裝。用電治理信息只能在系統的上下級之間傳輸。其中用電治理主機到配電變壓器集中器的信息傳輸媒介采用擴頻無線信道或公共電話網(第一級信道),配電變壓器集中器到用戶電能表終端的信息傳輸媒介利用低壓電力線載波信道(第二級信道)。顯然,整個系統與配電變壓器下面的電壓電力網一樣呈樹形分布結構,可隨用戶發展和負荷增長任意擴展。
本系統的任務在于實現低壓用戶電量數據的遠程傳輸和抄算,對低壓電力用戶的負荷和用電進行遠程監控。
由于使用了分布式安裝結構,在系統建設上與集中抄表箱用電系統相比,無須龐大繁瑣的纜線工程,施工難度將會大幅下降。系統的擴展將隨用戶或配變數量的遞增而模數化擴展,就象增加一個用戶增加一塊電能表那樣簡單。因此,系統擴展極具伸縮性,不會象集中式系統那樣新建時資源閑置,用戶發展時容量又不夠。應該說,這個系統比較符合營業用電治理系統發展的主流方向。
2.2網絡通信協議的選擇與研究
在計算機網絡中,信道共享技術已經比較成熟。一般可分為兩類,即受控接入和隨機接入。
隨機接入共享信道的特點是所有用戶都可以根據自己的意愿隨機地發送信息。實際上就是爭用接入,征用勝利者才能獲得總線,從而發送自己的信息。典型的隨機接入是載體偵聽多重訪問/沖突檢測(CSMA/CD)網絡,其為總線型結構,如圖2所示。后文重點介紹的基于CEbus的擴頻載波線性掃頻信號(Chirp)由于具有自相關性,所以適用于CSMA網絡。結合電力線的傳輸特性,綜合比較各種網絡,在本文所要開發的遠抄系統中選用CSMA協議應該是比較合適的。CSMA協議網絡的缺點,如時延不確定、重載時效率下降,對數據傳輸量較小的遠程抄表系統來講,并不是值得考慮的問題。
2.3用戶電能表終端的總體設計
用戶電能表終端由AC/DC開關電源模塊、電量傳感器模塊、故障保護模塊、計量模塊、負荷控制模塊、LED顯示模塊、MCU系統模塊、低壓擴頻載波通信模塊構成。
多輸出開關電源負責為用戶電能表終端供電,它輸出DC 5V0.5A和DC±15V0.5A電源各一組,其交流輸入的設計范圍為AC220V±20。為了降低電源模塊的體積,采用TOP2XX脈寬調制功率開關為核心器件,構成單端反激式電路。
故障保護模塊負責監視低壓用戶的負荷電器的運行情況,當發生短路、過流、漏電或電網電壓超標時,向MCU系統模塊發出信號請求執行斷電控制程序。
計量模塊負責把用戶的用電功率轉化為頻率正比于功率大小的脈沖串,提供給MCU系統模塊進行電量計算。即使用戶實施了竊電行為,它仍然可以輸出正確的電量計算脈沖串,并向MCU系統發出竊電信號。
負荷控制模塊是一個受MCU系統輸出的TTL電平控制的大功率交流無觸點開關,能夠過零關斷或開啟6kW的負荷功率。
MCU系統由AT89C528位單片機、X5045看門狗芯片和DS1302時鐘日歷芯片構成。它是用戶電能表終端的計算監控中心,主要負責對電量脈沖串進行計算或處理,執行就地或遠方的負荷控制程序,與低壓擴頻載波通信模塊進行數據交換并控制其收發信。
顯示模塊由一個8位LED及其動態掃描控制芯片構成,主要完成電量數據的舊的查詢顯示,便于用戶了解自己的電量或電費情況。
低壓擴頻載波模塊主要由SSCP200低壓電力線擴頻載波網絡控制器、前置功放和電力線耦合電路構成,負責對MCU系統送來的數據進行線性掃頻調制,放大后耦合到電力線上,對通過電力線送來的載波信號進行掃頻解調后送給MCU系統。這種數據通信采用了收發分時控制的半雙工通信。該模塊與配變集中器的設計通信距離為1000m。在信道特性最惡劣的情況下,也要保證不小于600m。
2.4配電變壓器集中器的總體設計
配變集中器主要由三個分相耦合的低壓擴頻通信模塊、三個按相配置的電能表模塊、MCU單片機系統、3個雙口RAM和一個工控機系統及電話線調制解調器構成。
低壓擴頻載波通信模塊分相配置,是為了杜絕跨相耦合載波信號,電能表和MCU電路按相配置是為了使集中器能夠并行處理各相的用戶終端數據,增加數據傳輸和處理速度。以上電路基本上與用戶終端類似,只是不具備故障保護、竊電偵測和負荷控制電路而已。
在配變集中器內設置電能表模塊便于對每一相的總電量進行計量和統計分析,以作為用電治理部門考核線損和平衡3相負荷的依據。
工控機完成與每一相的MCU系統交換數據,并通過Modem和公用電話網與營業站抄算主機交換數據信號。上行和下行數據要經過工控機的處理,并在不需要數據通信的時候儲存在工控機的磁盤中。鑒于數據處理量不是很大,選用486工控機就能滿足要求。
2.5營業站抄算主站的總體設計
營業站抄算主機主要由PC機、電話線Modem及其軟件構成。主要負責營業站到配電變壓器集中器之間的數據指令的調制發送、解調接受及綜合分析處理。另外,電話線Modem還可以將營業站用電治理主機與電費托收銀行聯機。
PC微機主要完成用戶用電數據的采集,送電能表參數、用電信息、欠費警告及斷電控制,不安全和違章用電監視報警,用戶用電治理及查詢,報表輸出等功能。
其中,用電采集程序可以進行定時統抄、不定時統抄及單用戶隨時查抄;用電量可按地址統計,也可按相位統計,以便合理地調整配電變壓器A、B、C三相負載的配置,使供電系統的性能發揮得更好;在電費結算時,可通過分時計費,合理定價,使負載基本恒定;電表參數、用電信息可送到用戶終端,從而非常方便地修改電能表參數,顯示用戶的用電量及結算電費;欠費警告及斷電控制功能可督促用戶按時交費;不安全和違章用電監視報警功能可使用電監察人員迅速準確地維護用電秩序;日報表、月報表、年報表的形成和輸出方便而快捷。
3結論與展望
3.1研究結論
我們在幾種不同的環境下對用戶電能表終端和配變集中器進行了測試,取得了比較滿足的結果。依照CEBus標準編制的程序,在傳輸過程中,沒有發現誤碼的存在。不同的測試環境下,干擾強度與信道輸入阻抗的波動范圍是影響擴頻載波可靠通信距離的兩個主要因素,數據通信成功的平均幀延遲時間與平均通信距離的關系較大。
戶表采集器的性能指標如下:
·載波通信距離:架空網或電纜電網均可達1000m;
·抄表成功率:可達99.7;
·抄表正確率:100;
·讀數準確度:計數精度達到小數點后兩位,用戶電能表讀數與標準電能表的誤差不大于1個字(即0.5kWh);
·時鐘誤差:天天小于 1s;
·用戶電能表功耗:待機時≤200mW,發送數據時≤700mW,發送時間≤25ms,接收靈敏度≤2mW;
·采用工業級芯片,環境溫度:-20~ 85℃;
·工作電壓:AC165~260V;
·掉電保護:電源斷電情況下,數據可保存10年;
3.2總結與展望
電能直供到戶是供電企業最重要的營銷舉措,這使得電能營銷部門的電能抄算業務量成倍增長。采用新的遠程抄表技術來改善用電治理和電能營銷的裝備水平、優化電能市場服務的技術手段是供電企業最緊迫的需求。
我國的低壓電能供給都是以配電變壓器為一個臺區單元,在配電變壓器和用戶之間不使用任何獨立的中繼通信設備或專用信道,直接利用低壓電力線構成與低壓電網系統結構相對應的用戶電能表終端+配變集中器+營業站電能抄算主機組網的遠程抄表系統,我們認為這符合低壓遠抄系統的主流發展方向,因而具有推廣應用前景。
具有低壓擴頻載波數據遠傳功能的用戶電能表終端和配變集中器是構成本文所提出的遠程抄表方案的核心裝置。最終的技術目的的實現必須建立在成功地開發用戶電表終端和配變集中器的基礎之上,還要做營業站抄算主機的軟件編制和數據庫編制。顯然本文所做的工作還離這一目標有相當長的一段距離。本文只是對用戶電能表終端及其擴頻載波通信模塊作了實用化開發設計和樣機試制,并且通過樣機的現場測試。配變集中器、軟件只作了一個方案性的設計。
本文所取得的另一個成果就是,把用戶電能表終端設計成一個智能化的綜合性終端,除了完成電能的記錄和計量外,它還具有用戶現場防竊電、防誤接線、故障保護、遠方停送電、遠方修改電能表參數和負荷控制功能,這些技術手段對提高供電企業的用電治理水平無疑具有積極的意義。
參考文獻
[1]邵源,鐘炬,等.關于低壓用戶集中抄表系統綜述.電力系統自動化,1999(9).[2]徐平平,邱玉春.電力集中抄表中的通信技術.電力系統通信,1999(4).[3]楊士中.靜電無繩廣播方法.[4]周世煒,張紹卿,洪文學.一種基于電力配電網絡的雙向工頻通信技術.電子技術,1999(8).[5]邱玉春.利用電力線組網的監控網絡協議選擇.現代通信,2000(1).[6]邱玉春,徐平平.低壓電力線載波通信特性分析.電力系統通信,1998:6(48).
第五篇:信息檢索論文
論搜索引擎中文自動分詞技術
【摘要】
搜索引擎是應用在web上的軟件系統,它以一定的策略搜集和發現信息,再對信息進行處理和組織后為用戶提供web信息查詢服務。搜索引擎分三個大模塊:網頁搜集,預處理和查詢服務。其中對搜索信息的預處理階段的關鍵技術是中文分詞和建立倒排文件,本文主要論述搜索引擎工作過程中的中文自動分詞技術。
【關鍵字】:搜索引擎,中文分詞,分詞方法,分詞難題 【正文】
信息的飛速增長,使搜索引擎成為人們查找信息的首選工具,Google、百度等大型搜索引擎一直是人們討論的話題。目前在中文搜索引擎領域,國內的搜索引擎已經和國外的搜索引擎效果上相差不遠。之所以能形成這樣的局面,有一個重要的原因就在于中文和英文兩種語言自身的書寫方式不同,這其中對于計算機涉及的技術就是中文分詞。
一、為什么要進行分詞?
漢語是世界上最古老和最豐富的語言之一,但是漢語語法才有將近一百年的歷史,而且現代漢語白話文的形成歷史也比較短,加上漢語自身的特點,因此它的形式化研究更加困難。對英文而言,是以詞為單位,詞與詞之間有空格隔開,而中文是以字為單位,多個字連在一起才能構成一個表達具體含義的詞,詞與詞之間沒有分割,因此,對于支持自然語言檢索的工具,從語句中劃分出具有獨立意義的詞的過程即進行中文分詞必不可少。
二、什么是中文分詞?
中文分詞技術就是搜索引擎針對用戶提交查詢的關鍵串進行的查詢處理后,根據用戶的關鍵詞串用各種匹配方法進行的一種技術。中文分詞技術屬于自然語言處理技術范疇,對于一句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過程就是分詞算法。例如,英文句子I am a student,用中文則為:“我是一個學生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。我是一個學生,分詞的結果是:我 是 一個 學生。
三、中文分詞與搜索引擎
分詞技術使用在搜索引擎網頁預處理階段。搜索引擎網頁預處理第一步是為原始網頁建立索引,形成索引網頁庫;第二步是對網頁進行切分,也就是分詞,將每一篇網頁轉化為一組次的集合;最后將網頁索引詞的映射轉化為索引詞到網頁的映射,形成倒排文件。
中文分詞到底對搜索引擎有多大影響?對于搜索引擎來說,最重要的并不是找到所有結果,因為在上百億的網頁中找到所有結果沒有太多的意義,沒有人能看得完,最重要的是把最相關的結果排在最前面,這也稱為相關度排序。中文分詞的準確與否,常常直接影響到對搜索結果的相關度排序。而且中文分詞的準確度,對搜索引擎結果相關性和準確性有相當大的關系。
四、中文分詞技術的分類
我們討論的分詞算法可分為三大類:基于字典、詞庫匹配的分詞方法;基于詞頻度統計的分詞方法和基于知識理解的分詞方法。(一)基于字典、詞庫匹配的分詞方法
這種方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標注過程相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。
常用的幾種機械分詞方法如下:
(1)最大正向匹配法(MaximumMatching Method)通常簡稱為MM法
其基本思想為:假定分詞詞典中的最長詞有i個漢字字符,則用被處理文檔的當前字串中的前i個字作為匹配字段,查找字典。若字典中存在這樣的一個i字詞,則匹配成功,匹配字段被作為一個詞切分出來。如果詞典中找不到這樣的一個i字詞,則匹配失敗,將匹配字段中的最后一個字去掉,對剩下的字串重新進行匹配處理…… 如此進行下去,直到匹配成功,即切分出一個詞或剩余字串的長度為零為止。這樣就完成了一輪匹配,然后取下一個i字字串進行匹配處理,直到文檔被掃描完為止。
(2)逆向最大匹配法(Recerse MaximumMatching Method))通常簡稱為RMM法
RMM法的基本原理與MM法相同 ,不同的是分詞切分的方向與MM法相反,而且使用的分詞辭典也不同。逆向最大匹配法從被處理文檔的末端開始匹配掃描,每次取最末端的2i個字符(i字字串)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個字,繼續匹配。相應地,它使用的分詞詞典是逆序詞典,其中的每個詞條都將按逆序方式存放。在實際處理時,先將文檔進行倒排處理,生成逆序文檔。然后,根據逆序詞典,對逆序文檔用正向最大匹配法處理即可。
由于漢語中偏正結構較多,若從后向前匹配,可以適當提高精確度。所以,逆向最大匹配法比正向最大匹配法的誤差要小。統計結果表明 ,單純使用正向最大匹配的錯誤率為 1/16 9,單純使用逆向最大匹配的錯誤率為 1/245。例如切分字段“碩士研究生產”,正向最大匹配法的結果會是“碩士研究生 / 產”,而逆向最大匹配法利用逆向掃描,可得到正確的分詞結果“碩士 / 研究 / 生產”。
(3)最少切分法:使每一句中切出的詞數最小。還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由于漢語單字成詞的特點,正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現象也較少。統計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統,都是把機械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進一步提高切分的準確率。
一種方法是改進掃描方式,稱為特征掃描或標志切分,優先在待分析字符串中識別和切分出一些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分為較小的串再來進機械分詞,從而減少匹配的錯誤率。另一種方法是將分詞和詞類標注結合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標注過程中又反過來對分詞結果進行檢驗、調整,從而極大地提高切分的準確率。
(二)全切分和基于詞的頻度統計的分詞方法
基于詞的頻度統計的分詞方法是一種全切分方法。在討論這個方法之前我們先要明白有關全切分的相關內容。(1)全切分
全切分要求獲得輸入序列的所有可接受的切分形式,而部分切分只取得一種或幾種可接受的切分形式,由于部分切分忽略了可能的其他切分形式,所以建立在部分切分基礎上的分詞方法不管采取何種歧義糾正策略,都可能會遺漏正確的切分,造成分詞錯誤或失敗。而建立在全切分基礎上的分詞方法,由于全切分取得了所有可能的切分形式,因而從根本上避免了可能切分形式的遺漏,克服了部分切分方法的缺陷。
全切分算法能取得所有可能的切分形式,它的句子覆蓋率和分詞覆蓋率均為100%,但全切分分詞并沒有在文本處理中廣泛地采用。(2)基于詞的頻度統計的分詞方法:
這是一種全切分方法。它不依靠詞典,而是將文章中任意兩個字同時出現的頻率進行統計,次數越高的就可能是一個詞。它首先切分出與詞表匹配的所有可能的詞,運用統計語言模型和決策算法決定最優的切分結果。它的優點在于可以發現所有的切分歧義并且容易將新詞提取出來。
(三)基于知識理解的分詞方法
該方法主要基于句法、語法分析,并結合語義分析,通過對上下文內容所提供信息的分析對詞進行定界,它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷。這類方法試圖讓機器具有人類的理解能力,需要使用大量的語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式。因此目前基于知識的分詞系統還處在試驗階段。
(四)一種新的分詞方法
并行分詞方法:這種分詞方法借助于一個含有分詞詞庫的管道進行 ,比較匹配過程是分步進行的 ,每一步可以對進入管道中的詞同時與詞庫中相應的詞進行比較 ,由于同時有多個詞進行比較匹配 ,因而分詞速度可以大幅度提高。這種方法涉及到多級內碼理論和管道的詞典數據結構。
到底哪種分詞算法的準確度更高,目前并無定論。對于任何一個成熟的分詞系統來說,不可能單獨依靠某一種算法來實現,都需要綜合不同的算法。筆者了解,海量科技的分詞算法就采用“復方分詞法”,所謂復方,相當于用中藥中的復方概念,即用不同的藥才綜合起來去醫治疾病,同樣,對于中文詞的識別,需要多種算法來處理不同的問題。
五、分詞中的難題
有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實遠非如此。中文是一種十分復雜的語言,讓計算機理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破。
(一)切分歧義
就人對漢語的理解而言,漢語的分詞是一個理解的過程,這個過程綜合了詞法、語法、語義等各種信息。因此,一個理想的分詞系統也應綜合運用這些信息,而在計算機處理中這些信息的提取又是以分詞為前提的。所以,分詞與這些信息的運用是既相聯系又相制約的一種相輔相成的關系,而純粹的機械切分必然會帶來切分歧義。
歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:學歷史知識,因為“學歷”和“歷史”都是詞,那么這個短語就可以分成“學歷”和“歷史”。這種稱為交叉歧義。像這種交叉歧義十分常見由于沒有人的知識去理解,計算機很難知道到底哪個方案正確。
交叉歧義相對組合歧義來說是還算比較容易處理,組合歧義就必需根據整個句子來判斷了。例如,在句子“這個門把手壞了”中,“把手”是個詞,但在句子“請把手拿開”中,“把手”就不是一個詞;在句子“將軍任命了一名中將”中,“中將”是個詞,但在句子“產量三年中將增長兩倍”中,“中將”就不再是詞。這些詞計算機又如何去識別? 如果交叉歧義和組合歧義計算機都能解決的話,在歧義中還有一個難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個應該是詞,哪個應該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓 球拍 賣 完 了”、也可切分成“乒乓球 拍賣 完 了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個詞。
(二)新詞
專業術語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實能稱為詞的那些詞。最典型的是人名,人可以很容易理解句子“張三虎是山東人”中,“張三虎”是個詞,因為是一個人的名字,但要是讓計算機去識別就困難了。如果把“張三虎”做為一個詞收錄到字典中去,全世界有那么多名字,而且每時每刻都有新增的人名,收錄這些人名本身就是一項巨大的工程。即使這項工作可以完成,還是會存在問題,例如:在句子“張三虎頭虎腦的”中,“張三虎”還能不能算詞?
新詞中除了人名以外,還有機構名、地名、產品名、商標名、簡稱、省略語等,還有目前網絡流行語詞,如“有沒有”、“傷不起”“神馬浮云”、“童鞋們”、“蘿莉”等等都是很難處理的問題,而且這些又正好是人們經常使用的詞,因此對于搜索引擎來說,分詞系統中的新詞識別十分重要。目前新詞識別準確率已經成為評價一個分詞系統好壞的重要標志之一。
判斷一個系統的中文分詞功能好壞,主要在于消歧功能和對未登錄詞識別功能。并且優秀的分詞策略應該是盡量不拆分,需要拆分時,先把長的拆成中的,如果結果還是少,再把中的拆成短的。
【參考文獻】
【1】 吳勝遠;并行分詞方法的研究--《計算機研究與發展》1997年07期
【2】 張旭;一個基于詞典與統計的中文分詞算法[D];電子科技大學;2007年
【3】 梁斌;走進搜索引擎 電子工業出版社 2007年1月
【4】(美)克羅夫特;搜索引擎:信息檢索實踐 機械工業出版社
2010年