第一篇:自然語言處理的應用及發展趨勢
自然語言處理的應用及發展趨勢
摘要
本文主要闡述了自然語言處理的研究內容,以及對目前相關領域的應用加以討論。自然語言處理的研究內容主要有四大塊[1-2]:語言學方向、數據處理方向、人工智能和認知科學方向、語言工程方向。最后對自然語言處理的未來發展趨勢做簡單的介紹。
關鍵詞 自然語言處理 應用 發展趨勢
一.自然語言處理的研究內容
自然語言處理的范圍涉及眾多方面,如語音的自動識別與合成,機器翻譯,自然語言理解,人機對話,信息檢索,文本分類,自動文摘,等等。我們認為,這些部門可以歸納為如下四個大的方向:(1)語言學方向
本方向是把自然語言處理作為語言學的分時來研究,它之研究語言及語言處理與計算相關的方面,而不管其在計算機上的具體實現。這個方向最重要的研究領域是語法形式化理論和數學理論。(2)數據處理方向
是把自然語言處理作為開發語言研究相關程序以及語言數據處理的學科來研究。這一方向早起的研究有屬于數據庫的建設、各種機器可讀的電子詞典的開發,近些年來則有大規模的語料庫的涌現。(3)人工智能和認知科學方向
在這個方向 中,自然語言處理被作為在計算機上實現自然語言能力的學科來研究,探索自然語言理解的只能機制和認知機制。這一方向的研究與人工智能以及認知科學關系密切。(4)語言工程方向
主要是把自然語言處理作為面向實踐的、工程化的語言軟件開發來研究,這一方向的研究一般稱為“人類語言技術”或者“語言工程”。二.自然語言處理的應用
以上所提及的自然語言處理的四大研究方向基本上涵蓋了當今自然語言處理研究的內容,更加細致的說,自然語言處理可以進一步細化為以下13項研究內容,也即為自然語言處理的應用方向,這13個應用方向分別是[3]:口語輸入、書面語輸入、語言分析和理解、語言生成、口語輸出技術、話語分析與對話、文獻自動處理、多語問題的計算機處理、多模態的計算機處理、信息傳輸與信息存儲、自然語言處理中的數學方法、語言資源、自然語言處理系統的評測。
這13項內容都涉及語言學。這些研究都要對語言進行形式化的描述, 建立合適的算法, 并在計算機上實現這些算法, 因此, 要涉及數學、計算機科學和邏輯學[4]。口語輸入、書面語輸入、口語輸出、信息傳輸與信息存儲都需要電子工程的技術。由自然語言的應用領域更加進一步說明,自然語言處理都是一個多邊緣的交叉學科。由于它的對象是語言, 因此, 它基本上是一個語言學科, 但它還涉及眾多的學科, 特別是計算機科學和數學。三.自然語言處理研究的發展趨勢
21世紀以來, 由于國際互聯網的普及, 自然語言的計算機處理成為了從互聯網上獲取知識的重要手段, 生活在信息網絡時代的現代人, 幾乎都要與互聯網打交道, 都要或多或少地使用自然語言處理的研究成果來獲取或挖掘在廣闊無邊的互聯網上的各種知識和信息, 因此, 世界各國都非常重視有關的研究, 投入了大量的人力、物力和財力[5]。
自然語言處理研究的歷史雖不很長,但就目前已有的成果足以顯示它的重要性和應用前景。在美、英、日、法等發達國家,自然語言處理如今不僅作為人工智能的核心課題來研究.而且也作為新一代計算機的核心課題來研究。從知識產業的角度來看.自然語言處理的軟件也占重要地位,專家系統,數據庫、知識庫.計算機輔助設計系統(CAD)、計算機輔助教學系統(CAl)、計算機輔助決策系統,辦公室自動化管理系統、智能機器人等,無一不需要用自然語言做人一機界面。從長遠看.具有篇章理解能力的自然語言理解系統可用于機器自動翻譯、情報檢索、自動標引,自動文摘.自動寫故事小說等領域,具有廣闊的應用領域和令人鼓舞的應用前景。
當前國外自然語言處理研究有三個顯著的特點[6]:第一, 隨著語料庫建設和語料庫語言學的崛起, 大規模真實文本的處理成為自然語言處理的主要戰略目標。第二, 自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。第三, 自然語言處理中越來越多地使用統計數學方法來分析語言數據。目前,我國的自然語言處理研究雖然已經取得不少成績, 但是與國際水平相比, 差距還很大。我國的自然語言處理研究, 無論在理論上還是在應用系統的開發上, 基本上還沒有重大的創新與值得稱道的突破。我們的研究基本上還是跟蹤性的研究, 很少有創造性的研究, 當然更談不上具有原創思想的研究了。因此, 我們不能夜郎自大, 不能坐井觀天,我們只有努力學習國外的先進成果, 趕上并超過國際先進水平, 使我國的自然語言處理在國際先進行列中占有一席之地,掌握國際先進的成果與技術用于國家和社會的進一步發展。
參考文獻: [1] 李堂秋,《自然語言處理》講義,廈門大學計算機科學系.[2] 辛日華.計算機自然語言處理.呼倫貝爾學院學報,2003,11(1)[3] 白碩,《計算語言學》講義,中國科學院計算技術研究所.[4] 詹衛東,《計算語言學概論》講義,北京大學中文系.[5] 馮志偉.自然語言處理的學科地位.解放軍外國語學院學報,2005,28(3)[6] 馮志偉.自然語言處理的歷史與現狀,2008.
第二篇:自然語言處理
自然語言處理(Natural Language Processing簡稱NLP)是人工智能和語言學領域的分支學科。在這此領域中探討如何處理及運用自然語言;自然語言認知則是指讓電腦“懂”人類的語言。
自然語言生成系統把計算機數據轉化為自然語言。自然語言理解系統把自然語言轉化為計算機程序更易于處理的形式。
理論上,NLP是一種很吸引人的人機交互方式。早期的語言處理系統如SHRDLU,當它們處于一個有限的“積木世界”,運用有限的詞匯表會話時,工作得相當好。這使得研究員們對此系統相當樂觀,然而,當把這個系統拓展到充滿了現實世界的含糊與不確定性的環境中時,他們很快喪失了信心。
由于理解(understanding)自然語言,需要關于外在世界的廣泛知識以及運用操作這些知識的能力,自然語言認知,同時也被視為一個人工智能完備(AI-complete)的問題。同時,在自然語言處理中,“理解”的定義也變成一個主要的問題。
自然語言處理研究的難點 單詞的邊界界定
在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。詞義的消歧
許多字詞不單只有一個意思,因而我們必須選出使句意最為通順的解釋。句法的模糊性 自然語言的文法通常是模棱兩可的,針對一個句子通??赡軙饰觯≒arse)出多棵剖析樹(Parse Tree),而我們必須要仰賴語意及前后文的資訊才能在其中選擇一棵最為適合的剖析樹。有瑕疵的或不規范的輸入
例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字符識別(OCR)的錯誤。語言行為與計劃
句子常常并不只是字面上的意思;例如,“你能把鹽遞過來嗎”,一個好的回答應當是把鹽遞過去;在大多數上下文環境中,“能”將是糟糕的回答,雖說回答“不”或者“太遠了我拿不到”也是可以接受的。再者,如果一門課程去年沒開設,對于提問“這門課程去年有多少學生沒通過?”回答“去年沒開這門課”要比回答“沒人沒通過”好。
第三篇:自然語言處理常用模型方法總結
自然語言處理常用模型使用方法總結
一、N元模型
思想:
如果用變量W代表一個文本中順序排列的n個詞,即W = W1W2…Wn,則統計語言模型的任務是給出任意詞序列W 在文本中出現的概率P(W)。利用概率的乘積公式,P(W)可展開為:P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1),不難看出,為了預測詞Wn的出現概率,必須已知它前面所有詞的出現概率。從計算上來看,這太復雜了。如果任意一個詞Wi的出現概率只同它前面的N-1個詞有關,問題就可以得到很大的簡化。這時的語言模型叫做N元模型(N-gram),即P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wi|wi-N+1…wi-1)…實際使用的通常是N=2 或N=3的二元模型(bi-gram)或三元模型(tri-gram)。以三元模型為例,近似認為任意詞Wi的出現概率只同它緊接的前面的兩個詞有關。重要的是這些概率參數都是可以通過大規模語料庫來估值的。比如三元概率有P(wi|wi-2wi-1)≈ count(wi-2 wi-1… wi)/ count(wi-2 wi-1)式中count(…)表示一個特定詞序列在整個語料庫中出現的累計次數。統計語言模型有點像天氣預報的方法。用來估計概率參數的大規模語料庫好比是一個地區歷年積累起來的氣象紀錄,而用三元模型來做天氣預報,就像是根據前兩天的天氣情況來預測今天的天氣。天氣預報當然不可能百分之百正確。這也算是概率統計方法的一個特點吧。(摘自黃昌寧論文《中文信息處理的主流技術是什么?》)
條件: 該模型基于這樣一種假設,第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
問題:
雖然我們知道元模型中, n越大約束力越強,但由于計算機容量和速度的限制及數據的稀疏,很難進行大n的統計。
二、馬爾可夫模型以及隱馬爾可夫模型
思想:
馬爾可夫模型實際上是個有限狀態機,兩兩狀態間有轉移概率;隱馬爾可夫模型中狀態不可見,我們只能看到輸出序列,也就是每次狀態轉移會拋出個觀測值;當我們觀察到觀測序列后,要找到最佳的狀態序列。隱馬爾科夫模型是一種用參數表示的用于描述隨機過程統計特性的概率模型,是一個雙重隨機過程,由兩個部分組成:馬爾科夫鏈和一般隨機過程。其中馬爾科夫鏈用來描述狀態的轉移,用轉移概率描述。一般隨機過程用來描述狀態與觀察序列之間的關系,用觀察值概率描述。因此,隱馬爾可夫模型可以看成是能夠隨機進行狀態轉移并輸出符號的有限狀態自動機,它通過定義觀察序列和狀態序列的聯合概率對隨機生成過程進行建模。每一個觀察序列可以看成是由一個狀態轉移序列生成,狀態轉移過程是依據初始狀態概率分布隨機選擇一個初始狀態開始,輸出一個觀察值后再根據狀態轉移概率矩陣隨機轉移到下一狀態,直到到達某一預先指定的結束狀態為止,在每一個狀態將根據輸出概率矩陣隨機輸出一個觀察序列的元素。
一個 HMM有 5個組成部分,通常記為一個五元組{S,K, π,A,B},有時簡寫為一個三元組{π ,A,B},其中:①S是模型的狀態集,模型共有 N個狀態,記為 S={s1,s2, ?,sN};②K是模型中狀態輸出符號的集合,符號數為 M,符號集記為K={k1,k2,?,kM};③是初始狀態概率分布,記為 ={ 1, 2,?, N},其中 i是狀態 Si作為初始狀態的概率;④A是狀態轉移概率矩陣,記為A={aij},1≤i≤N,1≤j≤N。其中 aij是從狀態 Si轉移到狀態 Sj的概率;⑤B是符號輸出概率矩陣,記為B={bik},1≤i≤N,1≤k≤M。其中 bik是狀態 Si輸出 Vk的概率。要用HMM解決實際問題,首先需要解決如下 3個基本問題:①給定一個觀察序列 O=O1O2?OT和模型{ π,A,B},如何高效率地計算概率P(O|λ),也就是在給定模型的情況下觀察序列O的概率;②給定一個觀察序列 O=O1O2?OT和模型{ π,A,B},如何快速地選擇在一定意義下“最優”的狀態序列Q=q1q2?qT,使得該狀態序列“最好地解釋”觀察序列;③給定一個觀察序列 O=O1O2?OT,以及可能的模型空間,如何來估計模型參數,也就是說,如何調節模型{π,A,B}的參數,使得 P(O|λ)最大。
問題:
隱馬模型中存在兩個假設:輸出獨立性假設和馬爾可夫性假設。其中,輸出獨立性假設要求序列數據嚴格相互獨立才能保證推導的正確性,而事實上大多數序列數據不能被表示 2 成一系列獨立事件。
三、最大熵模型
最大熵原理原本是熱力學中一個非常重要的原理,后來被廣泛應用于自然語言處理方面。其基本原理很簡單:對所有的已知事實建模,對未知不做任何假設。也就是建模時選擇這樣一個統計概率模型,在滿足約束的模型中選擇熵最大的概率模型。若將詞性標注或者其他自然語言處理任務看作一個隨機過程,最大熵模型就是從所有符合條件的分布中,選擇最均勻的分布,此時熵值最大。
求解最大熵模型,可以采用拉格朗日乘數法,其計算公式為:
p?y?x??1??exp???ifi(x,y)?Z?(x)?i?
??Z?(x)??exp???ifi(x,y)?y?i?為歸一化因子 ,?i是對應特征的權重,fi表示其中,一個特征。每個特征對詞性選擇的影響大小由特征權重學習算法自動得到。
?i決定,而這些權值可由GIS或IIS
四、支持向量機
原理:
支持向量機的主要思想可以概括為兩點:(1)它是針對線性可分情況進行分析,對于線性不可分的情況, 通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能;(2)它基于結構風險最小化理論之上在特征空間中建構最優分割超平面,使得學習器得到全局最優化,并且在整個樣本空間的期望風險以某個概率滿足一定上界。
支持向量機的目標就是要根據結構風險最小化原理,構造一個目標函數將兩類模式盡可能地區分開來, 通常分為兩類情況來討論,:(1)線性可分;(2)線性不可分。
線性可分情況
在線性可分的情況下,就會存在一個超平面使得訓練樣本完全分開,該超平面可描述為: w ·x + b = 0(1)其中,“·”是點積, w 是n 維向量, b 為偏移量。
最優超平面是使得每一類數據與超平面距離最近的向量與超平面之間的距離最大的這樣的平面.3 最優超平面可以通過解下面的二次優化問題來獲得: 滿足約束條件: , i = 1 ,2 ,3 ,......, n.(3)
在特征數目特別大的情況,可以將此二次規劃問題轉化為其對偶問題:
(4)
(5)(6 滿足約束條件:
這里
(7)
是Lagrange 乘子,是最優超平面的法向量,是最優超平面的偏移量,在這類優化問題的求解與分析中, KKT條件將起到很重要的作用,在(7)式中,其解必須滿足:
從式(5)可知,那些
(8)
= 0 的樣本對分類沒有任何作用,只有那些
> 0 的樣本才對分類起作用,這些樣本稱為支持向量,故最終的分類函數為:
根據f(x)的符號來確定X 的歸屬。線性不可分的情況
(9)對于線性不可分的情況,可以把樣本X 映射到一個高維特征空間H,并在此空間中運用原空間的函 數來實現內積運算,這樣將非線性問題轉換成另一空間的線性問題來獲得一個樣本的歸屬.根據泛函的有關理論,只要一種核函數滿足Mercer 條件,它就對應某一空間中的內積,因此只要在最優分類面上采用適當的內積函數就可以實現這種線性不可分的分類問題.此時的目標函數為:
0)
(1 4 其分類函數為:(11)
內積核函數 :
目前有三類用的較多的內積核函數:第一類是
(12)
我們所能得到的是p階多項式分類器,第二類是徑向基函數(RBF),也稱作高斯核函數:
第三類是Sigmoid函數
特點:
概括地說,支持向量機就是首先通過內積函數定義的非線性變換將輸入空間變換到另一個高維空間,在這個空間中求最優分類面。SVM分類函數形式上類似于一個神經網絡,輸出是中間節點的線性組合,每個中間節點對應一個輸入樣本與一個支持向量的內積,因此也叫做支持向量網絡。
SVM方法的特點:
① 非線性映射是SVM方法的理論基礎,SVM利用內積核函數代替向高維空間的非線性映射;② 對特征空間劃分的最優超平面是SVM的目標,最大化分類邊際的思想是SVM方法的核心;③ 支持向量是SVM的訓練結果,在SVM分類決策中起決定作用的是支持向量。
SVM 是一種有堅實理論基礎的新穎的小樣本學習方法。它基本上不涉及概率測度及大數定律等,因此不同于現有的統計方法。從本質上看,它避開了從歸納到演繹的傳統過程,實現了高效的從訓練樣本到預報樣本的“轉導推理”,大大簡化了通常的分類和回歸等問題。
SVM 的最終決策函數只由少數的支持向量所確定,計算的復雜性取決于支持向量的數目,而不是樣本空間的維數,這在某種意義上避免了“維數災難”。少數支持向量決定了最終結果,這不但可以幫助我們抓住關鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡單,而且具有較好的“魯棒”性。這種 “魯棒”性主要體現在: ①增、刪非支持向量樣本對模型沒有影響;②支持向量樣本集具有一定的魯棒性;③有些成功的應用中,SVM 方法對核的選取不敏感
五、條件隨機場
原理:
條件隨機場(CRFs)是一種基于統計的序列標記識別模型,由John Lafferty等人在2001年首次提出。它是一種無向圖模型,對于指定的節點輸入值,它能夠計算指定的節點輸出值上的條件概率,其訓練目標是使得條件概率最大化。線性鏈是CRFs中常見的特定圖結構之一,它由指定的輸出節點順序鏈接而成。一個線性鏈與一個有限狀態機相對應,可用于解決序列數據的標注問題。在多數情況下,CRFs均指線性的CRFs。用x=(x1,x2,…,xn)表示要進行標注的數據序列,y=(y1,y2,…,yn)表示對應的結果序列。例如對于中文詞性標注任務,x可以表示一個中文句子x=(上海,浦東,開發,與,法制,建設,同步),y則表示該句子中每個詞的詞性序列y=(NR,NR,NN,CC,NN,NN,VV)。
對于(X,Y),C由局部特征向量f和對應的權重向量λ確定。對于輸入數據序列x和標注結果序列y,條件隨機場C的全局特征表示為
F?y,x???f?y,x,i?i ⑴
其中i遍歷輸入數據序列的所有位置,f(y,x,i)表示在i位置時各個特征組成的特征向量。于是,CRFs定義的條件概率分布為
p?(Y,X)?其中 exp????F?Y,X???Z??X?
⑵
Z??X???exp????F?y,x???y ⑶
給定一個輸入數據序列X,標注的目標就是找出其對應的最可能的標注結果序列了,即
y?argmaxp??y|x?y ⑷
由于Zλ(X)不依賴于y,因此有
y?argmaxp??y|x??argmax??F?y,x?yy ⑸
CRFs模型的參數估計通常采用L—BFGS算法實現,CRFs解碼過程,也就是求解未知串標注的過程,需要搜索計算該串上的一個最大聯合概率,解碼過程采用Viterbi算法來完成。
CRFs具有很強的推理能力,能夠充分地利用上下文信息作為特征,還可以任意地添加其他外部特征,使得模型能夠獲取的信息非常豐富。CRFs通過僅使用一個指數模型作為在給定觀測序列條件下整個標記序列的聯合概率,使得該模型中不同狀態下的不同特征權值可以彼此交替,從而有效地解決了其他非生成有向圖模型所產生的標注偏置的問題。這些特點,使得CRFs從理論上講,非常適合中文詞性標注。‘
總結
首先,CRF,HMM(隱馬模型)都常用來做序列標注的建模,像詞性標注,True casing。但隱馬模型一個最大的缺點就是由于其輸出獨立性假設,導致其不能考慮上下文的特征,限制了特征的選擇,而另外一種稱為最大熵隱馬模型則解決了這一問題,可以任意的選擇特征,但由于其在每一節點都要進行歸一化,所以只能找到局部的最優值,同時也帶來了標記偏見的問題(label bias),即凡是訓練語料中未出現的情況全都忽略掉,而條件隨機場則很好的解決了這一問題,他并不在每一個節點進行歸一化,而是所有特征進行全局歸一化,因此可以求得全局的最優值。目前,條件隨機場的訓練和解碼的開源工具還只支持鏈式的序列,復雜的尚不支持,而且訓練時間很長,但效果還可以。最大熵隱馬模型的局限性在于其利用訓練的局部模型去做全局預測。其最優預測序列只是通過viterbi算法將局部的最大熵模型結合而成的。條件隨機場,隱馬模型,最大熵隱馬模型這三個模型都可以用來做序列標注模型。但是其各自有自身的特點,HMM模型是對轉移概率和表現概率直接建模,統計共現概率。而最大熵隱馬模型是對轉移概率和表現概率建立聯合概率,統計時統計的是條件概率。最大熵隱馬模型容易陷入局部最優,是因為最大熵隱馬模型只在局部做歸一化,而CRF模型中,統計了全局概率,在 做歸一化時,考慮了數據在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM中的標記偏置的問題。
第四篇:《自然語言理解》課程設計
自然語言理解課程設計報告 姓名
組員
所在學院
專業年級
報告提交時間
聯系電話
電子信箱
趙子豪黃承功趙子豪2011級電子信息工程*** zzh0526ac@163.com
課題分析
機器翻譯(machine translation),又稱為自動翻譯,是利用計算機把一種自然源語言轉變為另一種自然目標語言的過程,一般指自然語言之間句子和全文的翻譯。它是自然語言處理(Natural Language Processing)的一個分支,與計算語言學(Computational Linguistics)、自然語言理解(Natural Language Understanding)之間存在著密不可分的關系。
機器翻譯的研究是建立在語言學、數學和計算機科學這3門學科的基礎之上的。語言學家提供適合于計算機進行加工的詞典和語法規則,數學家把語言學家提供的材料形式化和代碼化,計算機科學家給機器翻譯提供軟件手段和硬件設備,并進行程序設計。缺少上述任何一方面,機器翻譯就不能實現,機器翻譯效果的好壞,也完全取決于這3個方面的共同努力。
機器翻譯系統可以分為多種類型:基于規則的機器翻譯系統,基于語料庫的機器翻譯系統,基于實例的機器翻譯系統,多引擎機器翻譯系統,語音機器翻譯系統。隨著因特網的發展,網絡上的語言障礙越來越嚴重,為了克服網絡交流中的語言障礙,還出現了一些專門面向網絡的機器翻譯系統。國內外研究進展 已經取得的進步:
?近十幾年來,機器翻譯取得了巨大的進步
?統計機器翻譯取得巨大成功,從基于詞的模型發展
到了基于短語的模型和基于句法的模型
?機器翻譯的統計方法和規則方法走向融合?機器翻譯系統開發效率大為提高:數年-->數周?應用范圍大大拓展:Google翻譯支持幾十種語言
?翻譯質量也有了明顯上升,已經成為日常工具
依然面臨的困難:
?翻譯質量仍然不夠理想(嬰兒期)
?需要大規模訓練語料庫:數據稀疏問題
?需要與應用場合相近的語料:領域適應性
?語言形態的復雜性還沒有好的處理辦法
?語言之間差異性很大時翻譯質量不理想
各系統主要技術要點
Systran:基于規則的機器翻譯系統
美國的SYSTRAN系統:美國在喬治敦大學機器翻譯系統的基礎上,進一步開發了大型的機器翻譯系統SYSTRAN,已達到實用水平。例如,提供給美國空軍的SYSTRAN系統,詞典有16.8萬個詞干形式和I3.6萬個詞組,可進行俄英機器翻譯,每小時可翻譯15萬詞;提供給美國拉特塞克(Latsec)公司的SYSTRAN系統,可進行俄英、英俄、德英、漢法、漢英機器翻譯,每小時可
譯30萬—35萬個詞。SYSTRAN是目前應用最為廣泛、所開發的語種最為豐富的一個實用化機器翻譯系統。
AT&T公司的語音機器翻譯系統
AT&T公司的阿爾薩瓦基(AlshawaKi,1998)等開發的語音翻譯系統由語音識別、機器翻譯、語音合成三部分組成。他們在機器翻譯部分采用的算法非常獨特,這實際上是一個基于平行概率語法的機器翻譯系統。
Verbmobil系統
Verbmobil系統與我們所熟悉的文本翻譯系統的不同之處主要體現在: —語音處理:要進行語音識別和語音合成。該系統的目標很高,實現了GSM語音條件下的自動翻譯,除了一開始撥打Verbmobil語音服務電話以外,整個系統的服務可完全用GSM電話通過語音方式實現,無需任何按鍵操作;系統具有語音自適應能力,一開始使用與說話者無關的語音識別模塊,通過一段時間對話后,自動適應說話者的口音,提高識別正確率;
—處理自然的語音:要考慮現實口語中的各種復雜現象,如停頓、重復、修正、漏詞等等;要建立對話模型,理解句子的語義,并考慮上下文進行翻譯,甚至要猜測說話者的意圖
TRASLATION ADAPTORⅡ
NEC公司的”TRASLATION ADAPTORⅡ”:能進行英日和日英的雙向翻譯,除翻譯之外,還可進行查詞典、例句檢索、英文主頁寫作、英文電子郵件寫作等工作,翻譯時對于英日文化差異而形成的語文中的細微色彩的不同比較注意,基本詞典9萬詞,價格9800日元。
雅信CAT-2.5和東方快車3000
雅信CAT-2.5以詞為單位進行切分,東方快車3000以詞組為單位,兩種軟件都帶有專業詞庫,并綜合了近年來計算機語言學的一些成果,如引入了復雜特征集等,對于賓語從句,定語從句翻譯也注意了譯文的詞序的重新排列。然而,國內的翻譯軟件似乎基本上都采用上下文無關語法,其優點是編澤程序過程用時短,縮短了開發周期,見效較快。這種語法20世紀60年代曾在國外機譯研究中被廣泛采用,但它的不足之處在上述兩種軟件中也有所體現。
各系統性能比較分析
Google和Systran翻譯比較
Google翻譯均較Systran的得分高,在連貫性上Google翻譯也均較Systran的得分高,說明Google翻譯的譯文質量較高。在新聞、商業文本和小說類型上,兩個翻譯系統所存在的差異較小。在小說文本中,兩個翻譯系統均取得了最高的分數,而體育新聞的翻譯則得分最低。在體育文章上,Google翻譯比Systran得分又相對高一些。在完整性和連貫性上,完整性的得分也比連貫性要高。兩種系統在小說上得分差異最小,在體育上得分差異最大。
對Google和Systran翻譯的四種類型文本譯文的評估結果,Google翻譯在所有的四種文本類型上都比Systran的表現更好??傮w來看,Google譯文的得分要比Systran的高,平均分相差0.1265,其中商業文本差距最大,小說差距最小。從不同類型文本的得分來看,小說得分最高,體育報道類得分最低;兩種系統得分相比,在小說上得分差異最小,在體育上得分差異最大。
將人工評估結果與BLEU的進行對比分析,發現它們對兩個翻譯系統譯文質量評價具有一致性。表現在:均認為Google翻譯譯文要比Sys-tran譯文質量高;均認為小說的譯文質量最高,體育報道的譯文質量最差;均認為系統之間小說類上得分差異最小,在體育上得分差異最大。這種現象的產生原因是BLEU的評估基于N-gram(大詞匯連續語音識別中常用的一種語言模型,國際上處于主流地位的一種分詞方法,它按照固定單詞數進行分詞,單詞數目(N)越大,準確性就越高)對標準譯文和原文比對,句子的意思完全不同仍可獲得較高的分數。
AT&T公司的語音機器翻譯系統
這種方法的主要特點是:
1.訓練可以全自動進行,效率很高,由一個雙語句子對齊的語料庫可以很快訓練出一個機器翻譯系統;
2.不使用任何人為定義的語言學標一記(如詞性、短語類、語義類
等等),無需任何語言學知識;
3.訓練得到的參數包含了句子的深層結構信息,這一點比IBM的統計語言模型更好。
這種方法比較適合于語音翻譯這種領域較受限、詞匯集較小的場合,對一于大規模的文本翻譯并不合適。,但這種做法對我們開拓思路還是非常有借鑒意義的。
Verbmobil系統
多種基準的測試以及大規模端對端評價實驗令人信服地表明,Verbmobil的最終版本系統中達到了所有的預定目標,有些目標甚至被超越了。在大規模翻譯實驗中,正確翻譯率達到大約80%在真實用戶的端對端測試中,90%的對話任務獲得成功。
TRASLATION ADAPTORⅡ
—詞典容量大而不失其準:由于網絡上英語涉及面廣,詞匯十分豐富,網絡翻譯系統的詞典容量都很大,至少可以幫助人們查詢不認識的生詞,弄清生詞的準確含義;
—翻譯速度快而不失其要:便于在網上快速瀏覽并查找所需要的信息,了解網上信息的梗概要略,譯文具有可讀性。
—譯文質量粗而不失其信:譯文能傳達英文原文的意思,以“信”為首先的追求目標,而不要求做到譯文的“達”和“雅”。
—翻譯方式多而不失其巧:既可以使用Web瀏覽器將英語原文下載到PC機上進行翻譯,也可以在網絡上直接控制進行翻譯,一也可以使用poxy代理服務器代表客戶機傳送服務請求,通過翻譯軟件在Web瀏覽器上把英語直接翻譯為日語,還可以僅只查詞典,翻譯方式多樣而巧妙,以適應不同用戶的要求。
—文本格式嚴而不失其便:譯文盡量保持英語原文的“超文本”特點,滿足HTML超文本置標語言的要求,便于用戶在網絡中暢游。
未來的研究展望
半個世紀以來,機器翻譯研究雖幾經曲折但終究已經得到了普遍的承認,其應用也已愈益廣泛。特別令人鼓舞的是無論是國外還是國內現在已有那么
多的商品化系統進入市場,尤其是PC機譯產品。同時隨著PC的普及以及為滿足瀏覽因特網的需求,機譯產品進入千家萬戶的趨勢已開始顯露。
機器翻譯的展望世界機器翻譯研究已走過了50多年的曲折歷程,目前一些翻譯軟件產品如“龍方雅信CAT”等基本上已達到了實用水平。隨著全球網絡化和經濟全球化的發展,機器翻譯在農業及其他領域的應用前景會越來越廣闊。對于機器翻譯研究者來說,如何進一步提高機器翻譯系統的翻譯質量是機器翻譯研究的核心,也是他們始終追求的目標和責任,需要計算機、語言學、心理學、邏輯學、數學、人工智能等多學科的綜合研究成果。技術方面,預計在雙語/多語語料庫多級加工、統計方法和機器學習方法、轉換方法、語義和知識表示等幾方面將得到研究進展。應用方面,在Internet環境下的應用、個人計算方面的應用、領域受限的子語言應用、翻譯工作站和翻譯輔助工具等幾方面將得到進一步的開發應用。對于農業數字圖書館,以上機器翻譯技術的發展將整體提高它的多語種農業信息的提供能力,從而更好地為農業數字圖書館的用戶提供服務??梢韵嘈?,隨著機器翻譯研究和計算機技術的不斷深入發展,終將有一天,世界上不同語種國家的人們可以借助機器翻譯產品達到在各種場合自然無障礙的交流。
參考文獻
1.《機器翻譯研究》-馮志偉著2004
2.《機器翻譯技術的進展與展望》劉群、王海峰、王惠臨、宗成慶、趙鐵軍、史曉東、朱靖波、陳家俊、張民2011-12
3.《機器翻譯研究的展望》董振東
4.《中國機器翻譯研究的機遇與挑戰:第八屆全國機器翻譯研討會總結與展望》杜金華;張萌;宗成慶;孫樂
5.《Systran和Google翻譯系統英譯漢質量評價—以四類文本翻譯為例》廖夢麟(海南醫學院外語部,海南??冢担罚保保梗梗?/p>
6.百度百科“機器翻譯”
7.《外語翻譯文化第3輯》-屠國元主編2003
8.《外語翻譯文化第3輯》-屠國元主編2003 P211
第五篇:光電子的發展趨勢及應用
用光
電 子
技 術 發 展
態 勢 及 應
光電子技術發展態勢及應用
1.光電子學的出現和發展
光學的發展歷程古老而又漫長,電子學的發展則相對較短。光子學和光子技術可以認為是從1960年激光器誕生才開始出現的一門新型科學與技術。電子學和電子技術是20世紀發展起來的科學技術,現已處于高度發展的水平,廣泛的應用于社會各個領域,并且已滲透到日常生活之中,目前正由微電子學與技術向納米電子學與技術、分子電子學與技術發展。光電子學作為這兩個學科的交叉點是一門新興的學科。關于光的電磁性質及其在介質中的行為,早在19世紀就已經用麥克斯韋(Maxwell)的經典電磁理論進行了研究,關于光的吸收和輻射,在1017年愛因斯坦(Einstein)就建立了系統的理論。但是直到20世紀60年代之前,光學和電子學仍然是兩門獨立的學科。
1960年世界上第一臺激光器研制成功,這標志著光學的發展進入了一個新階段。隨后在對激光器和激光應用的廣泛研究中,電子學發揮了重要的作用,光學和電子學的研究有了廣泛的交叉,形成了激光物理、非線性光學、波導光學等新學科。70年代以來,由于半導體激光器和光纖技術的重要突破,導致了以光纖傳感、光纖傳輸、光盤信息存儲與顯示、光計算以及光信息處理等技術的蓬勃發展,從深度和廣度上促進了光學和電子學及其他相應學科(數學、物理、材料等學科)之間的相互滲透,形成了一個邊沿的研究領域。為此需要引進一個名詞來覆蓋這一非常廣泛的應用研究領域,學術界曾經使用的名詞有電光學(Electo-optics)、光電子學(Optoelectronics)、量子電子學(Quanumelectronics)、光波技術(LightWaveTechnology)、光子學(Photonics)等【1】。隨著時間的推移,現在用的較多的名詞是“光電子學(Optoelectronics)”和“光子學(Photonics)”。光電子學沿用電子學的有關理論,主要研究有光參與的電子器件和系統。光子學是把光子作為信息的載體和能量的載體來研究,包括光的產生、傳輸、調制、放大、頻率轉換和檢測等。事實上,光電子學和光子學其本質是一致的,只不過其強調的重點不一樣,光電子學強調電子的作用,光子學強調光子的作用。
2.光電子技術的應用
光電子學一經出現就引起了人們的廣泛關注,反過來又進一步促進了光電子學及光電子技術的發展。光電子技術包括光的產生、傳輸、調制、放大、頻率轉換和檢測以及光信息處理等。光電子技術應用涉及范圍極其廣泛,包括天文、地理、物理、化學、計量、生物、醫學、工業、農業、軍事等各個領域。目前其應用已進入到家庭。
2.1辦公現代化設備的應用
辦公現代化設備主要是隨計算機迅速普及而發展起來的高技術產業, 各國廠商正在競爭中不斷開發新一代產品。美日的蘋果、兄弟、惠普、佳能、富士通、數據產品、國際商用機器等30余家廠商的主攻產品是激光打印機,推出了幾十種高中低檔產品。激光打印機兼負現代文書和管理文件打印、輕印刷系統和臺式出版系統的排版任務, 配合計算機的一部分功能, 是各國眾多公司競相發展的熱門產品之一。隨著微機日益普及, 我國對作為重要外圍設備之一的激光打印機需求量正迅速增長。目前國內市場的激光打印機均為進口或國內組裝產品, 尚無國產。2.2 材料加工的發展
在工業先進國家, 激光加工的地位很高,衡量一個國家工業生產效率及其在發達國家中的位置, 很大程度上取決于其工業用激光器的制造及其引入生產的進度。激光焊接、打孔、切割、微加工等多方面工業應用, 效益同樣非??捎^。這些方面在國外加工中占據主要地位, 由于國內材料加工業的技術改造資金來源受體制影響有極大困難, 因而沒有形成有影響的產業, 只有通過體制改革發展我國的激光材料加工業。
2.3 激光醫學應用
激光在醫學中的應用是眾所共知的具有最好社會效益和經濟效益的熱門應用。國外激光醫療器械朝著眼科治療、顯微手術、微血管吻合、血管阻塞疏通等高精細手術裝置發展, 而國內生產單位仍固守體表治療、激光針灸和穴位治療、氣功信息治療等具有中醫特色的簡易激光器械生產, 高精細手術用的激光器械, 或因銷售情況不佳, 或因技術條件不足, 或因資金較為困難, 沒有產品上市, 市場只好拱手讓給美日廠商,國內的激光醫療器械市場極大的。
2.4 通信、存儲領域中的應用
光電子技術在這類熱點應用中潛力很大, 如通信、存儲、條碼掃描、質量檢驗、全息照相、激光刻蝕和繪畫、娛樂設備等, 都充當了重要角色。激光和光電子在其它消費類應用中的份額, 在世界市場上也呈逐年增長的趨勢。
2.5 礦井安全中的應用
隨著光電技術, 尤其是光電子器件的發展, 紅外型傳感器用于各種危險場合氣體成分的檢測已逐漸成為現實。紅外線瓦斯傳感器工作穩定, 可滿足不同地點、不同精度的要求, 并且易維護, 使用壽命長, 適應性強。光纖傳感器具有一些常規傳感器無可比擬的優點, 如靈敏度高, 響應速度快, 動態范圍大,防電磁干擾, 超高絕緣, 無源性, 防燃防爆, 適于遠距離遙測, 體積小, 可靈活柔性撓曲等, 很適于在惡劣和危險環境中應用, 因而得到廣泛重視。分布式光纖傳感利用光導纖維具有的傳輸雙重特性,實現對待測場光纖分布的多點甚至連續點測量,以達到取代多臺獨立點傳感器的目的。
3.光電子技術研究的幾個方向和熱點
光電子技術不斷地向前發展,特別是近年來,出現了很多新的發展趨勢和研究熱點。
3.1各種新型激光器的研究 激光器是光電子技術的核心,正是激光器的問世與發展促使了光電子學的興起與發展。在光電子技術的發展中,激光器也得到了迅速的發展。近年來各種新型激光器的不斷涌現,又為光電子學和光電子技術的進一步發展注入了新的活力。半導體激光器又稱為二極管激光器,廣泛地應用于各個領域,尤其是與計算機、通信技術和軍事技術應用緊密結合,因此其技術和市場一直呈高速增長的趨勢【2】,半導體激光器已經成為激光器的主流。量子阱超晶格人工改性新結構、新材料的出現及能帶工程的成功應用推動了光電子器件和半導體激光器的發展,半導體激光器的研究向寬帶寬、大功率、短波長以及中遠紅外波長發展。隨著半導體激光器的發展,全固化固體激光器將以更優異的性能取代傳統泵浦方式的固體激光器,成為固體激光器發展的主流。其他激光器如原子激光器的研究等也取得了進展。
3.2 硅基光電子技術的研究 我們知道,硅和鍺是微電子學中最重要的基質材料,在硅材料上發展起來的集成電路已對電子計算機、通信和自動控制等信息技術起了關鍵的作用。隨著信息技術的日益發展,對信息的傳遞速度、存儲能力、處理能力提出了更高的要求。但是硅集成電路受到尺寸和硅質材料中電子運動速度的限制,很難滿足發展的要求。如果能在硅芯片中引入光電子技術,用光波代替電子作為信息載體,則可大大地提高信息傳輸速度和處理能力。由于硅和鍺都是間接帶隙材料,電子不能直接由導帶底躍遷到價帶頂發出光子,為了滿足動量守恒定律,它只能通過發射或吸收一個聲子,間接躍遷到價帶頂。這是一種多體效應,躍遷幾率很小【3】,因此硅和鍺都是發光效率低的材料。為了克服硅材料發光效率低的問題,實現在一塊硅片上集成電子器件和發光器件,也為了發展硅基光電子技術,國外研究人員進行了不懈的努力,為了提高硅(或鍺)的發光效率,提出和研究了多種硅基發光材料,如摻鉺硅、多孔硅、納米硅、硅基異質外延、超晶格和量子阱材料等,并取得了一定的成果。Kimerling等人【4】采用標準的集成電路工藝,在SOI(Si-on-insulator)上將側面光發射的摻鉺硅發光管與硅波導集成在一起。Ksybeskov等人【5】和Hirschman等人【6】采用硅微電子制備工藝將雙極晶體管和多孔硅發光管集成在一個硅片上。另據報道,英國的一個科研小組最近研究出了一種在室溫下能發光的全硅的發光二極管(LED)。我們相信,將來有可能出現一種全硅的激光器。硅基光電子技術正向集成化發展。一旦實現了全硅光電集成,將對光電子技術其他方面的發展具有重要的意義。
3.3 有機聚合物光電子材料的研究 隨著材料科學的發展,有機聚合物材料的日趨成熟,聚合物光電子學日益為人們所重視。據1993年I BM公司的Almaden研究中心報道,他們使用聚合物電光調制器和832nm半導體激光器實現了6個模擬電視信號的同時傳輸和接收,第一次在模擬信號傳輸中使用聚合物調制器并獲得較高的信噪比。由于有機聚合物的合成、加工、器件制備方面相對容易、價格低廉,而且它們有相對低的介電常數,因而有更高的調制頻率和較低的驅動功率,并且容易與半導體器件和光纖傳輸集成,具有響應性能快、非線性光學系數大等優點,引起了人們的廣泛興趣。聚合物熱光開關的工作原理是這樣的:當DC或A C電流通過薄金屬層時,加熱引起的聚合物的線性膨脹,使得聚合物的折射率降低。與電光開關的情況相比,熱光調制引起的折射率要大得多,最高可以達到0.01?,F在AKZONOBEL公司已經批量生產聚合物熱光開關【7】。人們開展了聚合物超快全光開關的研究,并取得了一定進展。聚合物電光調制器在CATV、高比特網絡、相陣列系統和計算機平行互聯等方面的研究也取得了很大的進展。聚合物光電子材料的應用前景十分誘人。
3.4光互連、光計算技術的研究 在因特網迅速發展的今天,信息快速入網和出網的分派能力決定系統所傳輸的巨大信息量能實時利用的有效性。相對于光信息傳輸器件來說,光信息交換互連技術器件的發展不如光信息傳輸的發展快【8】,因此有必要加強對光交換技術的研究。光互連技術的內容主要包括光交換網絡和電子計算機的光互連,這是在信息光學中最有廣泛應用前景的研究領域。在光交換網絡的光互連中,還應多研究在集成光學中的光波導交換開關、自由空間光學中的多級交換網絡。在電子計算機的光互連中,還應多研究芯片間的自由空間和波導光互連,插件板之間的自由空間和波導光互連,多處理器之間的自由空間或光纖互連及并行計算機的光學總成等。以數值計算為目的的光計算研究分為專用性的光計算系統和通用性的光計算系統兩大領域,數值的光學處理又分為模擬量編碼和數字量編碼兩種。專用性計算系統主要包括以光學矩陣運算為主導的光學代數運算器通用的光計算系統的算法和體系,主要借助于已有的并行計算機的算法和體系。在光互連和光計算領域的研究方面,國外的研究人員已經開始研究在路由器中用全光學矩陣開關來取代原有的電開關,并在光計算方面也取得了進展。
3.5大容量光存儲的研究
現代化信息社會對大容量、快速存取時間的存儲系統有著日益增長的要求。傳統使用的存儲采用磁盤技術,這一技術發展相當成熟,磁盤的存儲容量大(可以達到幾十G)、存取時間短(0.1ms)、存儲時間長并且可擦寫。但是它遇到兩方面的困難:一是尺寸限制,二是信噪比難以提高。傳統的磁盤存儲方法由于其存儲素元難以進一步縮小,很難提高其存儲容量了。而光盤作為存儲介質和光子技術的使用,是大幅度提高存儲容量的出路。光盤的存儲量決定于記錄介質寫入位尺寸和寫讀斑的大小。采用短波長的半導體激光器,可以大幅度降低介質光斑的大小,提高存儲容量。目前選用波長為780nm和640nm的激光器,采用復膜技術及雙光頭讀寫技術,已使存儲容量達到數G b范圍。為進一步提高存儲容量,一方面使用更短波長的激光器并進行光斑壓縮;另一方面,也可通過改變存儲介質和存儲方法來提高存儲量。與此同時,發展新型的集成激光器面陣和高密度半導體低維結構高速空間光調制器也將促進高密度存儲技術的發展。今年4月23日至25日在美國召開的“光學數據存儲2001年會”上,日本的東芝、三菱電子、NEC等三家大公司同時報道了光盤單面存儲密度為25~32GB的實驗結果。近場光學存儲,以超衍射分辨為特征,從根本上克服了點存儲的密度極限限制,無疑是光盤存儲的重要發展方向。其技術難點集中在近場距離的控制上,通過適當的技術手段,保持頭盤間距能夠限制在近場范圍之內,近場存儲就有望成為下一代盤式存儲的主要技術手段【9】。
3.6生物醫學中的光電子技術
生命科學是當今世界科技發展的最大熱點之一,也是光電子技術的一個重要應用領。近年來,生物醫學中的光電子技術研究十分活躍,發展十分迅速,它將開拓生命科學的一個新領域。目前,生物醫學中的光電子技術研究的主要內容包括兩個方面:一是生物系統中產生的光子及其反映的生命過程,以及這種光子在生物學研究、醫學診斷、農業、環境、甚至食品品質檢查方面的重要應用,利用光電子技術對生物系統進行檢測、治療、加工與改造等。二是醫學光電子學基礎和技術,包括組織光學、醫學光譜技術、醫學成像技術、新穎的激光診斷和激光醫療技術及其作用機理的研究。
參考文獻
【1】殷一賢。關于光電子學與光子學【J】。激光雜志19 98,1 9(1):12 0?!?】陳維德。21世紀的光學和光電子學講座(第二講):硅基發光材料和器件研究 【J】。物理,2000,2 8(12):74 1-745。
【4】Kimerling LC,Kolenbrander KD,MichelJetal。SolidStatePhys,19 97,5 0:3 33341?!? 】Keil N,Yao H,ZawadzkiC。Integrated Photonics Research【Z】。1998 Technical DigestSeries,Canada :Vactoria。353-355。
【8】吳榮漢。21世紀的光學和光電子學講座(第三講):信息網絡與半導體光電子學【J】。物理,2000,29(1):45-49?!?】孫利群,章恩耀,王佳等?;诮鼒龉鈱W超衍射分辨力的高密度光存儲【J】。光電子·激光,2001,12(6):646-652。