第一篇:自然的語(yǔ)言高三作文
自然的語(yǔ)言高三作文
在平平淡淡的日常中,大家都不可避免地會(huì)接觸到作文吧,作文是通過(guò)文字來(lái)表達(dá)一個(gè)主題意義的記敘方法。相信很多朋友都對(duì)寫作文感到非常苦惱吧,以下是小編收集整理的自然的語(yǔ)言高三作文,歡迎大家分享。
大自然豐富多彩,奧妙神奇,如一個(gè)新新世界,無(wú)處不在訴說(shuō)它的語(yǔ)言,只要你細(xì)細(xì)聆聽(tīng),就會(huì)聽(tīng)見(jiàn)大自然親切的語(yǔ)言。
夜晚,月亮婆婆掛上了樹(shù)梢。突然,一下繁星滿天,一定是這些調(diào)度的小星星耐不住寂寞,給銀河“牢房”劃了道口子,逃了出來(lái)。準(zhǔn)備在天上逛街呢!小星星快活地眨著眼睛,提著燈籠大街小巷地穿梭。這下可好了,牢里的小星星看了羨慕不已,把“玉皇大帝”的'警告拋向了九霄云外,也逃了出來(lái)。這會(huì)兒真是眾星云集,星光燦爛了!瞧!有幾個(gè)小星星正圍著月亮婆婆的故事呢!真好比眾星拱月呀!這時(shí),一個(gè)上女孩在陽(yáng)臺(tái)觀看這美麗的夜景,發(fā)出驚嘆:“呀!好美的夜空啊!我有生以來(lái),還沒(méi)見(jiàn)過(guò)這么美的星空!”一個(gè)大人聽(tīng)見(jiàn)這驚嘆聲后走了過(guò)來(lái),是女的,一定是小女孩的媽媽,她看著這滿天的繁星,自言自語(yǔ)道:“明天一定是個(gè)大晴天。”旁邊的小女孩聽(tīng)了,疑惑不解地問(wèn):“媽媽,你怎么會(huì)知道明天一定是個(gè)大晴天呢?”媽媽笑了笑,說(shuō):“寶貝,你瞧,天空上這么多星星預(yù)示著明天是個(gè)晴天呀!”女孩似懂非懂地點(diǎn)了點(diǎn)頭。天上的星星聽(tīng)見(jiàn)了她們倆的對(duì)話,高興得跳起了舞蹈……果然,第二天早上,陽(yáng)光明媚,小鳥(niǎo)在枝頭喳喳地叫……
時(shí)光飛逝,日月如梭,一轉(zhuǎn)眼當(dāng)年的那個(gè)小女孩已經(jīng)讀四年級(jí)了。有一天,科學(xué)老師讓他們?nèi)バ@里觀察螞蟻。小女孩在一棵大樹(shù)下蹲了下來(lái),只見(jiàn)她的眼睛直鉤鉤地盯著一群螞蟻。哦,原來(lái)它們?cè)诎峒已剑@可是千載難逢的好機(jī)會(huì)呀!看,一只大螞蟻要頭陣,扛著沙發(fā)帶領(lǐng)抱著食物的的搬運(yùn)工向新家奔去,幾只強(qiáng)壯的大螞蟻合力抬起一只螳螂,走幾步,歇一歇,再走幾步,放下休息休息,快到新家時(shí),它們竭盡全力,喊著:“嗨喲,嗨喲”的口號(hào),向前奔去。忽然,女孩的腦子里有一個(gè)
第二篇:自然語(yǔ)言處理
自然語(yǔ)言處理(Natural Language Processing簡(jiǎn)稱NLP)是人工智能和語(yǔ)言學(xué)領(lǐng)域的分支學(xué)科。在這此領(lǐng)域中探討如何處理及運(yùn)用自然語(yǔ)言;自然語(yǔ)言認(rèn)知?jiǎng)t是指讓電腦“懂”人類的語(yǔ)言。
自然語(yǔ)言生成系統(tǒng)把計(jì)算機(jī)數(shù)據(jù)轉(zhuǎn)化為自然語(yǔ)言。自然語(yǔ)言理解系統(tǒng)把自然語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)程序更易于處理的形式。
理論上,NLP是一種很吸引人的人機(jī)交互方式。早期的語(yǔ)言處理系統(tǒng)如SHRDLU,當(dāng)它們處于一個(gè)有限的“積木世界”,運(yùn)用有限的詞匯表會(huì)話時(shí),工作得相當(dāng)好。這使得研究員們對(duì)此系統(tǒng)相當(dāng)樂(lè)觀,然而,當(dāng)把這個(gè)系統(tǒng)拓展到充滿了現(xiàn)實(shí)世界的含糊與不確定性的環(huán)境中時(shí),他們很快喪失了信心。
由于理解(understanding)自然語(yǔ)言,需要關(guān)于外在世界的廣泛知識(shí)以及運(yùn)用操作這些知識(shí)的能力,自然語(yǔ)言認(rèn)知,同時(shí)也被視為一個(gè)人工智能完備(AI-complete)的問(wèn)題。同時(shí),在自然語(yǔ)言處理中,“理解”的定義也變成一個(gè)主要的問(wèn)題。
自然語(yǔ)言處理研究的難點(diǎn) 單詞的邊界界定
在口語(yǔ)中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最為通順且在文法上無(wú)誤的一種最佳組合。在書寫上,漢語(yǔ)也沒(méi)有詞與詞之間的邊界。詞義的消歧
許多字詞不單只有一個(gè)意思,因而我們必須選出使句意最為通順的解釋。句法的模糊性 自然語(yǔ)言的文法通常是模棱兩可的,針對(duì)一個(gè)句子通常可能會(huì)剖析(Parse)出多棵剖析樹(shù)(Parse Tree),而我們必須要仰賴語(yǔ)意及前后文的資訊才能在其中選擇一棵最為適合的剖析樹(shù)。有瑕疵的或不規(guī)范的輸入
例如語(yǔ)音處理時(shí)遇到外國(guó)口音或地方口音,或者在文本的處理中處理拼寫,語(yǔ)法或者光學(xué)字符識(shí)別(OCR)的錯(cuò)誤。語(yǔ)言行為與計(jì)劃
句子常常并不只是字面上的意思;例如,“你能把鹽遞過(guò)來(lái)嗎”,一個(gè)好的回答應(yīng)當(dāng)是把鹽遞過(guò)去;在大多數(shù)上下文環(huán)境中,“能”將是糟糕的回答,雖說(shuō)回答“不”或者“太遠(yuǎn)了我拿不到”也是可以接受的。再者,如果一門課程去年沒(méi)開(kāi)設(shè),對(duì)于提問(wèn)“這門課程去年有多少學(xué)生沒(méi)通過(guò)?”回答“去年沒(méi)開(kāi)這門課”要比回答“沒(méi)人沒(méi)通過(guò)”好。
第三篇:《自然語(yǔ)言理解》課程設(shè)計(jì)
自然語(yǔ)言理解課程設(shè)計(jì)報(bào)告 姓名
組員
所在學(xué)院
專業(yè)年級(jí)
報(bào)告提交時(shí)間
聯(lián)系電話
電子信箱
趙子豪黃承功趙子豪2011級(jí)電子信息工程*** zzh0526ac@163.com
課題分析
機(jī)器翻譯(machine translation),又稱為自動(dòng)翻譯,是利用計(jì)算機(jī)把一種自然源語(yǔ)言轉(zhuǎn)變?yōu)榱硪环N自然目標(biāo)語(yǔ)言的過(guò)程,一般指自然語(yǔ)言之間句子和全文的翻譯。它是自然語(yǔ)言處理(Natural Language Processing)的一個(gè)分支,與計(jì)算語(yǔ)言學(xué)(Computational Linguistics)、自然語(yǔ)言理解(Natural Language Understanding)之間存在著密不可分的關(guān)系。
機(jī)器翻譯的研究是建立在語(yǔ)言學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)這3門學(xué)科的基礎(chǔ)之上的。語(yǔ)言學(xué)家提供適合于計(jì)算機(jī)進(jìn)行加工的詞典和語(yǔ)法規(guī)則,數(shù)學(xué)家把語(yǔ)言學(xué)家提供的材料形式化和代碼化,計(jì)算機(jī)科學(xué)家給機(jī)器翻譯提供軟件手段和硬件設(shè)備,并進(jìn)行程序設(shè)計(jì)。缺少上述任何一方面,機(jī)器翻譯就不能實(shí)現(xiàn),機(jī)器翻譯效果的好壞,也完全取決于這3個(gè)方面的共同努力。
機(jī)器翻譯系統(tǒng)可以分為多種類型:基于規(guī)則的機(jī)器翻譯系統(tǒng),基于語(yǔ)料庫(kù)的機(jī)器翻譯系統(tǒng),基于實(shí)例的機(jī)器翻譯系統(tǒng),多引擎機(jī)器翻譯系統(tǒng),語(yǔ)音機(jī)器翻譯系統(tǒng)。隨著因特網(wǎng)的發(fā)展,網(wǎng)絡(luò)上的語(yǔ)言障礙越來(lái)越嚴(yán)重,為了克服網(wǎng)絡(luò)交流中的語(yǔ)言障礙,還出現(xiàn)了一些專門面向網(wǎng)絡(luò)的機(jī)器翻譯系統(tǒng)。國(guó)內(nèi)外研究進(jìn)展 已經(jīng)取得的進(jìn)步:
?近十幾年來(lái),機(jī)器翻譯取得了巨大的進(jìn)步
?統(tǒng)計(jì)機(jī)器翻譯取得巨大成功,從基于詞的模型發(fā)展
到了基于短語(yǔ)的模型和基于句法的模型
?機(jī)器翻譯的統(tǒng)計(jì)方法和規(guī)則方法走向融合?機(jī)器翻譯系統(tǒng)開(kāi)發(fā)效率大為提高:數(shù)年-->數(shù)周?應(yīng)用范圍大大拓展:Google翻譯支持幾十種語(yǔ)言
?翻譯質(zhì)量也有了明顯上升,已經(jīng)成為日常工具
依然面臨的困難:
?翻譯質(zhì)量仍然不夠理想(嬰兒期)
?需要大規(guī)模訓(xùn)練語(yǔ)料庫(kù):數(shù)據(jù)稀疏問(wèn)題
?需要與應(yīng)用場(chǎng)合相近的語(yǔ)料:領(lǐng)域適應(yīng)性
?語(yǔ)言形態(tài)的復(fù)雜性還沒(méi)有好的處理辦法
?語(yǔ)言之間差異性很大時(shí)翻譯質(zhì)量不理想
各系統(tǒng)主要技術(shù)要點(diǎn)
Systran:基于規(guī)則的機(jī)器翻譯系統(tǒng)
美國(guó)的SYSTRAN系統(tǒng):美國(guó)在喬治敦大學(xué)機(jī)器翻譯系統(tǒng)的基礎(chǔ)上,進(jìn)一步開(kāi)發(fā)了大型的機(jī)器翻譯系統(tǒng)SYSTRAN,已達(dá)到實(shí)用水平。例如,提供給美國(guó)空軍的SYSTRAN系統(tǒng),詞典有16.8萬(wàn)個(gè)詞干形式和I3.6萬(wàn)個(gè)詞組,可進(jìn)行俄英機(jī)器翻譯,每小時(shí)可翻譯15萬(wàn)詞;提供給美國(guó)拉特塞克(Latsec)公司的SYSTRAN系統(tǒng),可進(jìn)行俄英、英俄、德英、漢法、漢英機(jī)器翻譯,每小時(shí)可
譯30萬(wàn)—35萬(wàn)個(gè)詞。SYSTRAN是目前應(yīng)用最為廣泛、所開(kāi)發(fā)的語(yǔ)種最為豐富的一個(gè)實(shí)用化機(jī)器翻譯系統(tǒng)。
AT&T公司的語(yǔ)音機(jī)器翻譯系統(tǒng)
AT&T公司的阿爾薩瓦基(AlshawaKi,1998)等開(kāi)發(fā)的語(yǔ)音翻譯系統(tǒng)由語(yǔ)音識(shí)別、機(jī)器翻譯、語(yǔ)音合成三部分組成。他們?cè)跈C(jī)器翻譯部分采用的算法非常獨(dú)特,這實(shí)際上是一個(gè)基于平行概率語(yǔ)法的機(jī)器翻譯系統(tǒng)。
Verbmobil系統(tǒng)
Verbmobil系統(tǒng)與我們所熟悉的文本翻譯系統(tǒng)的不同之處主要體現(xiàn)在: —語(yǔ)音處理:要進(jìn)行語(yǔ)音識(shí)別和語(yǔ)音合成。該系統(tǒng)的目標(biāo)很高,實(shí)現(xiàn)了GSM語(yǔ)音條件下的自動(dòng)翻譯,除了一開(kāi)始撥打Verbmobil語(yǔ)音服務(wù)電話以外,整個(gè)系統(tǒng)的服務(wù)可完全用GSM電話通過(guò)語(yǔ)音方式實(shí)現(xiàn),無(wú)需任何按鍵操作;系統(tǒng)具有語(yǔ)音自適應(yīng)能力,一開(kāi)始使用與說(shuō)話者無(wú)關(guān)的語(yǔ)音識(shí)別模塊,通過(guò)一段時(shí)間對(duì)話后,自動(dòng)適應(yīng)說(shuō)話者的口音,提高識(shí)別正確率;
—處理自然的語(yǔ)音:要考慮現(xiàn)實(shí)口語(yǔ)中的各種復(fù)雜現(xiàn)象,如停頓、重復(fù)、修正、漏詞等等;要建立對(duì)話模型,理解句子的語(yǔ)義,并考慮上下文進(jìn)行翻譯,甚至要猜測(cè)說(shuō)話者的意圖
TRASLATION ADAPTORⅡ
NEC公司的”TRASLATION ADAPTORⅡ”:能進(jìn)行英日和日英的雙向翻譯,除翻譯之外,還可進(jìn)行查詞典、例句檢索、英文主頁(yè)寫作、英文電子郵件寫作等工作,翻譯時(shí)對(duì)于英日文化差異而形成的語(yǔ)文中的細(xì)微色彩的不同比較注意,基本詞典9萬(wàn)詞,價(jià)格9800日元。
雅信CAT-2.5和東方快車3000
雅信CAT-2.5以詞為單位進(jìn)行切分,東方快車3000以詞組為單位,兩種軟件都帶有專業(yè)詞庫(kù),并綜合了近年來(lái)計(jì)算機(jī)語(yǔ)言學(xué)的一些成果,如引入了復(fù)雜特征集等,對(duì)于賓語(yǔ)從句,定語(yǔ)從句翻譯也注意了譯文的詞序的重新排列。然而,國(guó)內(nèi)的翻譯軟件似乎基本上都采用上下文無(wú)關(guān)語(yǔ)法,其優(yōu)點(diǎn)是編澤程序過(guò)程用時(shí)短,縮短了開(kāi)發(fā)周期,見(jiàn)效較快。這種語(yǔ)法20世紀(jì)60年代曾在國(guó)外機(jī)譯研究中被廣泛采用,但它的不足之處在上述兩種軟件中也有所體現(xiàn)。
各系統(tǒng)性能比較分析
Google和Systran翻譯比較
Google翻譯均較Systran的得分高,在連貫性上Google翻譯也均較Systran的得分高,說(shuō)明Google翻譯的譯文質(zhì)量較高。在新聞、商業(yè)文本和小說(shuō)類型上,兩個(gè)翻譯系統(tǒng)所存在的差異較小。在小說(shuō)文本中,兩個(gè)翻譯系統(tǒng)均取得了最高的分?jǐn)?shù),而體育新聞的翻譯則得分最低。在體育文章上,Google翻譯比Systran得分又相對(duì)高一些。在完整性和連貫性上,完整性的得分也比連貫性要高。兩種系統(tǒng)在小說(shuō)上得分差異最小,在體育上得分差異最大。
對(duì)Google和Systran翻譯的四種類型文本譯文的評(píng)估結(jié)果,Google翻譯在所有的四種文本類型上都比Systran的表現(xiàn)更好。總體來(lái)看,Google譯文的得分要比Systran的高,平均分相差0.1265,其中商業(yè)文本差距最大,小說(shuō)差距最小。從不同類型文本的得分來(lái)看,小說(shuō)得分最高,體育報(bào)道類得分最低;兩種系統(tǒng)得分相比,在小說(shuō)上得分差異最小,在體育上得分差異最大。
將人工評(píng)估結(jié)果與BLEU的進(jìn)行對(duì)比分析,發(fā)現(xiàn)它們對(duì)兩個(gè)翻譯系統(tǒng)譯文質(zhì)量評(píng)價(jià)具有一致性。表現(xiàn)在:均認(rèn)為Google翻譯譯文要比Sys-tran譯文質(zhì)量高;均認(rèn)為小說(shuō)的譯文質(zhì)量最高,體育報(bào)道的譯文質(zhì)量最差;均認(rèn)為系統(tǒng)之間小說(shuō)類上得分差異最小,在體育上得分差異最大。這種現(xiàn)象的產(chǎn)生原因是BLEU的評(píng)估基于N-gram(大詞匯連續(xù)語(yǔ)音識(shí)別中常用的一種語(yǔ)言模型,國(guó)際上處于主流地位的一種分詞方法,它按照固定單詞數(shù)進(jìn)行分詞,單詞數(shù)目(N)越大,準(zhǔn)確性就越高)對(duì)標(biāo)準(zhǔn)譯文和原文比對(duì),句子的意思完全不同仍可獲得較高的分?jǐn)?shù)。
AT&T公司的語(yǔ)音機(jī)器翻譯系統(tǒng)
這種方法的主要特點(diǎn)是:
1.訓(xùn)練可以全自動(dòng)進(jìn)行,效率很高,由一個(gè)雙語(yǔ)句子對(duì)齊的語(yǔ)料庫(kù)可以很快訓(xùn)練出一個(gè)機(jī)器翻譯系統(tǒng);
2.不使用任何人為定義的語(yǔ)言學(xué)標(biāo)一記(如詞性、短語(yǔ)類、語(yǔ)義類
等等),無(wú)需任何語(yǔ)言學(xué)知識(shí);
3.訓(xùn)練得到的參數(shù)包含了句子的深層結(jié)構(gòu)信息,這一點(diǎn)比IBM的統(tǒng)計(jì)語(yǔ)言模型更好。
這種方法比較適合于語(yǔ)音翻譯這種領(lǐng)域較受限、詞匯集較小的場(chǎng)合,對(duì)一于大規(guī)模的文本翻譯并不合適。,但這種做法對(duì)我們開(kāi)拓思路還是非常有借鑒意義的。
Verbmobil系統(tǒng)
多種基準(zhǔn)的測(cè)試以及大規(guī)模端對(duì)端評(píng)價(jià)實(shí)驗(yàn)令人信服地表明,Verbmobil的最終版本系統(tǒng)中達(dá)到了所有的預(yù)定目標(biāo),有些目標(biāo)甚至被超越了。在大規(guī)模翻譯實(shí)驗(yàn)中,正確翻譯率達(dá)到大約80%在真實(shí)用戶的端對(duì)端測(cè)試中,90%的對(duì)話任務(wù)獲得成功。
TRASLATION ADAPTORⅡ
—詞典容量大而不失其準(zhǔn):由于網(wǎng)絡(luò)上英語(yǔ)涉及面廣,詞匯十分豐富,網(wǎng)絡(luò)翻譯系統(tǒng)的詞典容量都很大,至少可以幫助人們查詢不認(rèn)識(shí)的生詞,弄清生詞的準(zhǔn)確含義;
—翻譯速度快而不失其要:便于在網(wǎng)上快速瀏覽并查找所需要的信息,了解網(wǎng)上信息的梗概要略,譯文具有可讀性。
—譯文質(zhì)量粗而不失其信:譯文能傳達(dá)英文原文的意思,以“信”為首先的追求目標(biāo),而不要求做到譯文的“達(dá)”和“雅”。
—翻譯方式多而不失其巧:既可以使用Web瀏覽器將英語(yǔ)原文下載到PC機(jī)上進(jìn)行翻譯,也可以在網(wǎng)絡(luò)上直接控制進(jìn)行翻譯,一也可以使用poxy代理服務(wù)器代表客戶機(jī)傳送服務(wù)請(qǐng)求,通過(guò)翻譯軟件在Web瀏覽器上把英語(yǔ)直接翻譯為日語(yǔ),還可以僅只查詞典,翻譯方式多樣而巧妙,以適應(yīng)不同用戶的要求。
—文本格式嚴(yán)而不失其便:譯文盡量保持英語(yǔ)原文的“超文本”特點(diǎn),滿足HTML超文本置標(biāo)語(yǔ)言的要求,便于用戶在網(wǎng)絡(luò)中暢游。
未來(lái)的研究展望
半個(gè)世紀(jì)以來(lái),機(jī)器翻譯研究雖幾經(jīng)曲折但終究已經(jīng)得到了普遍的承認(rèn),其應(yīng)用也已愈益廣泛。特別令人鼓舞的是無(wú)論是國(guó)外還是國(guó)內(nèi)現(xiàn)在已有那么
多的商品化系統(tǒng)進(jìn)入市場(chǎng),尤其是PC機(jī)譯產(chǎn)品。同時(shí)隨著PC的普及以及為滿足瀏覽因特網(wǎng)的需求,機(jī)譯產(chǎn)品進(jìn)入千家萬(wàn)戶的趨勢(shì)已開(kāi)始顯露。
機(jī)器翻譯的展望世界機(jī)器翻譯研究已走過(guò)了50多年的曲折歷程,目前一些翻譯軟件產(chǎn)品如“龍方雅信CAT”等基本上已達(dá)到了實(shí)用水平。隨著全球網(wǎng)絡(luò)化和經(jīng)濟(jì)全球化的發(fā)展,機(jī)器翻譯在農(nóng)業(yè)及其他領(lǐng)域的應(yīng)用前景會(huì)越來(lái)越廣闊。對(duì)于機(jī)器翻譯研究者來(lái)說(shuō),如何進(jìn)一步提高機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量是機(jī)器翻譯研究的核心,也是他們始終追求的目標(biāo)和責(zé)任,需要計(jì)算機(jī)、語(yǔ)言學(xué)、心理學(xué)、邏輯學(xué)、數(shù)學(xué)、人工智能等多學(xué)科的綜合研究成果。技術(shù)方面,預(yù)計(jì)在雙語(yǔ)/多語(yǔ)語(yǔ)料庫(kù)多級(jí)加工、統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法、轉(zhuǎn)換方法、語(yǔ)義和知識(shí)表示等幾方面將得到研究進(jìn)展。應(yīng)用方面,在Internet環(huán)境下的應(yīng)用、個(gè)人計(jì)算方面的應(yīng)用、領(lǐng)域受限的子語(yǔ)言應(yīng)用、翻譯工作站和翻譯輔助工具等幾方面將得到進(jìn)一步的開(kāi)發(fā)應(yīng)用。對(duì)于農(nóng)業(yè)數(shù)字圖書館,以上機(jī)器翻譯技術(shù)的發(fā)展將整體提高它的多語(yǔ)種農(nóng)業(yè)信息的提供能力,從而更好地為農(nóng)業(yè)數(shù)字圖書館的用戶提供服務(wù)。可以相信,隨著機(jī)器翻譯研究和計(jì)算機(jī)技術(shù)的不斷深入發(fā)展,終將有一天,世界上不同語(yǔ)種國(guó)家的人們可以借助機(jī)器翻譯產(chǎn)品達(dá)到在各種場(chǎng)合自然無(wú)障礙的交流。
參考文獻(xiàn)
1.《機(jī)器翻譯研究》-馮志偉著2004
2.《機(jī)器翻譯技術(shù)的進(jìn)展與展望》劉群、王海峰、王惠臨、宗成慶、趙鐵軍、史曉東、朱靖波、陳家俊、張民2011-12
3.《機(jī)器翻譯研究的展望》董振東
4.《中國(guó)機(jī)器翻譯研究的機(jī)遇與挑戰(zhàn):第八屆全國(guó)機(jī)器翻譯研討會(huì)總結(jié)與展望》杜金華;張萌;宗成慶;孫樂(lè)
5.《Systran和Google翻譯系統(tǒng)英譯漢質(zhì)量評(píng)價(jià)—以四類文本翻譯為例》廖夢(mèng)麟(海南醫(yī)學(xué)院外語(yǔ)部,海南海口571199)
6.百度百科“機(jī)器翻譯”
7.《外語(yǔ)翻譯文化第3輯》-屠國(guó)元主編2003
8.《外語(yǔ)翻譯文化第3輯》-屠國(guó)元主編2003 P211
第四篇:自然語(yǔ)言處理常用模型方法總結(jié)
自然語(yǔ)言處理常用模型使用方法總結(jié)
一、N元模型
思想:
如果用變量W代表一個(gè)文本中順序排列的n個(gè)詞,即W = W1W2…Wn,則統(tǒng)計(jì)語(yǔ)言模型的任務(wù)是給出任意詞序列W 在文本中出現(xiàn)的概率P(W)。利用概率的乘積公式,P(W)可展開(kāi)為:P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wn|w1 w2…wn-1),不難看出,為了預(yù)測(cè)詞Wn的出現(xiàn)概率,必須已知它前面所有詞的出現(xiàn)概率。從計(jì)算上來(lái)看,這太復(fù)雜了。如果任意一個(gè)詞Wi的出現(xiàn)概率只同它前面的N-1個(gè)詞有關(guān),問(wèn)題就可以得到很大的簡(jiǎn)化。這時(shí)的語(yǔ)言模型叫做N元模型(N-gram),即P(W)= P(w1)P(w2|w1)P(w3| w1 w2)…P(wi|wi-N+1…wi-1)…實(shí)際使用的通常是N=2 或N=3的二元模型(bi-gram)或三元模型(tri-gram)。以三元模型為例,近似認(rèn)為任意詞Wi的出現(xiàn)概率只同它緊接的前面的兩個(gè)詞有關(guān)。重要的是這些概率參數(shù)都是可以通過(guò)大規(guī)模語(yǔ)料庫(kù)來(lái)估值的。比如三元概率有P(wi|wi-2wi-1)≈ count(wi-2 wi-1… wi)/ count(wi-2 wi-1)式中count(…)表示一個(gè)特定詞序列在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的累計(jì)次數(shù)。統(tǒng)計(jì)語(yǔ)言模型有點(diǎn)像天氣預(yù)報(bào)的方法。用來(lái)估計(jì)概率參數(shù)的大規(guī)模語(yǔ)料庫(kù)好比是一個(gè)地區(qū)歷年積累起來(lái)的氣象紀(jì)錄,而用三元模型來(lái)做天氣預(yù)報(bào),就像是根據(jù)前兩天的天氣情況來(lái)預(yù)測(cè)今天的天氣。天氣預(yù)報(bào)當(dāng)然不可能百分之百正確。這也算是概率統(tǒng)計(jì)方法的一個(gè)特點(diǎn)吧。(摘自黃昌寧論文《中文信息處理的主流技術(shù)是什么?》)
條件: 該模型基于這樣一種假設(shè),第n個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個(gè)詞出現(xiàn)概率的乘積。這些概率可以通過(guò)直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
問(wèn)題:
雖然我們知道元模型中, n越大約束力越強(qiáng),但由于計(jì)算機(jī)容量和速度的限制及數(shù)據(jù)的稀疏,很難進(jìn)行大n的統(tǒng)計(jì)。
二、馬爾可夫模型以及隱馬爾可夫模型
思想:
馬爾可夫模型實(shí)際上是個(gè)有限狀態(tài)機(jī),兩兩狀態(tài)間有轉(zhuǎn)移概率;隱馬爾可夫模型中狀態(tài)不可見(jiàn),我們只能看到輸出序列,也就是每次狀態(tài)轉(zhuǎn)移會(huì)拋出個(gè)觀測(cè)值;當(dāng)我們觀察到觀測(cè)序列后,要找到最佳的狀態(tài)序列。隱馬爾科夫模型是一種用參數(shù)表示的用于描述隨機(jī)過(guò)程統(tǒng)計(jì)特性的概率模型,是一個(gè)雙重隨機(jī)過(guò)程,由兩個(gè)部分組成:馬爾科夫鏈和一般隨機(jī)過(guò)程。其中馬爾科夫鏈用來(lái)描述狀態(tài)的轉(zhuǎn)移,用轉(zhuǎn)移概率描述。一般隨機(jī)過(guò)程用來(lái)描述狀態(tài)與觀察序列之間的關(guān)系,用觀察值概率描述。因此,隱馬爾可夫模型可以看成是能夠隨機(jī)進(jìn)行狀態(tài)轉(zhuǎn)移并輸出符號(hào)的有限狀態(tài)自動(dòng)機(jī),它通過(guò)定義觀察序列和狀態(tài)序列的聯(lián)合概率對(duì)隨機(jī)生成過(guò)程進(jìn)行建模。每一個(gè)觀察序列可以看成是由一個(gè)狀態(tài)轉(zhuǎn)移序列生成,狀態(tài)轉(zhuǎn)移過(guò)程是依據(jù)初始狀態(tài)概率分布隨機(jī)選擇一個(gè)初始狀態(tài)開(kāi)始,輸出一個(gè)觀察值后再根據(jù)狀態(tài)轉(zhuǎn)移概率矩陣隨機(jī)轉(zhuǎn)移到下一狀態(tài),直到到達(dá)某一預(yù)先指定的結(jié)束狀態(tài)為止,在每一個(gè)狀態(tài)將根據(jù)輸出概率矩陣隨機(jī)輸出一個(gè)觀察序列的元素。
一個(gè) HMM有 5個(gè)組成部分,通常記為一個(gè)五元組{S,K, π,A,B},有時(shí)簡(jiǎn)寫為一個(gè)三元組{π ,A,B},其中:①S是模型的狀態(tài)集,模型共有 N個(gè)狀態(tài),記為 S={s1,s2, ?,sN};②K是模型中狀態(tài)輸出符號(hào)的集合,符號(hào)數(shù)為 M,符號(hào)集記為K={k1,k2,?,kM};③是初始狀態(tài)概率分布,記為 ={ 1, 2,?, N},其中 i是狀態(tài) Si作為初始狀態(tài)的概率;④A是狀態(tài)轉(zhuǎn)移概率矩陣,記為A={aij},1≤i≤N,1≤j≤N。其中 aij是從狀態(tài) Si轉(zhuǎn)移到狀態(tài) Sj的概率;⑤B是符號(hào)輸出概率矩陣,記為B={bik},1≤i≤N,1≤k≤M。其中 bik是狀態(tài) Si輸出 Vk的概率。要用HMM解決實(shí)際問(wèn)題,首先需要解決如下 3個(gè)基本問(wèn)題:①給定一個(gè)觀察序列 O=O1O2?OT和模型{ π,A,B},如何高效率地計(jì)算概率P(O|λ),也就是在給定模型的情況下觀察序列O的概率;②給定一個(gè)觀察序列 O=O1O2?OT和模型{ π,A,B},如何快速地選擇在一定意義下“最優(yōu)”的狀態(tài)序列Q=q1q2?qT,使得該狀態(tài)序列“最好地解釋”觀察序列;③給定一個(gè)觀察序列 O=O1O2?OT,以及可能的模型空間,如何來(lái)估計(jì)模型參數(shù),也就是說(shuō),如何調(diào)節(jié)模型{π,A,B}的參數(shù),使得 P(O|λ)最大。
問(wèn)題:
隱馬模型中存在兩個(gè)假設(shè):輸出獨(dú)立性假設(shè)和馬爾可夫性假設(shè)。其中,輸出獨(dú)立性假設(shè)要求序列數(shù)據(jù)嚴(yán)格相互獨(dú)立才能保證推導(dǎo)的正確性,而事實(shí)上大多數(shù)序列數(shù)據(jù)不能被表示 2 成一系列獨(dú)立事件。
三、最大熵模型
最大熵原理原本是熱力學(xué)中一個(gè)非常重要的原理,后來(lái)被廣泛應(yīng)用于自然語(yǔ)言處理方面。其基本原理很簡(jiǎn)單:對(duì)所有的已知事實(shí)建模,對(duì)未知不做任何假設(shè)。也就是建模時(shí)選擇這樣一個(gè)統(tǒng)計(jì)概率模型,在滿足約束的模型中選擇熵最大的概率模型。若將詞性標(biāo)注或者其他自然語(yǔ)言處理任務(wù)看作一個(gè)隨機(jī)過(guò)程,最大熵模型就是從所有符合條件的分布中,選擇最均勻的分布,此時(shí)熵值最大。
求解最大熵模型,可以采用拉格朗日乘數(shù)法,其計(jì)算公式為:
p?y?x??1??exp???ifi(x,y)?Z?(x)?i?
??Z?(x)??exp???ifi(x,y)?y?i?為歸一化因子 ,?i是對(duì)應(yīng)特征的權(quán)重,fi表示其中,一個(gè)特征。每個(gè)特征對(duì)詞性選擇的影響大小由特征權(quán)重學(xué)習(xí)算法自動(dòng)得到。
?i決定,而這些權(quán)值可由GIS或IIS
四、支持向量機(jī)
原理:
支持向量機(jī)的主要思想可以概括為兩點(diǎn):(1)它是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況, 通過(guò)使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能;(2)它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險(xiǎn)以某個(gè)概率滿足一定上界。
支持向量機(jī)的目標(biāo)就是要根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,構(gòu)造一個(gè)目標(biāo)函數(shù)將兩類模式盡可能地區(qū)分開(kāi)來(lái), 通常分為兩類情況來(lái)討論,:(1)線性可分;(2)線性不可分。
線性可分情況
在線性可分的情況下,就會(huì)存在一個(gè)超平面使得訓(xùn)練樣本完全分開(kāi),該超平面可描述為: w ·x + b = 0(1)其中,“·”是點(diǎn)積, w 是n 維向量, b 為偏移量。
最優(yōu)超平面是使得每一類數(shù)據(jù)與超平面距離最近的向量與超平面之間的距離最大的這樣的平面.3 最優(yōu)超平面可以通過(guò)解下面的二次優(yōu)化問(wèn)題來(lái)獲得: 滿足約束條件: , i = 1 ,2 ,3 ,......, n.(3)
在特征數(shù)目特別大的情況,可以將此二次規(guī)劃問(wèn)題轉(zhuǎn)化為其對(duì)偶問(wèn)題:
(4)
(5)(6 滿足約束條件:
這里
(7)
是Lagrange 乘子,是最優(yōu)超平面的法向量,是最優(yōu)超平面的偏移量,在這類優(yōu)化問(wèn)題的求解與分析中, KKT條件將起到很重要的作用,在(7)式中,其解必須滿足:
從式(5)可知,那些
(8)
= 0 的樣本對(duì)分類沒(méi)有任何作用,只有那些
> 0 的樣本才對(duì)分類起作用,這些樣本稱為支持向量,故最終的分類函數(shù)為:
根據(jù)f(x)的符號(hào)來(lái)確定X 的歸屬。線性不可分的情況
(9)對(duì)于線性不可分的情況,可以把樣本X 映射到一個(gè)高維特征空間H,并在此空間中運(yùn)用原空間的函 數(shù)來(lái)實(shí)現(xiàn)內(nèi)積運(yùn)算,這樣將非線性問(wèn)題轉(zhuǎn)換成另一空間的線性問(wèn)題來(lái)獲得一個(gè)樣本的歸屬.根據(jù)泛函的有關(guān)理論,只要一種核函數(shù)滿足Mercer 條件,它就對(duì)應(yīng)某一空間中的內(nèi)積,因此只要在最優(yōu)分類面上采用適當(dāng)?shù)膬?nèi)積函數(shù)就可以實(shí)現(xiàn)這種線性不可分的分類問(wèn)題.此時(shí)的目標(biāo)函數(shù)為:
0)
(1 4 其分類函數(shù)為:(11)
內(nèi)積核函數(shù) :
目前有三類用的較多的內(nèi)積核函數(shù):第一類是
(12)
我們所能得到的是p階多項(xiàng)式分類器,第二類是徑向基函數(shù)(RBF),也稱作高斯核函數(shù):
第三類是Sigmoid函數(shù)
特點(diǎn):
概括地說(shuō),支持向量機(jī)就是首先通過(guò)內(nèi)積函數(shù)定義的非線性變換將輸入空間變換到另一個(gè)高維空間,在這個(gè)空間中求最優(yōu)分類面。SVM分類函數(shù)形式上類似于一個(gè)神經(jīng)網(wǎng)絡(luò),輸出是中間節(jié)點(diǎn)的線性組合,每個(gè)中間節(jié)點(diǎn)對(duì)應(yīng)一個(gè)輸入樣本與一個(gè)支持向量的內(nèi)積,因此也叫做支持向量網(wǎng)絡(luò)。
SVM方法的特點(diǎn):
① 非線性映射是SVM方法的理論基礎(chǔ),SVM利用內(nèi)積核函數(shù)代替向高維空間的非線性映射;② 對(duì)特征空間劃分的最優(yōu)超平面是SVM的目標(biāo),最大化分類邊際的思想是SVM方法的核心;③ 支持向量是SVM的訓(xùn)練結(jié)果,在SVM分類決策中起決定作用的是支持向量。
SVM 是一種有堅(jiān)實(shí)理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它基本上不涉及概率測(cè)度及大數(shù)定律等,因此不同于現(xiàn)有的統(tǒng)計(jì)方法。從本質(zhì)上看,它避開(kāi)了從歸納到演繹的傳統(tǒng)過(guò)程,實(shí)現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡(jiǎn)化了通常的分類和回歸等問(wèn)題。
SVM 的最終決策函數(shù)只由少數(shù)的支持向量所確定,計(jì)算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。少數(shù)支持向量決定了最終結(jié)果,這不但可以幫助我們抓住關(guān)鍵樣本、“剔除”大量冗余樣本,而且注定了該方法不但算法簡(jiǎn)單,而且具有較好的“魯棒”性。這種 “魯棒”性主要體現(xiàn)在: ①增、刪非支持向量樣本對(duì)模型沒(méi)有影響;②支持向量樣本集具有一定的魯棒性;③有些成功的應(yīng)用中,SVM 方法對(duì)核的選取不敏感
五、條件隨機(jī)場(chǎng)
原理:
條件隨機(jī)場(chǎng)(CRFs)是一種基于統(tǒng)計(jì)的序列標(biāo)記識(shí)別模型,由John Lafferty等人在2001年首次提出。它是一種無(wú)向圖模型,對(duì)于指定的節(jié)點(diǎn)輸入值,它能夠計(jì)算指定的節(jié)點(diǎn)輸出值上的條件概率,其訓(xùn)練目標(biāo)是使得條件概率最大化。線性鏈?zhǔn)荂RFs中常見(jiàn)的特定圖結(jié)構(gòu)之一,它由指定的輸出節(jié)點(diǎn)順序鏈接而成。一個(gè)線性鏈與一個(gè)有限狀態(tài)機(jī)相對(duì)應(yīng),可用于解決序列數(shù)據(jù)的標(biāo)注問(wèn)題。在多數(shù)情況下,CRFs均指線性的CRFs。用x=(x1,x2,…,xn)表示要進(jìn)行標(biāo)注的數(shù)據(jù)序列,y=(y1,y2,…,yn)表示對(duì)應(yīng)的結(jié)果序列。例如對(duì)于中文詞性標(biāo)注任務(wù),x可以表示一個(gè)中文句子x=(上海,浦東,開(kāi)發(fā),與,法制,建設(shè),同步),y則表示該句子中每個(gè)詞的詞性序列y=(NR,NR,NN,CC,NN,NN,VV)。
對(duì)于(X,Y),C由局部特征向量f和對(duì)應(yīng)的權(quán)重向量λ確定。對(duì)于輸入數(shù)據(jù)序列x和標(biāo)注結(jié)果序列y,條件隨機(jī)場(chǎng)C的全局特征表示為
F?y,x???f?y,x,i?i ⑴
其中i遍歷輸入數(shù)據(jù)序列的所有位置,f(y,x,i)表示在i位置時(shí)各個(gè)特征組成的特征向量。于是,CRFs定義的條件概率分布為
p?(Y,X)?其中 exp????F?Y,X???Z??X?
⑵
Z??X???exp????F?y,x???y ⑶
給定一個(gè)輸入數(shù)據(jù)序列X,標(biāo)注的目標(biāo)就是找出其對(duì)應(yīng)的最可能的標(biāo)注結(jié)果序列了,即
y?argmaxp??y|x?y ⑷
由于Zλ(X)不依賴于y,因此有
y?argmaxp??y|x??argmax??F?y,x?yy ⑸
CRFs模型的參數(shù)估計(jì)通常采用L—BFGS算法實(shí)現(xiàn),CRFs解碼過(guò)程,也就是求解未知串標(biāo)注的過(guò)程,需要搜索計(jì)算該串上的一個(gè)最大聯(lián)合概率,解碼過(guò)程采用Viterbi算法來(lái)完成。
CRFs具有很強(qiáng)的推理能力,能夠充分地利用上下文信息作為特征,還可以任意地添加其他外部特征,使得模型能夠獲取的信息非常豐富。CRFs通過(guò)僅使用一個(gè)指數(shù)模型作為在給定觀測(cè)序列條件下整個(gè)標(biāo)記序列的聯(lián)合概率,使得該模型中不同狀態(tài)下的不同特征權(quán)值可以彼此交替,從而有效地解決了其他非生成有向圖模型所產(chǎn)生的標(biāo)注偏置的問(wèn)題。這些特點(diǎn),使得CRFs從理論上講,非常適合中文詞性標(biāo)注。‘
總結(jié)
首先,CRF,HMM(隱馬模型)都常用來(lái)做序列標(biāo)注的建模,像詞性標(biāo)注,True casing。但隱馬模型一個(gè)最大的缺點(diǎn)就是由于其輸出獨(dú)立性假設(shè),導(dǎo)致其不能考慮上下文的特征,限制了特征的選擇,而另外一種稱為最大熵隱馬模型則解決了這一問(wèn)題,可以任意的選擇特征,但由于其在每一節(jié)點(diǎn)都要進(jìn)行歸一化,所以只能找到局部的最優(yōu)值,同時(shí)也帶來(lái)了標(biāo)記偏見(jiàn)的問(wèn)題(label bias),即凡是訓(xùn)練語(yǔ)料中未出現(xiàn)的情況全都忽略掉,而條件隨機(jī)場(chǎng)則很好的解決了這一問(wèn)題,他并不在每一個(gè)節(jié)點(diǎn)進(jìn)行歸一化,而是所有特征進(jìn)行全局歸一化,因此可以求得全局的最優(yōu)值。目前,條件隨機(jī)場(chǎng)的訓(xùn)練和解碼的開(kāi)源工具還只支持鏈?zhǔn)降男蛄校瑥?fù)雜的尚不支持,而且訓(xùn)練時(shí)間很長(zhǎng),但效果還可以。最大熵隱馬模型的局限性在于其利用訓(xùn)練的局部模型去做全局預(yù)測(cè)。其最優(yōu)預(yù)測(cè)序列只是通過(guò)viterbi算法將局部的最大熵模型結(jié)合而成的。條件隨機(jī)場(chǎng),隱馬模型,最大熵隱馬模型這三個(gè)模型都可以用來(lái)做序列標(biāo)注模型。但是其各自有自身的特點(diǎn),HMM模型是對(duì)轉(zhuǎn)移概率和表現(xiàn)概率直接建模,統(tǒng)計(jì)共現(xiàn)概率。而最大熵隱馬模型是對(duì)轉(zhuǎn)移概率和表現(xiàn)概率建立聯(lián)合概率,統(tǒng)計(jì)時(shí)統(tǒng)計(jì)的是條件概率。最大熵隱馬模型容易陷入局部最優(yōu),是因?yàn)樽畲箪仉[馬模型只在局部做歸一化,而CRF模型中,統(tǒng)計(jì)了全局概率,在 做歸一化時(shí),考慮了數(shù)據(jù)在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM中的標(biāo)記偏置的問(wèn)題。
第五篇:自然語(yǔ)言處理的應(yīng)用及發(fā)展趨勢(shì)
自然語(yǔ)言處理的應(yīng)用及發(fā)展趨勢(shì)
摘要
本文主要闡述了自然語(yǔ)言處理的研究?jī)?nèi)容,以及對(duì)目前相關(guān)領(lǐng)域的應(yīng)用加以討論。自然語(yǔ)言處理的研究?jī)?nèi)容主要有四大塊[1-2]:語(yǔ)言學(xué)方向、數(shù)據(jù)處理方向、人工智能和認(rèn)知科學(xué)方向、語(yǔ)言工程方向。最后對(duì)自然語(yǔ)言處理的未來(lái)發(fā)展趨勢(shì)做簡(jiǎn)單的介紹。
關(guān)鍵詞 自然語(yǔ)言處理 應(yīng)用 發(fā)展趨勢(shì)
一.自然語(yǔ)言處理的研究?jī)?nèi)容
自然語(yǔ)言處理的范圍涉及眾多方面,如語(yǔ)音的自動(dòng)識(shí)別與合成,機(jī)器翻譯,自然語(yǔ)言理解,人機(jī)對(duì)話,信息檢索,文本分類,自動(dòng)文摘,等等。我們認(rèn)為,這些部門可以歸納為如下四個(gè)大的方向:(1)語(yǔ)言學(xué)方向
本方向是把自然語(yǔ)言處理作為語(yǔ)言學(xué)的分時(shí)來(lái)研究,它之研究語(yǔ)言及語(yǔ)言處理與計(jì)算相關(guān)的方面,而不管其在計(jì)算機(jī)上的具體實(shí)現(xiàn)。這個(gè)方向最重要的研究領(lǐng)域是語(yǔ)法形式化理論和數(shù)學(xué)理論。(2)數(shù)據(jù)處理方向
是把自然語(yǔ)言處理作為開(kāi)發(fā)語(yǔ)言研究相關(guān)程序以及語(yǔ)言數(shù)據(jù)處理的學(xué)科來(lái)研究。這一方向早起的研究有屬于數(shù)據(jù)庫(kù)的建設(shè)、各種機(jī)器可讀的電子詞典的開(kāi)發(fā),近些年來(lái)則有大規(guī)模的語(yǔ)料庫(kù)的涌現(xiàn)。(3)人工智能和認(rèn)知科學(xué)方向
在這個(gè)方向 中,自然語(yǔ)言處理被作為在計(jì)算機(jī)上實(shí)現(xiàn)自然語(yǔ)言能力的學(xué)科來(lái)研究,探索自然語(yǔ)言理解的只能機(jī)制和認(rèn)知機(jī)制。這一方向的研究與人工智能以及認(rèn)知科學(xué)關(guān)系密切。(4)語(yǔ)言工程方向
主要是把自然語(yǔ)言處理作為面向?qū)嵺`的、工程化的語(yǔ)言軟件開(kāi)發(fā)來(lái)研究,這一方向的研究一般稱為“人類語(yǔ)言技術(shù)”或者“語(yǔ)言工程”。二.自然語(yǔ)言處理的應(yīng)用
以上所提及的自然語(yǔ)言處理的四大研究方向基本上涵蓋了當(dāng)今自然語(yǔ)言處理研究的內(nèi)容,更加細(xì)致的說(shuō),自然語(yǔ)言處理可以進(jìn)一步細(xì)化為以下13項(xiàng)研究?jī)?nèi)容,也即為自然語(yǔ)言處理的應(yīng)用方向,這13個(gè)應(yīng)用方向分別是[3]:口語(yǔ)輸入、書面語(yǔ)輸入、語(yǔ)言分析和理解、語(yǔ)言生成、口語(yǔ)輸出技術(shù)、話語(yǔ)分析與對(duì)話、文獻(xiàn)自動(dòng)處理、多語(yǔ)問(wèn)題的計(jì)算機(jī)處理、多模態(tài)的計(jì)算機(jī)處理、信息傳輸與信息存儲(chǔ)、自然語(yǔ)言處理中的數(shù)學(xué)方法、語(yǔ)言資源、自然語(yǔ)言處理系統(tǒng)的評(píng)測(cè)。
這13項(xiàng)內(nèi)容都涉及語(yǔ)言學(xué)。這些研究都要對(duì)語(yǔ)言進(jìn)行形式化的描述, 建立合適的算法, 并在計(jì)算機(jī)上實(shí)現(xiàn)這些算法, 因此, 要涉及數(shù)學(xué)、計(jì)算機(jī)科學(xué)和邏輯學(xué)[4]。口語(yǔ)輸入、書面語(yǔ)輸入、口語(yǔ)輸出、信息傳輸與信息存儲(chǔ)都需要電子工程的技術(shù)。由自然語(yǔ)言的應(yīng)用領(lǐng)域更加進(jìn)一步說(shuō)明,自然語(yǔ)言處理都是一個(gè)多邊緣的交叉學(xué)科。由于它的對(duì)象是語(yǔ)言, 因此, 它基本上是一個(gè)語(yǔ)言學(xué)科, 但它還涉及眾多的學(xué)科, 特別是計(jì)算機(jī)科學(xué)和數(shù)學(xué)。三.自然語(yǔ)言處理研究的發(fā)展趨勢(shì)
21世紀(jì)以來(lái), 由于國(guó)際互聯(lián)網(wǎng)的普及, 自然語(yǔ)言的計(jì)算機(jī)處理成為了從互聯(lián)網(wǎng)上獲取知識(shí)的重要手段, 生活在信息網(wǎng)絡(luò)時(shí)代的現(xiàn)代人, 幾乎都要與互聯(lián)網(wǎng)打交道, 都要或多或少地使用自然語(yǔ)言處理的研究成果來(lái)獲取或挖掘在廣闊無(wú)邊的互聯(lián)網(wǎng)上的各種知識(shí)和信息, 因此, 世界各國(guó)都非常重視有關(guān)的研究, 投入了大量的人力、物力和財(cái)力[5]。
自然語(yǔ)言處理研究的歷史雖不很長(zhǎng),但就目前已有的成果足以顯示它的重要性和應(yīng)用前景。在美、英、日、法等發(fā)達(dá)國(guó)家,自然語(yǔ)言處理如今不僅作為人工智能的核心課題來(lái)研究.而且也作為新一代計(jì)算機(jī)的核心課題來(lái)研究。從知識(shí)產(chǎn)業(yè)的角度來(lái)看.自然語(yǔ)言處理的軟件也占重要地位,專家系統(tǒng),數(shù)據(jù)庫(kù)、知識(shí)庫(kù).計(jì)算機(jī)輔助設(shè)計(jì)系統(tǒng)(CAD)、計(jì)算機(jī)輔助教學(xué)系統(tǒng)(CAl)、計(jì)算機(jī)輔助決策系統(tǒng),辦公室自動(dòng)化管理系統(tǒng)、智能機(jī)器人等,無(wú)一不需要用自然語(yǔ)言做人一機(jī)界面。從長(zhǎng)遠(yuǎn)看.具有篇章理解能力的自然語(yǔ)言理解系統(tǒng)可用于機(jī)器自動(dòng)翻譯、情報(bào)檢索、自動(dòng)標(biāo)引,自動(dòng)文摘.自動(dòng)寫故事小說(shuō)等領(lǐng)域,具有廣闊的應(yīng)用領(lǐng)域和令人鼓舞的應(yīng)用前景。
當(dāng)前國(guó)外自然語(yǔ)言處理研究有三個(gè)顯著的特點(diǎn)[6]:第一, 隨著語(yǔ)料庫(kù)建設(shè)和語(yǔ)料庫(kù)語(yǔ)言學(xué)的崛起, 大規(guī)模真實(shí)文本的處理成為自然語(yǔ)言處理的主要戰(zhàn)略目標(biāo)。第二, 自然語(yǔ)言處理中越來(lái)越多地使用機(jī)器自動(dòng)學(xué)習(xí)的方法來(lái)獲取語(yǔ)言知識(shí)。第三, 自然語(yǔ)言處理中越來(lái)越多地使用統(tǒng)計(jì)數(shù)學(xué)方法來(lái)分析語(yǔ)言數(shù)據(jù)。目前,我國(guó)的自然語(yǔ)言處理研究雖然已經(jīng)取得不少成績(jī), 但是與國(guó)際水平相比, 差距還很大。我國(guó)的自然語(yǔ)言處理研究, 無(wú)論在理論上還是在應(yīng)用系統(tǒng)的開(kāi)發(fā)上, 基本上還沒(méi)有重大的創(chuàng)新與值得稱道的突破。我們的研究基本上還是跟蹤性的研究, 很少有創(chuàng)造性的研究, 當(dāng)然更談不上具有原創(chuàng)思想的研究了。因此, 我們不能夜郎自大, 不能坐井觀天,我們只有努力學(xué)習(xí)國(guó)外的先進(jìn)成果, 趕上并超過(guò)國(guó)際先進(jìn)水平, 使我國(guó)的自然語(yǔ)言處理在國(guó)際先進(jìn)行列中占有一席之地,掌握國(guó)際先進(jìn)的成果與技術(shù)用于國(guó)家和社會(huì)的進(jìn)一步發(fā)展。
參考文獻(xiàn): [1] 李堂秋,《自然語(yǔ)言處理》講義,廈門大學(xué)計(jì)算機(jī)科學(xué)系.[2] 辛日華.計(jì)算機(jī)自然語(yǔ)言處理.呼倫貝爾學(xué)院學(xué)報(bào),2003,11(1)[3] 白碩,《計(jì)算語(yǔ)言學(xué)》講義,中國(guó)科學(xué)院計(jì)算技術(shù)研究所.[4] 詹衛(wèi)東,《計(jì)算語(yǔ)言學(xué)概論》講義,北京大學(xué)中文系.[5] 馮志偉.自然語(yǔ)言處理的學(xué)科地位.解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2005,28(3)[6] 馮志偉.自然語(yǔ)言處理的歷史與現(xiàn)狀,2008.