久久99精品久久久久久琪琪,久久人人爽人人爽人人片亞洲,熟妇人妻无码中文字幕,亚洲精品无码久久久久久久

語料庫語言學綜合

時間:2019-05-14 21:20:15下載本文作者:會員上傳
簡介:寫寫幫文庫小編為你整理了多篇相關(guān)的《語料庫語言學綜合》,但愿對你工作學習有幫助,當然你在寫寫幫文庫還可以找到更多《語料庫語言學綜合》。

第一篇:語料庫語言學綜合

語料庫語言學基礎(chǔ)知識

2008-09-11 01:45:34| 分類: 學術(shù)|舉報|字號 訂閱

語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現(xiàn)的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經(jīng)過科學選材和標注、具有適當規(guī)模的語料庫能夠反映和記錄語言的實際使用情況。人們通過語料庫觀察和把握語言事實,分析和研究語言系統(tǒng)的規(guī)律。語料庫已經(jīng)成為語言學理論研究、應(yīng)用研究和語言工程不可缺少的基礎(chǔ)資源。

語料庫有多種類型,確定類型的主要依據(jù)是它的研究目的和用途,這一點往往能夠體現(xiàn)在語料采集的原則和方式上。有人曾經(jīng)把語料庫分成四種類型:(1)異質(zhì)的(Heterogeneous):沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料;(2)同質(zhì)的(Homogeneous):只收集同一類內(nèi)容的語料;(3)系統(tǒng)的(Systematic):根據(jù)預(yù)先確定的原則和比例收集語料,使語料具有平衡性和系統(tǒng)性,能夠代表某一范圍內(nèi)的語言事實;(4)專用的(Specialized):只收集用于某一特定用途的語料。除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的采集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構(gòu)成譯文關(guān)系,多用于機器翻譯、雙語詞典編撰等應(yīng)用領(lǐng)域,后者將表述同樣內(nèi)容的不同語言文本收集到一起,多用于語言對比研究。

語料庫建設(shè)中涉及的主要問題包括:

(1)設(shè)計和規(guī)劃:主要考慮語料庫的用途、類型、規(guī)模、實現(xiàn)手段、質(zhì)量保證、可擴展性等。

(2)語料的采集:主要考慮語料獲取、數(shù)據(jù)格式、字符編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。

(3)語料的加工:包括標注項目(詞語單位、詞性、句法、語義、語體、篇章結(jié)構(gòu)等)標記集、標注規(guī)范和加工方式。

(4)語料管理系統(tǒng)的建設(shè):包括數(shù)據(jù)維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標注、文本分割、合并、標記處理等)、用戶功能(查詢、檢索、統(tǒng)計、打印等)。

(5)語料庫的應(yīng)用:針對語言學理論和應(yīng)用領(lǐng)域中的各種問題,研究和開發(fā)處理語料的算法和軟件工具。

我國語料庫的建設(shè)始于80年代,當時的主要目標是漢語詞匯統(tǒng)計研究。進入90年代以后,語料庫方法在自然語言信息處理領(lǐng)域得到了廣泛的應(yīng)用,建立了各種類型的語料庫,研究的內(nèi)容涉及語料庫建設(shè)中的各個問題。90年代末到新世紀初這幾年是語料庫開發(fā)和應(yīng)用的進一步發(fā)展時期,除了語言信息處理和言語工程領(lǐng)域以外,語料庫方法在語言教學、詞典編纂、現(xiàn)代漢語和漢語史研究等方面也得到了越來越多的應(yīng)用。

語料庫與語言信息處理有著某種天然的聯(lián)系。當人們還不了解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基于規(guī)則的(Rule-based)。對于用規(guī)則無法表達或不能涵蓋的語言事實,計算機就很難處理。語料庫出現(xiàn)以后,人們利用它對大規(guī)模的自然語言進行調(diào)查和統(tǒng)計,建立統(tǒng)計語言模型,研究和應(yīng)用基于統(tǒng)計的(Statistical-based)語言處理技術(shù),在信息檢索、文本分類、文本過濾、信息抽取等應(yīng)用方向取得了進展。另一方面,語言信息處理技術(shù)的發(fā)展也為語料庫的建設(shè)提供了支持。從字符編碼、文本輸入和整理,語料的自動分詞和標注,到語料的統(tǒng)計和檢索,自然語言信息處理的研究都為語料的加工提供了關(guān)鍵性的技術(shù)。

下面先簡要敘述1998年到2003年中國語料庫建設(shè)的基本情況,然后介紹語料庫的加工、管理和規(guī)范問題,最后談?wù)務(wù)Z料庫方法在語言研究和語言工程等方面的應(yīng)用。由于以前的《中國語言學年鑒》很少談及語料庫問題,為了盡可能全面地反映我國語料庫研究和應(yīng)用的情況,必要時會將時間上限向前延伸幾年。

二 中國語料庫建設(shè)的基本情況

90年代末到新世紀初這幾年投入建設(shè)或開始使用的語料庫有數(shù)十個之多,不同的應(yīng)用目的使這些語料庫的類型各不相同,對語料的加工方法也各不相同。下面是其中已開始使用并且具有一定代表性的語料庫。

(一)現(xiàn)代漢語通用語料庫

這是一個由國家語言文字工作委員會主持建立、面向全社會應(yīng)用需求的大型通用語料庫,從90年代初開始建設(shè),計劃規(guī)模7000萬字,主要應(yīng)用目標是語言文字信息處理、語言文字規(guī)范和標準的制定、語言文字的學術(shù)研究、語文教育、以及語言文字的社會應(yīng)用。

這個語料庫收錄的語料以書面語為主、以書面語轉(zhuǎn)述的口語為輔。語料來源是1919年至今,主要是1977年至今出版的教材、報紙、綜合性刊物、專業(yè)刊物和圖書。在設(shè)計原則上,講求通用性、描述性、實用性和抽樣的科學性。在語料分類方面,以“門類為主,語體為輔”為原則制定三個大類:

第一類:人文與社會科學類(包括8個次類、30個細類)1.政法類: 哲學 政治 宗教 法律 2.歷史類: 歷史 考古 民族

3.社會類: 社會學 心理 語言文字 教育 文藝理論 新聞 民俗

4.經(jīng)濟類: 工業(yè)經(jīng)濟 農(nóng)業(yè)經(jīng)濟 政治經(jīng)濟 財貿(mào)經(jīng)濟 5.藝術(shù)類: 音樂 美術(shù) 舞蹈 戲劇

6.文學類: 小說 散文 傳記 報告文學 科幻 口語 7.軍體類: 軍事 體育 8.生活類

第二類:自然科學類(包括6個次類)1.數(shù)理類 2.生化類 3.天文地理類 4.海洋氣象類 5.農(nóng)林類 6.醫(yī)藥衛(wèi)生類

第三類:綜合類(包括6個次類,30多個細類)

1.行政公文類: 請示 報告 批復(fù) 命令 指示 布告 紀要 通知等

2.章程法規(guī)類: 章程 條例 細則 制度 公約 辦法 法律條文等 3.司法文書類: 訴訟 辯護詞 控告信 委托書等 4.商業(yè)文告類: 說明 廣告 調(diào)查報告 經(jīng)濟合同等

5.禮儀辭令類: 歡迎詞 賀電 訃告 唁電 慰問信 祝酒詞等 6.實用文書類: 請假條 檢討 申請書 請愿書等

在不同類別、不同來源、不同時期的語言材料中,按照不等密度的思路確定合適的語料選取比例,從共時和歷時兩個角度保證入選語料的平衡性,是這個語料庫的特點。譬如,在語言材料的年限方面,選材比例是:

1919年 – 1925年 5% 1926年 – 1949年 15% 1950年 – 1965年 25% 1966年 – 1976年 5% 1977年以后 50% 在語言材料的門類、語體和來源方面,選材比例是:

人文與社會科學類占59.6%。其中各個次類在本大類中的比例是:

政法 12.7% 歷史 8.4% 社會 14.0% 經(jīng)濟 9.8% 藝術(shù) 6.7% 文學 44.9% 軍體 2.3% 生活 1.4% 自然科學類占17.24%。其中各個次類在本大類中的比例是:

數(shù)理 17.2% 生化 19.1% 天文地理 14.1% 海洋氣象 9.1% 農(nóng)林 22.8% 醫(yī)藥衛(wèi)生 17.7% 綜合類占9.36%。其中各個次類在本大類中的比例是:

各類應(yīng)用文 91.1% 其他 8.9% 報紙類占13.79%。其中各個次類在本大類中的比例是: 全國性報刊 25% 省市報刊 75% 這個語料庫在選材過程中收集和記錄語料的有關(guān)描述信息,為每個語料樣本設(shè)立了20個描述項目:總號、分類號、樣本名稱、類別、作者、寫作時間、書刊名稱、編著者、出版者、出版日期、期號(版面號)、版次(初版日期)、印冊數(shù)、總頁數(shù)、開本、選樣方式、樣本起止頁數(shù)、樣本字數(shù)、樣本總數(shù)、繁簡字。用戶可以利用這些語料描述標記根據(jù)各自的需要進行各種方式的檢索。語料庫的建庫工作分為兩步,第一步先建立核心語料庫(由7000萬字的語料中篩選出2000萬字語料組成)。到90年代末,完成了2000萬字生語料的收錄工作。從2001年開始,對2000萬字核心語料進行分詞和詞性標注加工。

(二)《人民日報》標注語料庫

《人民日報》標注語料庫由北京大學計算語言學研究所和日本富士通公司合作,從1999年開始,到2002年完成,原始語料取自1998年全年的《人民日報》,共約2700萬字,到2003年又擴充到3500萬字,是我國第一個大型的現(xiàn)代漢語標注語料庫。這個語料庫加工的項目有詞語切分和詞性標注,還有專有名詞(人名、地名、團體機構(gòu)名稱等)標注、語素子類標注、動詞、形容詞的特殊用法標注和短語型標注。下面是一段語料標注的示例,對于1998年1月1日第5版第1篇文章的第11段:

我國的國有企業(yè)改革見成效。位于河南的中國一拖集團有限責任公司面向市場,積極調(diào)整產(chǎn)品結(jié)構(gòu),加快技術(shù)改造和新產(chǎn)品研制步伐。圖為東方紅牌履帶拖拉機生產(chǎn)線。(趙鵬攝)

標注后的形式是:

19980101-05-001-011/m 我國/n 的/u 國有/vn 企業(yè)/n 改革/v 見/v 成效/n。/w 位于/v 河南/ns 的/u [中國/ns 一拖/j 集團/n 有限/a 責任/n 公司/n]nt 面向/v 市場/n,/w 積極/ad 調(diào)整/v 產(chǎn)品/n 結(jié)構(gòu)/n,/w 加快/v 技術(shù)/n 改造/vn 和/c 新/a 產(chǎn)品/n 研制/vn 步伐/n。/w 圖/n 為/v 東方紅牌/nz 履帶/n 拖拉機/n 生產(chǎn)線/n。/w(/w 趙/nr 鵬/nr 攝/Vg)/w 在每一個切分出來的詞和標點符號后面,是該詞語的標記。譬如詞性標記(n,v,a,u,m,w等),專有名詞標記(nr,ns,nz等),語素子類標記(Vg等),動詞和形容詞特殊用法標記(vn,ad)。所有的標記都是以北京大學的《現(xiàn)代漢語語法信息詞典》為基礎(chǔ)詞庫,在一個加工規(guī)范的指導(dǎo)下標注的。

利用《人民日報》標注語料庫,人們可以從各個角度考察和分析語言事實,統(tǒng)計各種語言單位出現(xiàn)的頻率,譬如,詞語或詞類的分布、搭配和共現(xiàn),專有名詞的結(jié)構(gòu)方式、兼類詞在句子中的表現(xiàn),語素字的使用情況,等等。也可以從語料里提取各種語言單位或語句片段作為研究實例。與僅僅以漢字串的形式表示的“生語料”相比,經(jīng)過標注的“熟語料”顯然含有更多的語言學特征信息,對漢語詞匯研究、語法研究和漢語信息處理系統(tǒng)來說是更好的語言知識資源。

《人民日報》標注語料庫中一半的語料(1998年上半年)共1300萬字已經(jīng)通過《人民日報》新聞信息中心公開提供許可使用權(quán)。其中一個月的語料(1998年1月)近200萬字在互聯(lián)網(wǎng)上公布,供自由下載。

(三)用于語言教學和研究的現(xiàn)代漢語語料庫

建立現(xiàn)代漢語語料庫的主要目的之一是對外漢語教學和現(xiàn)代漢語研究,可以分為書面語語料庫和以文本形式表示的口語語料庫兩類。前者如北京語言大學的漢語中介語語料庫、現(xiàn)代漢語研究語料庫,后者如中國社會科學院語言研究所的北京地區(qū)現(xiàn)場即席話語語料庫。

漢語中介語語料庫的建設(shè)目標是為對外漢語教學、中介語研究、偏誤分析和漢語本體研究提供資源,因此它的語料來源很有對外漢語教學的特點。作者先在北京和其他省市的9所高等院校里,從來自96個國家和地區(qū)的1635位外國留學生那里收集了成篇成段的漢語作文或練習材料5774篇,共3528988字。再從中抽取了740人的1731篇語料,共有44218句,1041274字。全部語料都記錄了學生姓名、性別、年齡、國別、是否華裔、第一語言、文化程度、所學主要教材、語料類別、寫作時間、提供者等23項屬性。然后對這104萬字的語料進行詞語切分、詞性標注以及一些專用的語言學特征標注。例如,標出了字、詞、句、篇等不同的層次,對語料的非規(guī)范形式(例如:錯字、別字、繁體字、拼音字、非規(guī)范詞等)做出索引標記,記錄其對應(yīng)的規(guī)范形式。這個語料庫的管理系統(tǒng)有語篇屬性登錄、文本過濾、文字預(yù)處理信息登錄、語料抽樣、斷句、分詞、詞性輔助標注、自動標注以及語料的主題檢索、全文檢索和數(shù)據(jù)瀏覽等各種功能,分別處理語料庫的建立、管理和維護,以及用戶瀏覽、查詢和檢索等。與人工收集的學生病句卡片資料相比,中介語語料庫能夠更好地反映學生學習漢語的情況,幫助教師更加全面地觀察他們的學習過程,了解影響學習和習得的各種因素。在漢語作為第二語言的教學中,為教材編寫、課堂教學、測試等環(huán)節(jié)提供依據(jù)。

現(xiàn)代漢語研究語料庫的建設(shè)目標是為語言學家提供一個研究平臺,由2000萬字的粗語料庫和200萬字經(jīng)過分詞和詞性標注的精語料庫兩個部分組成。粗語料庫收錄的語料樣本中絕大部分是九十年代的出版物,有《人民日報》1000萬字,《中國新聞》500萬字,各種書籍250萬字,文學作品150萬字,準口語材料(書面形式的對話、獨白)100萬字。精語料庫的200萬字語料樣本是從粗語料庫中按照規(guī)定的比例由計算機隨機抽取的,有書面語語料160萬字,準口語語料40萬字,是從語體、題材、體裁三個方面均衡選取的平衡語料庫。為了對這些語料進行詞語切分和詞性標注,作者制定了詞語切分的細則和詞性標記體系的原則,采用了一個含有112個詞類標記的標記集,確定了兼類詞的處理方法。這個語料庫的管理系統(tǒng)具有建庫、檢索、瀏覽、統(tǒng)計、輸出等功能,可以按詞或詞類檢索,統(tǒng)計出詞的頻率、詞類頻率、詞類共現(xiàn)頻率、平均詞長、平均句長等結(jié)果。這個語料庫建成以后,很快應(yīng)用在現(xiàn)代漢語語法、漢語教學和漢語信息處理的研究中,研究內(nèi)容涉及現(xiàn)代漢語的插入語、漢語句子的主題-主語標注、V+N序列實驗分析、詞性標注中詞語歸類問題、動賓組合的自動獲取與標注,等等。

建設(shè)北京地區(qū)現(xiàn)場即席話語語料庫的目的是,通過收集大量的現(xiàn)場即席話語語料研究現(xiàn)場即席話語的各種動態(tài)機制,以揭示現(xiàn)場即席話語的使用規(guī)律。這個語料庫的研究策略和取樣方法很有特點,首先是嚴格區(qū)分資源庫和語料庫,資源庫收集符合現(xiàn)場即席話語定義的錄音材料,語料庫收錄按照一定標準從資源庫提取出來的材料;另外在語料采樣前先做摸底性研究,通過研究對現(xiàn)場即席話語的真實情況有所了解,確定取樣域,再定取樣范疇,然后根據(jù)取樣范疇去錄現(xiàn)場典型材料,這是一種層次范疇化的取樣方法。這個語料庫目前正在建設(shè)之中,已經(jīng)取得了近600小時的錄音材料和50多小時的錄象材料。

在用于漢語研究的語料庫中,講究選材均衡,注重語料加工,同時也提供公開服務(wù)的,當數(shù)臺灣中央研究院歷史語言研究所的現(xiàn)代漢語平衡語料庫(簡稱Sinica Corpus)。這個語料庫的規(guī)模為500萬個詞,每個句子都依詞斷開,標示詞類標記,并且配備了檢索系統(tǒng),在網(wǎng)上開放供大家使用。根據(jù)自己制定的一套漢語文本屬性特征為語料分類,在不同的類別上盡量均衡地采集語料,是這個語料庫的特點之一。文本屬性用來說明文檔的呈現(xiàn)方式、文章的寫作方式、文章寫作的內(nèi)容和文檔的來源出處,包括7類,每類下設(shè)若干小類:

文類(文檔的呈現(xiàn)方式)

報導(dǎo)、評論、廣告圖文、信函、公告啟事、小說故事寓言、散文、傳記日記、詩歌、語錄、說明手冊、劇本、會話、演講、會議記錄 文體(文章的寫作方式)記敘、論說、說明、描寫 語式(文檔的呈現(xiàn)方式)

書面語、演講稿、劇本/臺辭、口語談話、會議記錄 主題(文章寫作的內(nèi)容)

哲學、科學、社會、藝術(shù)、生活、文學

媒體 報紙、一般雜志、學術(shù)期刊、教科書、工具書、學術(shù)論著、一般圖書、書信、視聽媒體、其它

作者 姓名、性別、國籍、母語

出版 出版單位、出版地、出版日期、版次

不同研究目的的語言學者可以自己按語式、文體、媒體和主題的小類選取不同類別的語料,組成“自訂語料庫”,在“自訂語料庫”的范圍內(nèi)進行語料的檢索和統(tǒng)計。除了通常的按詞語、詞類的檢索和統(tǒng)計以外,這個語料庫的管理系統(tǒng)還提供了一種“進階處理”功能,對檢索出來的數(shù)據(jù)作進一步處理,對處理的結(jié)果還可以再次處理,形成多層的檢索結(jié)果。

(四)面向語言信息處理的現(xiàn)代漢語語料庫

90年代中后期,面向語言信息處理的現(xiàn)代漢語語料庫開始建立并投入應(yīng)用。其中最早開發(fā)的是清華大學用于研究和開發(fā)漢語自動分詞技術(shù)的現(xiàn)代漢語語料庫,經(jīng)過幾年的積累已達到8億多字生語料。在這個語料庫的支持下,用統(tǒng)計語言模型的方法研究了漢語自動分詞中的理論、算法和技術(shù),編制了總數(shù)為9萬多個詞語的《信息處理用現(xiàn)代漢語分詞詞表》。這些研究工作體現(xiàn)了我國漢語自動分詞技術(shù)的發(fā)展水平,詞表被許多漢語自動分詞系統(tǒng)作為底表使用,是不可缺少的基礎(chǔ)資源。

TH通用語料庫系統(tǒng)是清華大學建立的另一個現(xiàn)代漢語語料庫。這個語料庫有兩個特點,一是語料庫管理系統(tǒng)根據(jù)不同的加工深度,分四個等級管理語料。第一級是生語料分庫,有4千余萬字;第二級以上都是加工程度不同的熟語料庫,其中第二級存放經(jīng)過自動分詞并由人工校對過的初加工語料500余萬字;第三級存放經(jīng)過詞性標注和人工校對的語料約300萬字;第四級是經(jīng)過句子成分標注和人工校對的語料。每個分庫又按語料的來源分成一般書籍、報紙、雜志、論文和工具書五類子庫。不同等級的語料可以為不同的應(yīng)用目標服務(wù)。第二個特點是在這個語料庫的支持下,進行了漢語信息處理技術(shù)的研究。譬如,采用以謂語為中心的句型成分分析與語料統(tǒng)計相結(jié)合的方法,自動分析漢語的句型,提出了一個“漢語句型頻度表”;在漢語文本中自動標注句子成分和句型成分的邊界;根據(jù)指定的句型在語料庫里搜尋句子實例,等等。

HuaYu人工標注語料庫是清華大學和北京語言大學合作建立的一個現(xiàn)代漢語平衡語料庫。這個語料庫按文學、新聞、學術(shù)、應(yīng)用文四個大類收錄了200余萬字語料。它的特點是講究加工的深度,除了詞語切分和詞性標注以外,還根據(jù)語句中動詞的類型和句子的長度進行“語塊”標注和“句法樹”標注,目的是為建立漢語短語分析或句法分析的語言模型獲取統(tǒng)計數(shù)據(jù)提供資源。下面分別是語塊標注和句法樹標注的示例。

對句子“自古以來,人類就重視檔案的保存和利用,設(shè)置館庫、選派專人進行管理。”進行語塊標注以后得到的是一個無嵌套的線性序列,其中S是主語語塊,P是述語語塊,O是賓語語塊: [D 自/p 古/t 以來/f,/, [S 人類/n [D 就/d [P 重視/v [O 檔案/n 的/u 保存/vN 和/c 利用/vN,/, [P 設(shè)置/v [O 館庫/n、/、[P 選派/v [O 專人/n [P 進行/v [O 管理v。

對句子“我哥哥送給我一本很漂亮的書?!边M行句法樹標注以后,得到的是一個與樹形結(jié)構(gòu)等價的線性序列:

[ zj-XX [ dj-ZW [ np-DZ我/ rN 哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 給/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 書/n ] ] ] ]。/w ]

(五)用于開發(fā)特定語言分析技術(shù)的專用語料庫

這類語料庫是針對漢語信息處理技術(shù)的需要專門建立的。例如山西大學的專有名詞標注語料庫和分詞與詞性標注語料庫。

分詞與詞性標注語料庫,規(guī)模為500萬字,帶有分詞標記、詞性標記和句法標記。標注時依據(jù)《信息處理用現(xiàn)代漢語分詞規(guī)范》和《信息處理用現(xiàn)代漢語詞類及標記集規(guī)范》。在這個語料庫的支持下,開發(fā)漢語自動分詞和詞性標注軟件,研究自動分詞和詞性標注的評測技術(shù)。為了解決漢語自動分詞中的切分歧義問題,還建立了交集型歧義字段庫和組合型歧義字段庫,專門收集這兩種類型的歧義切分實例。前者有7.8萬字,后者收錄了140多條。并且在分詞和詞性標注語料庫里作了這兩類切分歧義的標注。利用這些語料調(diào)查交集型歧義當中的“偽歧義”現(xiàn)象(既切分結(jié)果只可能有唯一選擇的那些交集型歧義切分字段),發(fā)現(xiàn)這種現(xiàn)象在歧義切分字段中很普遍,可以達到90%以上。

專有名詞標注語料庫用于研究漢語自動分詞中專有名詞的識別算法。其中包括標注了中國地名的語料280萬字,標注了中國人姓名的語料300萬字,標注了西文姓名的語料250萬字,標注了漢語機構(gòu)名稱的語料50萬字,還有標注了網(wǎng)絡(luò)新詞語的語料150萬字。利用這些語料,建立了中國地名用字、用詞庫,姓氏人名庫,姓氏用字頻率表,名字用字頻率表等,用統(tǒng)計語言模型的方法識別專有名詞。

(六)雙語語料庫

基于實例的機器翻譯(Example-based)需要大規(guī)模的雙語平行語料庫來支持。語料庫里的源語和目標語實例要按照相同級別的翻譯單位一一對齊。目前已有的雙語平行語料庫主要是漢語和英語的,語料對齊的單位有句子級的、子句級的、短語級的,也有詞匯級的。機器翻譯系統(tǒng)把要翻譯的句子與語料庫里的源語實例進行對比,分析相似程度,找到最適合的源語實例,再參照與它對齊的目標語實例生成譯文。用于這類機器翻譯系統(tǒng)的雙語語料庫必須有一定的規(guī)模,用人工做語料對齊的工作顯然很難滿足要求。這就使文本自動對齊成為建立雙語語料庫的關(guān)鍵技術(shù)。

在目前已有的雙語語料庫中,哈爾濱工業(yè)大學的漢英平行語料庫已經(jīng)直接用來開發(fā)英漢雙向機器翻譯系統(tǒng)。這個語料庫有6萬個漢語和英語的句子,使用多級對齊加工技術(shù),分別按照句子、短語結(jié)構(gòu)和詞一一對齊。中國科學院計算技術(shù)研究所的漢英雙語語料庫有20萬個句對,也完成了句子一級的對齊,并在網(wǎng)上提供查詢服務(wù)。北京大學、中國科學院軟件研究所等單位也建立了按句對齊的漢英雙語語料庫。除此之外,還有以語段或短語為單位收集的漢英雙語語料庫,譬如中國科學院自動化研究所的漢英雙語短語庫,有3~5萬對已對齊的漢語和英語短語。東北大學的英漢雙語語段庫,用來幫助建立電子版的英漢搭配詞典。

(七)面向漢語史研究的語料庫

面向漢語史研究的語料庫建設(shè)是從搜集漢語史文獻資料開始的。臺灣中央研究院歷史語言研究所從90年代初期就開始了這項工作,他們先收集上古漢語的語料,然后擴展到中古漢語和近代漢語。90年代中后期逐步開始上古漢語語料和近代漢語的標注,在該院信息研究所和計算中心的協(xié)助下進行標注技術(shù)和檢索技術(shù)的開發(fā)。根據(jù)是否經(jīng)過分詞處理和詞性標注,臺灣中央研究院的古漢語語料庫和近代漢語語料庫可以分成兩類:生語料庫和標記語料庫。目前生語料庫收集的語料已涵蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)的大部分重要文獻資料,并己陸續(xù)開放使用。在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注工作,也逐步提供網(wǎng)上檢索。2001年底,開放了近代漢語標記語料庫WWW版供各界使用,首先提供查詢的文獻是《紅樓夢》及《三遂平妖傳》。在查詢方面,除了常用的功能以外,還可以在顯示詞項及詞類的同時給出例句的出處,便于歷史語法的研究者使用。

多年來中國社會科學院語言研究所也一直在致力于文獻資料的建設(shè),搜集整理了近代漢語書面語語料150萬字,中古近代漢語語料約1千萬字,部分語料已作了標注。目前已經(jīng)完成了一個小型語料庫,包括:敦煌變文集、祖堂集、三朝北盟匯編、碧巖錄、朱子語類、劉知遠諸宮調(diào)、西廂記諸宮調(diào)、元刊全相平話五種、元典章 刑部、老乞大諺解、樸通事諺解、孝經(jīng)直解、魯齋遺書、經(jīng)筵講義等十余種文獻,成為漢語史和語言學理論研究的重要資源。此外,語言研究所的先秦專書電子文檔有4部文獻,共約120萬字,并且已由古漢語學者逐篇逐句標注了語法信息。

上海師范大學、浙江師范大學、四川大學等學校也依據(jù)各自漢語史研究的方向,建立了歷史文獻語料庫。四川大學的中古漢語語料庫有1億字的中古漢語語料和有關(guān)中古漢語研究的資料。浙江師范大學的楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫,已用于“前四史”語言研究和唐宋詩詞語詞研究。

目前歷史文獻語料庫建設(shè)的特點是依托學科建設(shè)和研究方向,廣泛收集資料,注重校勘精審。隨著漢語史研究和語料庫應(yīng)用的發(fā)展,資源共享和語料加工將得到越來越多的重視。歷史文獻資源共享,首先要避免語料的重復(fù)收集,還要采用國際通用的標準處理語料文本,使語料能夠準確、方便地交換和使用。語料加工則是充分發(fā)掘語料應(yīng)用價值的基礎(chǔ)工作,從收集歷史文獻的電子文檔,到建成一個具有必要的語言學標記信息、合理的邏輯結(jié)構(gòu)和方便的檢索功能的語料庫,語料的加工是不可或缺的一步。

(八)比較語料庫

為了研究漢語在不同地區(qū)的使用情況,香港城市大學建立了LIVAC共時語料庫(Linguistic Variation in Chinese Speech Communities)。語料來自香港、臺灣、北京、上海、澳門及新加坡六地有代表性的中文報紙,以及電子媒介上的新聞報道。自1995年7月開始,每四天一次,收集這六個地區(qū)的對等書面語文本,每次約兩萬字。內(nèi)容包括新聞、特寫、評論等文章。到2003年上半年,已收集了1億1千多萬字、超過56萬個詞條。計劃收集到2005年6月,囊括新舊世紀交接點前后各五年各地華語社區(qū)有代表性的重要語言數(shù)據(jù),供漢語的各種共時比較研究使用。

在語料的組織和加工方面,這個語料庫用計算機自動分詞,再經(jīng)人工校對分類,可以依字、詞、句為基礎(chǔ)進行檢索,提供字、詞配搭、分布等數(shù)據(jù),有統(tǒng)計功能。語言學家能通過這個語料庫考察上述六地出現(xiàn)的新詞、詞義有所發(fā)展或轉(zhuǎn)移的舊詞、以及有地方特色的詞語,還可以對具體字或詞的頻率作統(tǒng)計比較,對字詞的差別作計量分析。對研究華人社區(qū)的文化、社會、語言差異也有作用。這個語料庫的一部分已經(jīng)在網(wǎng)上提供服務(wù)。

(九)少數(shù)民族語言語料庫

新疆大學從2002年起開始建設(shè)現(xiàn)代維吾爾語語料庫系統(tǒng),計劃包括5個部分:語料庫、電子語法信息詞典、規(guī)則庫、統(tǒng)計信息庫和檢索統(tǒng)計軟件包。其中語料庫部分又分成生語料庫(經(jīng)初步整理的原始語料)和加工語料庫(經(jīng)過標注和校對的語料)。目前已有生語料800萬詞。另外,新疆大學也正在以新聞領(lǐng)域的維漢-漢維機器翻譯為目標,建設(shè)雙語平行語料庫。內(nèi)蒙古大學的中世紀蒙古文語料庫收集了《元朝秘史》、《黃金史》、《回鶻蒙古文文獻集》等歷史文獻。他們還建立了500萬詞的現(xiàn)代蒙古語語料庫,研究了蒙古文附加成分的自動切分、復(fù)合詞的自動識別和語料的詞性標注,獲得了詞頻統(tǒng)計、音節(jié)統(tǒng)計、詞類統(tǒng)計、附加成分統(tǒng)計等數(shù)據(jù)。西北民族大學建立了1億3千萬字節(jié)的大型藏文語料庫,用于藏文詞匯頻度和通用度的統(tǒng)計。中國社會科學院民族學與人類學研究所建立了500萬藏語字符的藏語語料庫,進行詞語切分和標注的研究。新疆師范大學也建立了200萬詞的維吾爾語語料庫。

與漢語語料庫相比,少數(shù)民族語料庫的建設(shè)還需要解決一些特殊的問題,譬如拼音文字轉(zhuǎn)寫的標準和規(guī)范,詞語分類體系及其標記集等。

到2003年,已建和在建的各種文本語料庫還有很多(包括書面語語料庫和以文本形式表示的口語語料庫),以上提到的只是有代表性的一部分。與文本語料庫相對的,是語音語料庫。語音語料庫不僅記錄語圖、聲學參數(shù)等語音學數(shù)據(jù),還有句法、韻律等各種語言學信息標記和副語言學信息標記,可以在語音識別與合成系統(tǒng)中用來建立語音模型,用于語音研究、語音工程開發(fā)和漢語普通話教學等領(lǐng)域。語音技術(shù)是當前信息技術(shù)和通訊領(lǐng)域里最具潛力的發(fā)展方向之一,語音語料庫在科研和工程上有很高的使用價值。關(guān)于語音語料庫的詳細情況,請見“語音學和言語工程研究綜述”。

三 語料庫的加工、管理和規(guī)范

(一)語料的加工

一個計算機語料庫的功能主要與三個因素有關(guān),一是語料庫的規(guī)模,二是語料的分布,三是語料的加工程度。規(guī)模的大小關(guān)系到統(tǒng)計數(shù)據(jù)是否可靠,語料的分布涉及統(tǒng)計結(jié)果的適用范圍,語料加工的深度則決定這個語料庫能為使用者提供什么樣的語言學信息。

加工語料主要指文本格式處理和文本描述兩項工作,前者是對采集的語料文本進行整理,轉(zhuǎn)成統(tǒng)一的電子文本格式,例如數(shù)據(jù)庫格式、XML文本格式等。后者是描述每一篇語料樣本的屬性或特征,包括篇頭描述和篇體描述。篇頭描述說明整篇語料樣本的屬性,例如語體、內(nèi)容所屬的領(lǐng)域、作者、寫作時間、來源出處等等,篇體描述是在文本里添加各種語言學屬性標記,對于漢語書面語語料庫來說,常見的是詞語切分標記、詞性標記、專有名詞標記,還有某些語法特征如短語標記、子句標記,或語義信息標記,等等。對漢語書面語語料的加工一般是從詞語切分、詞性標注,到語法、語義屬性標注,按順序進行。標注的信息逐步增多,語料加工的深度也就逐漸增加。人們通常把沒有篇體描述信息的語料叫做生語料。對漢語的生語料只能以字為單位進行檢索和統(tǒng)計。經(jīng)過詞語切分處理的語料,就能以詞為單位進行檢索、統(tǒng)計和定量分析。如果還作了詞性標記,那么可以獲得的語言學信息就更多了。語料的標注如果由人來做,當然能夠保證準確性,但是人工標注對處理大規(guī)模的語料顯然不夠現(xiàn)實。所以幾乎每一個大規(guī)模語料庫的加工都需要借助自動化的手段,詞語自動切分、詞性自動標注等就成為備受關(guān)注的語料加工技術(shù)。

自動分詞是我國最早開始研究的漢語信息處理技術(shù)之一。語料庫的建設(shè)開始以后,自動分詞技術(shù)在語料加工中又得到了應(yīng)用和發(fā)展。自動分詞和詞性自動標注一般都需要一個詞典,作為分詞和詞性標注的基礎(chǔ)。這個詞典與常用的語文詞典相比,收錄的詞目不大一樣,包括了語言學家認可的詞,以及一些比詞小的單位(如語素字、詞綴等)和一些比詞大的單位(如成語、習語、簡稱略語等)。詞典中也包括詞類信息和其他語法信息。目前的自動分詞技術(shù)是基于字符串匹配原理的,有正向最大匹配、逆向最大匹配等基本算法。在切分過程中會出現(xiàn)歧義現(xiàn)象,如何處理歧義是自動分詞研究的重點之一,在這方面投入的研究也最多,先后提出了“短語結(jié)構(gòu)法”、“專家系統(tǒng)法”、“隱馬爾科夫模型”、“串頻統(tǒng)計和詞匹配”等辯識歧義的方法。識別未登錄詞是自動分詞研究的第二個重點。未登錄詞指沒有被分詞底表收錄的詞語,包括人名、地名、機構(gòu)名等專有名詞和新出現(xiàn)的詞語。對未登錄詞的識別一般以基于語料庫的統(tǒng)計語言模型方法為主。

詞性自動標注通常與自動分詞同時進行,根據(jù)帶有詞類信息的分詞詞典,給切分出來的詞語標上初始的詞類標記。對于兼類詞,必須在句子里判斷類別。因此需要分析兼類詞語在上下文中的分布特點和語法功能,并用形式化的方式表達出來,作為詞性標注系統(tǒng)排除兼類的規(guī)則。近年來,已經(jīng)有幾個自動分詞和詞性自動標注系統(tǒng)投入了應(yīng)用,其中北京大學用自己研制的系統(tǒng)為《人民日報標注語料庫》做分詞和詞性標注的初加工,北京語言大學的自動分詞系統(tǒng)也成為其《面向語言教學研究的漢語語料檢索系統(tǒng)》中的關(guān)鍵技術(shù)。此外,經(jīng)過十幾年的研究和實踐,2001年發(fā)布了收錄9萬多詞語的《信息處理用現(xiàn)代漢語分詞詞表》和《現(xiàn)代漢語詞類及標記集規(guī)范》。對于1993年制定的國家標準《信息處理用現(xiàn)代漢語分詞規(guī)范》的可操作性問題,也進行了積極的討論和實驗,提出了有效的解決方法。關(guān)于自動分詞和詞性自動標注的詳細情況,請見“計算語言學和自然語言信息處理研究綜述”。

經(jīng)過分詞的語料,除了標注詞性以外,還可以進一步標注其他語言學屬性,譬如韻律、語調(diào)、短語結(jié)構(gòu)、句法結(jié)構(gòu)、語義關(guān)系等等。句子的語法結(jié)構(gòu)需要有形式化的方式來表達,大多數(shù)語料庫或者采用短語結(jié)構(gòu)樹,或者采用依存語法樹的方式,這樣標注過的語料庫就成為短語樹庫或句法樹庫。一般情況下,在詞性標注的基礎(chǔ)上再作進一步的語法標注加工,多以人工為主,也有關(guān)于自動短語定界和句法信息自動標注的研究和實驗。目前已有的漢語短語庫、句法樹庫規(guī)模都不大,至多百萬詞級。

在雙語語料庫的建設(shè)中,除了上述語料加工項目以外,還有一項不可缺少的語料加工任務(wù):雙語語料對齊。語料對齊分為段落、句子、子句、短語和詞語幾個不同的層次。如果考慮用計算機程序做自動對齊,不同的層次要解決的問題各不相同。每種語言的段落都有可識別的標志,因此段落的對齊最容易實現(xiàn),句子的對齊在印歐語言之間比它們和漢語之間要容易,詞語的對齊需要借助詞典,句子內(nèi)的各種結(jié)構(gòu)要自動對齊則是最難的。目前雙語自動對齊技術(shù)的研究主要是針對句子和句子內(nèi)的結(jié)構(gòu),采用的方法有基于長度的、基于詞典的,或者是這兩種方法的混合策略。

(二)語料庫管理系統(tǒng)

經(jīng)過科學選材和標注、具有適當規(guī)模的語料庫,還應(yīng)該有一個功能齊備的管理系統(tǒng),包括數(shù)據(jù)維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標注、文本分割、合并、語料對齊、標記處理等)、用戶服務(wù)功能(查詢、檢索、統(tǒng)計、打印等)。其中數(shù)據(jù)維護部分主要涉及漢字字符處理、文本處理、文件管理等計算機程序設(shè)計技術(shù)。語料自動加工部分的主要內(nèi)容是自動分詞、各種語言學屬性的標注技術(shù),已經(jīng)在前面專門介紹過了。這里主要談?wù)劽嫦蛴脩舻恼Z料檢索、統(tǒng)計和分析技術(shù)。

語料檢索是一種全文檢索技術(shù),但是也有自己的特點,僅用普通的全文檢索技術(shù)還不能滿足語料檢索的需要。這是因為,全文信息檢索關(guān)心的是檢索目標的意義,不是檢索目標的語言表述形式。而面向語言研究的語料檢索則特別注重語言的表述形式,它既需要按照字、字串和詞檢索,也需要把詞語的語言學屬性作為檢索的目標和約束條件,還要求把檢索的結(jié)果或目標的出處按照研究的需要排序、輸出。除此之外,還要有字頻、詞頻和特定語言形式出現(xiàn)頻率的統(tǒng)計功能。

對漢語生語料的檢索和統(tǒng)計是以字或字串為單位進行的。這一類檢索系統(tǒng)主要以單字索引和字符串匹配為關(guān)鍵技術(shù),由于把詞語當作字串來檢索,所以檢索結(jié)果中經(jīng)常出現(xiàn)“非詞”的問題。例如要查找“出警”,檢索結(jié)果中除了“迅速出警”、“拒絕出警”、“出警次數(shù)”等實例以外,“發(fā)出警告”、“放出警犬”等也混在其中。為了解決這些問題,常常需要為字符串匹配的檢索表達式另外設(shè)置限制條件。這些限制條件大多是個性的,只能排除一部分“非詞”的實例。要想從根本上解決這個問題,就必須對語料作詞語切分。經(jīng)過詞語切分處理的熟語料,能以詞為單位進行檢索、統(tǒng)計和定量分析。但是熟語料庫的加工代價很高,而且對于語料的詞語切分和詞性標注,目前還沒有既成熟又便于操作的規(guī)范,所以近年來,面向生語料庫的檢索技術(shù)一直在廣泛應(yīng)用,并且在用戶功能方面不斷發(fā)展。譬如,可以對用戶給出的任何生語料快速生成索引;可以使用具有復(fù)合邏輯關(guān)系的檢索表達式;可以按照漢字、拼音、筆畫對檢索結(jié)果的上下文自動排序;可以提供檢出實例的來源、出處;可以按字頻統(tǒng)計的數(shù)據(jù)排序;檢索結(jié)果和統(tǒng)計結(jié)果既可以按文本形式輸出,也可以按數(shù)據(jù)庫形式輸出;還可以通過網(wǎng)絡(luò)支持多用戶遠程檢索。

對于經(jīng)過詞語切分處理和詞性標注的熟語料庫,除了所有生語料的檢索功能以外,語料檢索系統(tǒng)還可以把詞語或詞性作為檢索的關(guān)鍵字或限制條件,得到關(guān)于這些語言學屬性的檢索和統(tǒng)計結(jié)果,并按各種排序和輸出形式的提供給用戶。語言學屬性來自語言學家對漢語的研究,研究過程中有各種觀點和認識,從詞的定義到詞類的確定,一直還沒有統(tǒng)一的意見。另一方面,人們檢索語料時的目的也各不相同,有的關(guān)心詞匯問題,有的關(guān)心語法現(xiàn)象,還有的目標是漢語信息處理的應(yīng)用問題。因此對于熟語料庫檢索來說,一個好的檢索系統(tǒng)應(yīng)該能夠包容各種不同的語言學觀點,可以用于不同的檢索目的。

為了做到這一點,通常采用的辦法是,把用于語料庫自動分詞的底表和附著于底表的詞性、構(gòu)詞等屬性都看作語言學屬性表,使這個屬性表與檢索系統(tǒng)的程序相互獨立,檢索系統(tǒng)只把屬性標記作為抽象的字符串處理,而把建立屬性表的工作交給用戶。以北京語言大學的《面向語言教學研究的漢語語料檢索系統(tǒng)》為例,它的自動分詞詞表、詞屬性集和每個詞的屬性標記都由用戶提供,提供的方式是把詞目和它的屬性標記登記在數(shù)據(jù)庫里。檢索系統(tǒng)使用用戶提供的這個屬性表對生語料自動分詞,并生成索引,供給用戶檢索。檢索系統(tǒng)對屬性表沒有任何限制,規(guī)??纱罂尚?,表中的詞目也可以跟通常認為的詞沒有關(guān)系,屬性可以是語法的,也可以是構(gòu)詞的、語義的、語音的,等等。這樣用戶就能根據(jù)自己的需要檢索和研究各種字串在語料中的表現(xiàn)。

把語料加工技術(shù)集成在檢索系統(tǒng)里面,是語料庫檢索系統(tǒng)的另一個特點。語料加工技術(shù)一般指詞語自動切分和詞性自動標注。在北京語言大學的語料檢索系統(tǒng)中,未登錄詞的自動識別技術(shù)比較有特點。它可以識別各種數(shù)字串、中西人名、中西地名、機構(gòu)名、后綴短語等,并為它們建立索引,供用戶檢索和統(tǒng)計。

(三)語料庫的規(guī)范問題

語料庫的規(guī)范問題主要是對語料加工而言的。漢語語料庫首先遇到的規(guī)范問題是詞語切分。我國90年代初發(fā)布了國家標準《信息處理用現(xiàn)代漢語分詞規(guī)范》(標準號為GB/T13715-92)。這個規(guī)范基本上采用《暫擬漢語教學語法系統(tǒng)》中的觀點,把詞定義為“最小的獨立運用的語言單位”。針對漢語語素、詞和詞組界限不夠清晰的問題,還特別提出了“分詞單位”的概念。把“分詞單位”定義成“漢語信息處理使用的具有確定的語義或語法功能的基本單位”,并且用“結(jié)合緊密、使用穩(wěn)定”的原則作為判斷分詞單位的標準。這樣做的目的是避免關(guān)于如何界定詞的爭論。但是“結(jié)合緊密、使用穩(wěn)定”的原則缺少可操作性,對于自動分詞研究中的具體問題常常難有定論。于是就有了根據(jù)規(guī)范制定一個詞表,用“規(guī)范+詞表”的辦法指導(dǎo)分詞的建議。這樣在90年代中期和末期,分別提出了收詞43570條的《信息處理用現(xiàn)代漢語常用詞表》和收詞9萬多條的《信息處理用現(xiàn)代漢語分詞詞表》。其中后者是在8億字的大規(guī)模語料庫支持下,采用“串頻”、“互信息”、“相關(guān)度”等計算統(tǒng)計方法,依據(jù)定量的數(shù)據(jù)分析結(jié)果辨識“分詞單位”的。與此同時,語言學家也參與了制定這個詞表的工作,他們提出的各種語言學規(guī)則,從定性分析的角度與統(tǒng)計數(shù)據(jù)相互作用,最后經(jīng)過人工審定,確定了92843個詞目,其中一級常用詞56606個,二級常用詞36237個,成為目前許多自動分詞系統(tǒng)使用的詞表。

90年代中期,臺灣的計算語言學會也提出了一個《資訊處理用中文分詞規(guī)范》。這個規(guī)范有三條基本原則,一是分詞單位必須符合語言學理論的要求;二是在信息處理上切實可行;三是能夠確保真實文本處理的一致性。它把分詞規(guī)范分成信、達、雅三個不同的等級,“信”級是基本資料交換的標準,“達”級是機器翻譯、情報檢索等自然語言處理的標準,“雅”級則是分詞的最好結(jié)果。這樣可以根據(jù)不同的應(yīng)用目的做難易程度不同的分詞處理。

詞語切分以后,下一個規(guī)范問題就是詞性標注。經(jīng)過十多年的詞性標注研究和實踐,教育部語言文字應(yīng)用研究所于2001年提出了《信息處理用現(xiàn)代漢語詞類標記集規(guī)范》。這個規(guī)范吸收了語言學家的研究成果,也兼顧了已有的各個用于語言信息處理的詞類系統(tǒng),制定了標記現(xiàn)代漢語書面語詞類的符號集,使各種漢語信息處理應(yīng)用系統(tǒng)能夠盡量使用統(tǒng)一的詞類標記,有助于信息交換和資源共享。

標注短語和句子結(jié)構(gòu)是語料庫進一步深加工的內(nèi)容,雖然目前尚處于起步階段,但已經(jīng)在標注的同時考慮了規(guī)范的問題。清華大學提出的《漢語句子的句法樹標注規(guī)范》,主要包括句法標記集的內(nèi)容描述、句法樹的劃分規(guī)定、歧義結(jié)構(gòu)的處理、結(jié)構(gòu)分析的方向性等問題。上海師范大學根據(jù)自己制定的《漢語文本短語結(jié)構(gòu)人工標注規(guī)范》,對100萬字的1997年《讀者文摘》進行了分詞、詞性標注和人工標注短語的試驗。哈爾濱工業(yè)大學采用包含23個短語符號的標記集合,開發(fā)了一個8000個句子的漢語樹庫。清華大學還建立了一個基于語義依存關(guān)系的語料庫,也涉及到標注體系的選擇和標注關(guān)系集的確定。這些工作規(guī)模都不大,在規(guī)范方面還處于各自為政的狀態(tài)。隨著語料的進一步深入加工,統(tǒng)一規(guī)范將成為不可避免的問題。

北京大學的《人民日報》標注語料庫是目前規(guī)模最大的漢語基本標注語料庫。在它的開發(fā)過程中,各種加工規(guī)范起了關(guān)鍵的作用。在這些加工規(guī)范中,有詞語的切分規(guī)范,主要規(guī)定把句子的漢字串形式切分為詞語序列的原則;有現(xiàn)代漢語詞類及標記集規(guī)范,規(guī)定切分出來的詞語、短語、標點符號的類別和標識符號;有切分和標注相結(jié)合的規(guī)范,規(guī)定語素構(gòu)成合成詞的方式(重疊、附加和復(fù)合);有標注規(guī)范,規(guī)定詞性標注與詞庫的關(guān)系,主要解決如何在上下文環(huán)境里確定兼類詞的詞性;還有收詞7萬余條的詞庫《現(xiàn)代漢語語法信息詞典》。加工大規(guī)模的語料是一項浩大的語言工程。語料標注的準確性和一致性需要靠完善、合理的詞庫和嚴謹、實用的加工規(guī)范來保證。《人民日報》標注語料庫的加工規(guī)范和《現(xiàn)代漢語語法信息詞典》是語言學家和信息處理專家合作,在漢語語法研究的理論和方法指導(dǎo)下,根據(jù)漢語信息處理的實際需要制定和開發(fā)的。在標注大規(guī)模語料的實踐中,又得到了驗證和完善。

除了語料加工以外,語料庫還應(yīng)該在語料的采集和存儲格式上有所規(guī)范。對于平衡語料庫來說,采集規(guī)范主要是為了保證語料的平衡性,而類別分布和時間分布是語料平衡的兩大要素。每個語料庫都要對語料進行分類,分類的原則各不相同。有的根據(jù)內(nèi)容涉及的主題分類,有的根據(jù)語體分類。在眾多平衡語料庫當中,臺灣中央研究院的現(xiàn)代漢語平衡語料庫的分類標準很值得注意。這個語料庫的研制者認為,用傳統(tǒng)的文體單一特征來界定平衡語料庫不足以反映影響整個語言全貌的內(nèi)在因素。因此他們采用的是多重分類原則:把所有語料都標上五個不同特征的值:(1)文類(2)文體(3)語式(4)主題(5)媒體。利用以主題為主的五個特征的多重分類來進行語料庫的平衡。這樣做還使研究者能夠任選其中幾個特征的組合,定義自己的次語料庫(sub-corpora),也可以在次語料庫間作比較研究。另外,多重分類原則也有利于以后平衡語料庫的更新。語料存儲格式的規(guī)范一般指采用統(tǒng)一的編碼規(guī)范為電子文本作標記,目前可擴充置標語言XML被廣泛地用作語料庫標注的元語言,存儲格式的標準化有助于語料的交換和共享。

四 語料庫在語言研究中的的應(yīng)用

在語言研究中,語料庫方法是一種經(jīng)驗的方法,它能提供大量的自然語言材料,有助于研究者根據(jù)語言實際得出客觀的結(jié)論,這種結(jié)論同時也是可觀測和可驗證的。在計算機技術(shù)的支持下,語料庫方法對語言研究的許多領(lǐng)域產(chǎn)生了越來越多的影響。各種為不同目的而建立的語料庫可以應(yīng)用在詞匯、語法、語義、語用、語體研究,社會語言學研究,口語研究,詞典編纂,語言教學以及自然語言處理、人工智能、機器翻譯、言語識別與合成等領(lǐng)域。我國在語料庫的應(yīng)用上還處于起步階段,在計算語言學和語言信息處理領(lǐng)域,語料庫主要用來為統(tǒng)計語言模型提供語言特征信息和概率數(shù)據(jù),在語言研究的其他領(lǐng)域,多使用語料的檢索和頻率統(tǒng)計結(jié)果。

語料庫與自然語言信息處理有著相輔相成的關(guān)系,大規(guī)模的語料庫是用統(tǒng)計語言模型方法處理自然語言的基礎(chǔ)資源。然而統(tǒng)計語言模型本身并不關(guān)心其建模對象的語言學信息,它關(guān)心的只是一串符號的同現(xiàn)概率。譬如N元語法模型,它只關(guān)心句子中各種單元(比如字、詞、短語等)近距離連接關(guān)系的概率分布,而對于許多復(fù)雜的語言現(xiàn)象,它就無能為力了。在統(tǒng)計語言建模技術(shù)最先得到成功應(yīng)用的自動語音識別領(lǐng)域,語料庫的開發(fā)和建設(shè)受到格外的重視,標注語料庫成為不可缺少的系統(tǒng)資源,就是因為,要想改進N元語法的建模技術(shù),必須利用語料庫引入更多的語言特征信息和統(tǒng)計語言數(shù)據(jù)。同樣,在書面語語言信息處理領(lǐng)域里,語料庫提供的語言知識也越來越多地用在統(tǒng)計語言模型方法中。除了詞語自動切分、詞性自動標注、雙語語料對齊等語料加工技術(shù)以外,人們還在語料庫的支持下,建立有關(guān)語法、語義的語言知識庫,開發(fā)信息抽取系統(tǒng)、信息檢索系統(tǒng)、文本分類和過濾系統(tǒng),并且把基于統(tǒng)計或?qū)嵗姆治黾夹g(shù)集成到機器翻譯系統(tǒng)里面。

近年來在語料庫的支持下,從信息處理的角度研究漢語詞匯、語法和語義問題的報告也日漸增多。這些研究包括:根據(jù)逐詞索引作漢語詞義的調(diào)查;對詞語搭配進行計量分析;利用量詞--名詞的搭配數(shù)據(jù)研究漢語名詞分類問題;進行現(xiàn)代漢語句型的統(tǒng)計和研究;做短語自動識別(例如基本名詞短語、動賓結(jié)構(gòu))和自動句法分析的試驗;研究在句子里為詞語排除歧義的算法;分析和統(tǒng)計漢語詞語重疊結(jié)構(gòu)的深層結(jié)構(gòu)類型及產(chǎn)生方式;等等。

對于詞匯學、語法學、語言理論、歷史語言學等研究來說,語料庫的作用目前大多還是通過語料檢索和頻率統(tǒng)計,幫助人們觀察和把握語言事實,分析和研究語言的規(guī)律。語料庫方法的發(fā)展會使這種僅起輔助作用的手段逐步變成必備的應(yīng)用資源和工具。利用語料庫,人們可以把指定的語法現(xiàn)象加以量化,并且檢測和驗證語言理論、規(guī)則或假設(shè)。

在少數(shù)民族語言和方言調(diào)查研究方面,比較有代表性的工作是“藏緬語語料庫及比較研究的計量描寫”。它建立了我國境內(nèi)藏緬語族五大語支82個語言點16萬詞條的詞匯語音數(shù)據(jù)庫,對藏語方言的音節(jié)、音位、聲母、韻母、聲詞、詞素、構(gòu)詞能力和語音結(jié)構(gòu)等10余項特征作了分布和對比分析。對藏語15個方言點作了語音對應(yīng)關(guān)系和音系對比關(guān)系的量化描述,并且在這個基礎(chǔ)上做出具有歷時和共時比較研究意義的相關(guān)分析,得出了語言分類的相關(guān)矩陣和聚類分析圖表。

在應(yīng)用語言學領(lǐng)域,詞典編纂和語言教學同是語料庫的最大受益者。目前已有多部詞典在編纂或修訂過程中,不同程度地使用語料庫或電子文檔收集詞語數(shù)據(jù),用于收詞、釋義、例句、屬性標注等。南京大學近年來開發(fā)了NULEXID語料庫暨雙語詞典編纂系統(tǒng),涉及英漢兩種語言,在《新時代英漢大詞典》的編纂過程中起了重要作用。從詞典編纂的整體情況看,我們還缺少充分的語料資源和有效的分析工具,很多有意義的事情還做不了。譬如,分析語料中顯現(xiàn)的詞語搭配現(xiàn)象,利用語料庫進行詞語意義辨析,在動態(tài)的語料庫中輔助提取新詞語,等等。把語料庫用于語言教學的一個例子是上海交通大學的JDEST英語語料庫,利用這個語料庫,通過語料比較、統(tǒng)計、篩選等方法為中國大學英語教學提供通用詞匯和技術(shù)詞匯的應(yīng)用信息,為確定大學英語教學大綱的詞表提供了可靠的量化依據(jù)。這個語料庫也在英語語言研究中發(fā)揮了作用,支持基于語料庫的英語語法的頻率特征、語料庫驅(qū)動的詞語搭配等項研究。2003年,中國學習者英語語料庫由上海外語教育出版社正式發(fā)行。這個語料庫是一個100多萬詞的書面英語語料庫,涵蓋我國中學生、大學英語4級和6級、英語專業(yè)低年級和高年級的學習內(nèi)容,并對所有的語料作了語法標注和言語失誤標注。根據(jù)這個語料庫得到了詞頻排列表、拼寫失誤表、詞目表、詞頻分布表、語法標注頻數(shù)表、言語失誤表等,還把這些數(shù)據(jù)與一些英語本族語語料庫(如BROWN,LOB,F(xiàn)ROWN,F(xiàn)LOB)進行了某些比較。這個語料庫為詞典編纂、教材編寫和語言測試提供了必要的資源。目前上海交通大學正在建設(shè)大學英語學習者口語英語語料庫。

在幾年來語料庫建設(shè)和應(yīng)用的基礎(chǔ)上,2003年國家“973”計劃開始支持中文語言資源聯(lián)盟(Chinese Linguistic Data Consortium,簡稱ChineseLDC)的建立。ChineseLDC是吸收國內(nèi)高等院校、科研機構(gòu)和公司參加的開放式語言資源聯(lián)盟。其目的是建成能代表當今中文信息處理水平的、通用的中文語言信息知識庫。ChineseLDC將建設(shè)和收集中文信息處理所需要的各種語言資源,包括詞典、語料庫、數(shù)據(jù)、工具等。在建立和收集語言資源的基礎(chǔ)上,分發(fā)資源,促成統(tǒng)一的標準和規(guī)范,推薦給用戶,并且針對中文信息處理領(lǐng)域的關(guān)鍵技術(shù)建立評測機制,為中文信息處理的基礎(chǔ)研究和應(yīng)用開發(fā)提供支持。

幾年來在計算語言學和語言信息處理領(lǐng)域的學術(shù)會議上,語料庫的建設(shè)和應(yīng)用一直是重要論題之一。討論的重點集中在基于語料庫的語言分析方法,以及語料的標注、管理和規(guī)范等問題上。語言學家更多關(guān)心的是語料庫的規(guī)劃和建設(shè),語料庫方法在語言研究和教學中的應(yīng)用。近年來語言學界也召開有關(guān)語料庫的專門學術(shù)會議,譬如2001年由中國社會科學院語言研究所主辦、在清華大學召開的語料庫語言學與計算語言學研究與實踐研討會(主要討論了語料庫的建設(shè)和應(yīng)用、語言信息處理等問題);2003年由上海交通大學等單位主辦、在上海交通大學召開的語料庫語言學國際研討會(會議主題是語料庫研究與外語教學)。

第二篇:初中英語作文語料庫

要求熟練掌握句式表達??!9月29日編輯完成。

寫作表達句式

1,I am a middle-school student.My dream is to enter into a better senior school.2,MY friend always encourage me to study hard.we are lonely and stressed out(我們很孤獨并且壓力大)4 we are short of parents’ care(我們?nèi)狈Ω改傅年P(guān)心)5 I used to be poor in English but now I am always able to make full marks.我過去英語很差,但現(xiàn)在我能夠取得滿分

6,crossing road can be dangerous if we are not careful enough.如果我們不足夠小心,過馬路可能危險。7 waste water is used to water flowers。or computers are used to do a lot of things in daily life 廢水可以用來澆花。電腦可以用來做很多事情。(蘇文注意)

7,watching TV overly can be bad for our study if parents don’t limit screen time.如果父母不限制看電視時間過度看電視會對我們學習不利,8,as a teenager ,I always meet the same problems as you.here are some suggestions foryou 作為青少年,我常常遇到和你一樣的問題,這里一些建議給你。,as you know, our environment are becoming worse and worse nowadays 正如你所知,如今我們的環(huán)境正變得越來越差。

10.We should also never forget to turn off the lights when we leave the classrooms in order to save energy.What‘s more, it would be better if we walk or ride a bike to school.We should try our best to reduce pollution and waste.自行翻譯

1,the more I want to memorize the words, the more difficult I find it 十(也可以替換為the harder)

我想記得的單詞越多時,我發(fā)現(xiàn)這個過程更難.2.一些凳子是由木材做的,另一些是塑料做的。所有凳子在中國生產(chǎn)的。

Some chairs are made of wood, others are made of plastic.all chairs are made in china.2 to my joy(高興),my classmates always encourage me and give me a lot of help in study and life.(令我高興的是,我的朋友同學總是鼓勵我并且在我的學習生活方面給我足夠幫助)Our class is made up of six groups(如何組成的。班級分成6個小組)our school organize “hand –in-hand “activity to call on more people(students)to help lonely elders.學校組織手拉手活動呼吁更多學生幫助孤獨老年人、4,I WOULD like to visit the Great Wall.It is about more than 6500 kilometers long.It is so great.我想去游玩長城,她大概是6500長,如此宏觀。With the help of the Internet, shopping is not a difficult job.Just click your mouse to choose the article you like, and the shopping is finished.You needn't step out of the room.It seems easy and quick.在電腦幫助下,購物不是件困難的工作。只要一點鼠標去選擇自己喜歡的物品,整個購物過程就完成了。你不需要走出房間,這看起來簡單快速。6.he is more interested in sports than computer games.他對體育的興趣多余電腦游戲節(jié)目 a growing number of students have learned about the shortcomings of going on-line.越來越多的學生已經(jīng)了解到上網(wǎng)的缺點

8There are many traditialfestivals in China, such as Spring Festival, Mid-Autumn Day and so on.在中國與許多節(jié)假日如春節(jié),中求節(jié)等等including 老師們提醒我們過馬路時要小心

Our teachers always remind us to be careful when crossing the road 10 there are two sides to everything, and A is without exception(也可以替換為so is A)該句用于中間轉(zhuǎn)折,意思是凡事都有兩面性,A也是不例外(如此。

替換表達:Although there are many advantages ,its shortcomings can not be overlooked by us 盡管它有很多優(yōu)點,但它的缺點不可以忽視,(這里用被動語態(tài)起強調(diào)作用)I have learned not only how to make friends but also how to talk to others during the learning process.我不僅學會了如何交朋友而且學會了如何與人交流 great changes have taken place in our hometown(china)我的家鄉(xiāng)發(fā)生巨大的變化(詞句用一般現(xiàn)在時也ok 3the life of people is much better than ever before(時態(tài)比較)人民的生活比曾經(jīng)or過去好很多。

4we always waste water resource while millions of people in dry areas are in great need of water(while用法,用于兩者在同一件事情做對比)

我們總是浪費水資源而干旱地區(qū)成千上萬的人卻急需用水。

5there is a need for us to deal with the rubbish in cities and fight against the pollution 對于我們有必要處理城市垃圾,和與污染做斗爭。

6it is necessary /important /beneficial/difficult to do sth(必須、重要、有益、困難)都某件事 7.We should not cut down the trees because trees can clear air and also can better our environment.(另外一種表達:and this can …..)因為樹可以進化空氣而且改善我們環(huán)境,我們不可以砍樹。這里的better 是動詞詞性。I need to spend more time studying in order to come true my dream 替換:so that , 9 I plan to go swimming instead of going shopping this afternoon。我計劃去釣魚而不是去購物(替換詞匯rather than.)

10.we should not spit in a public place,we must pick up some rubbish andthrow it into a dustbin.If everyone makes contribution to protecting the environment, the world will become much more beautiful(學生自行翻譯。

第三篇:語料庫研究綜述

語料庫研究與應(yīng)用綜述

目錄 一概述

二中國語料庫建設(shè)的基本情況 三語料庫的加工、管理和規(guī)范 四語料庫在語言研究中的的應(yīng)用 五參考文獻

語料庫研究與應(yīng)用綜述

一概述

語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現(xiàn)的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經(jīng)過科學選材和標注、具有適當規(guī)模的語料庫能夠反映和記錄語言的實際使用情況。人們通過語料庫觀察和把握語言事實,分析和研究語言系統(tǒng)的規(guī)律。語料庫已經(jīng)成為語言學理論研究、應(yīng)用研究和語言工程不可缺少的基礎(chǔ)資源。

語料庫有多種類型,確定類型的主要依據(jù)是它的研究目的和用途,這一點往往能夠體現(xiàn)在語料采集的原則和方式上。有人曾經(jīng)把語料庫分成四種類型:(1)異質(zhì)的(Heterogeneous):沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料;(2)同質(zhì)的(Homogeneous):只收集同一類內(nèi)容的語料;(3)系統(tǒng)的(Systematic):根據(jù)預(yù)先確定的原則和比例收集語料,使語料具有平衡性和系統(tǒng)性,能夠代表某一范圍內(nèi)的語言事實;(4)專用的(Specialized):只收集用于某一特定用途的語料。除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的采集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構(gòu)成譯文關(guān)系,多用于機器翻譯、雙語詞典編撰等應(yīng)用領(lǐng)域,后者將表述同樣內(nèi)容的不同語言文本收集到一起,多用于語言對比研究。

語料庫建設(shè)中涉及的主要問題包括:

(1)設(shè)計和規(guī)劃:主要考慮語料庫的用途、類型、規(guī)模、實現(xiàn)手段、質(zhì)量保證、可擴展性等。

(2)語料的采集:主要考慮語料獲取、數(shù)據(jù)格式、字符編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。

(3)語料的加工:包括標注項目(詞語單位、詞性、句法、語義、語體、篇章結(jié)構(gòu)等)標記集、標注規(guī)范和加工方式。

(4)語料管理系統(tǒng)的建設(shè):包括數(shù)據(jù)維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標注、文本分割、合并、標記處理等)、用戶功能(查詢、檢索、統(tǒng)計、打印等)。

(5)語料庫的應(yīng)用:針對語言學理論和應(yīng)用領(lǐng)域中的各種問題,研究和開發(fā)處理語料的算法和軟件工具。

我國語料庫的建設(shè)始于80年代,當時的主要目標是漢語詞匯統(tǒng)計研究。進入90年代以后,語料庫方法在自然語言信息處理領(lǐng)域得到了廣泛的應(yīng)用,建立了各種類型的語料庫,研究的內(nèi)容涉及語料庫建設(shè)中的各個問題。90年代末到新世紀初這幾年是語料庫開發(fā)和應(yīng)用的進一步發(fā)展時期,除了語言信息處理和言語工程領(lǐng)域以外,語料庫方法在語言教學、詞典編纂、現(xiàn)代漢語和漢語史研究等方面也得到了越來越多的應(yīng)用。

語料庫與語言信息處理有著某種天然的聯(lián)系。當人們還不了解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基于規(guī)則的(Rule-based)。對于用規(guī)則無法表達或不能涵蓋的語言事實,計算機就很難處理。語料庫出現(xiàn)以后,人們利用它對大規(guī)模的自然語言進行調(diào)查和統(tǒng)計,建立統(tǒng)計語言模型,研究和應(yīng)用基于統(tǒng)計的(Statistical-based)語言處理技術(shù),在信息檢索、文本分類、文本過濾、信息抽取等應(yīng)用方向取得了進展。另一方面,語言信息處理技術(shù)的發(fā)展也為語料庫的建設(shè)提供了支持。從字符編碼、文本輸入和整理,語料的自動分詞和標注,到語料的統(tǒng)計和檢索,自然語言信息處理的研究都為語料的加工提供了關(guān)鍵性的技術(shù)。

下面先簡要敘述1998年到2003年中國語料庫建設(shè)的基本情況,然后介紹語料庫的加工、管理和規(guī)范問題,最后談?wù)務(wù)Z料庫方法在語言研究和語言工程等方面的應(yīng)用。由于以前的《中國語言學年鑒》很少談及語料庫問題,為了盡可能全面地反映我國語料庫研究和應(yīng)用的情況,必要時會將時間上限向前延伸幾年。

二中國語料庫建設(shè)的基本情況

90年代末到新世紀初這幾年投入建設(shè)或開始使用的語料庫有數(shù)十個之多,不同的應(yīng)用目的使這些語料庫的類型各不相同,對語料的加工方法也各不相同。下面是其中已開始使用并且具有一定代表性的語料庫。

(一)現(xiàn)代漢語通用語料庫

這是一個由國家語言文字工作委員會主持建立、面向全社會應(yīng)用需求的大型通用語料庫,從90年代初開始建設(shè),計劃規(guī)模7000萬字,主要應(yīng)用目標是語言文字信息處理、語言文字規(guī)范和標準的制定、語言文字的學術(shù)研究、語文教育、以及語言文字的社會應(yīng)用。

這個語料庫收錄的語料以書面語為主、以書面語轉(zhuǎn)述的口語為輔。語料來源是1919年至今,主要是1977年至今出版的教材、報紙、綜合性刊物、專業(yè)刊物和圖書。在設(shè)計原則上,講求通用性、描述性、實用性和抽樣的科學性。在語料分類方面,以“門類為主,語體為輔”為原則制定三個大類:

第一類:人文與社會科學類(包括8個次類、30個細類)

1.政法類:哲學政治宗教法律

2.歷史類:歷史考古民族

3.社會類:社會學心理語言文字教育文藝理論新聞民俗

4.經(jīng)濟類:工業(yè)經(jīng)濟農(nóng)業(yè)經(jīng)濟政治經(jīng)濟財貿(mào)經(jīng)濟

5.藝術(shù)類:音樂美術(shù)舞蹈戲劇

6.文學類:小說散文傳記報告文學科幻口語

7.軍體類:軍事體育

8.生活類

第二類:自然科學類(包括6個次類)

1.數(shù)理類

2.生化類

3.天文地理類

4.海洋氣象類

5.農(nóng)林類

6.醫(yī)藥衛(wèi)生類

第三類:綜合類(包括6個次類,30多個細類)

1.行政公文類:請示報告批復(fù)命令指示布告紀要通知等

2.章程法規(guī)類:章程條例細則制度公約辦法法律條文等

3.司法文書類:訴訟辯護詞控告信委托書等

4.商業(yè)文告類:說明廣告調(diào)查報告經(jīng)濟合同等

5.禮儀辭令類:歡迎詞賀電訃告唁電慰問信祝酒詞等

6.實用文書類:請假條檢討申請書請愿書等 在不同類別、不同來源、不同時期的語言材料中,按照不等密度的思路確定合適的語料選取比例,從共時和歷時兩個角度保證入選語料的平衡性,是這個語料庫的特點。譬如,在語言材料的年限方面,選材比例是:

1919年– 1925年

5%

1926年– 1949年

15%

1950年– 1965年

25%

1966年– 1976年

5%

1977年以后

50%

在語言材料的門類、語體和來源方面,選材比例是:

人文與社會科學類占59.6%。其中各個次類在本大類中的比例是:

政法

12.7%

歷史

8.4%

社會

14.0%

經(jīng)濟

9.8%

藝術(shù)

6.7%

文學

44.9%

軍體

2.3%

生活

1.4%

自然科學類占17.24%。其中各個次類在本大類中的比例是:

數(shù)理

17.2%

生化

19.1%

天文地理

14.1%

海洋氣象

9.1%

農(nóng)林

22.8%

醫(yī)藥衛(wèi)生

17.7%

綜合類占9.36%。其中各個次類在本大類中的比例是:

各類應(yīng)用文

91.1%

其他

8.9%

報紙類占13.79%。其中各個次類在本大類中的比例是:

全國性報刊

25%

省市報刊

75%

這個語料庫在選材過程中收集和記錄語料的有關(guān)描述信息,為每個語料樣本設(shè)立了20個描述項目:總號、分類號、樣本名稱、類別、作者、寫作時間、書刊名稱、編著者、出版者、出版日期、期號(版面號)、版次(初版日期)、印冊數(shù)、總頁數(shù)、開本、選樣方式、樣本起止頁數(shù)、樣本字數(shù)、樣本總數(shù)、繁簡字。用戶可以利用這些語料描述標記根據(jù)各自的需要進行各種方式的檢索。語料庫的建庫工作分為兩步,第一步先建立核心語料庫(由7000萬字的語料中篩選出2000萬字語料組成)。到90年代末,完成了2000萬字生語料的收錄工作。從2001年開始,對2000萬字核心語料進行分詞和詞性標注加工。

(二)《人民日報》標注語料庫

《人民日報》標注語料庫由北京大學計算語言學研究所和日本富士通公司合作,從1999年開始,到2002年完成,原始語料取自1998年全年的《人民日報》,共約2700萬字,到2003年又擴充到3500萬字,是我國第一個大型的現(xiàn)代漢語標注語料庫。這個語料庫加工的項目有詞語切分和詞性標注,還有專有名詞(人名、地名、團體機構(gòu)名稱等)標注、語素子類標注、動詞、形容詞的特殊用法標注和短語型標注。下面是一段語料標注的示例,對于1998年1月1日第5版第1篇文章的第11段:

我國的國有企業(yè)改革見成效。位于河南的中國一拖集團有限責任公司面向市場,積極調(diào)整產(chǎn)品結(jié)構(gòu),加快技術(shù)改造和新產(chǎn)品研制步伐。圖為東方紅牌履帶拖拉機生產(chǎn)線。(趙鵬攝)

標注后的形式是:

19980101-05-001-011/m 我國/n 的/u 國有/vn企業(yè)/n 改革/v 見/v 成效/n。/w 位于/v 河南/ns 的/u [中國/ns 一拖/j 集團/n 有限/a 責任/n 公司/n]nt面向/v 市場/n,/w 積極/ad 調(diào)整/v 產(chǎn)品/n 結(jié)構(gòu)/n,/w 加快/v 技術(shù)/n 改造/vn和/c 新/a 產(chǎn)品/n 研制/vn步伐/n。/w 圖/n 為/v 東方紅牌/nz履帶/n 拖拉機/n 生產(chǎn)線/n。/w(/w 趙/nr 鵬/nr 攝/Vg)/w

在每一個切分出來的詞和標點符號后面,是該詞語的標記。譬如詞性標記(n,v,a,u,m,w等),專有名詞標記(nr,ns,nz等),語素子類標記(Vg等),動詞和形容詞特殊用法標記(vn,ad)。所有的標記都是以北京大學的《現(xiàn)代漢語語法信息詞典》為基礎(chǔ)詞庫,在一個加工規(guī)范的指導(dǎo)下標注的。

利用《人民日報》標注語料庫,人們可以從各個角度考察和分析語言事實,統(tǒng)計各種語言單位出現(xiàn)的頻率,譬如,詞語或詞類的分布、搭配和共現(xiàn),專有名詞的結(jié)構(gòu)方式、兼類詞在句子中的表現(xiàn),語素字的使用情況,等等。也可以從語料里提取各種語言單位或語句片段作為研究實例。與僅僅以漢字串的形式表示的“生語料”相比,經(jīng)過標注的“熟語料”顯然含有更多的語言學特征信息,對漢語詞匯研究、語法研究和漢語信息處理系統(tǒng)來說是更好的語言知識資源。

《人民日報》標注語料庫中一半的語料(1998年上半年)共1300萬字已經(jīng)通過《人民日報》新聞信息中心公開提供許可使用權(quán)。其中一個月的語料(1998年1月)近200萬字在互聯(lián)網(wǎng)上公布,供自由下載。

(三)用于語言教學和研究的現(xiàn)代漢語語料庫

建立現(xiàn)代漢語語料庫的主要目的之一是對外漢語教學和現(xiàn)代漢語研究,可以分為書面語語料庫和以文本形式表示的口語語料庫兩類。前者如北京語言大學的漢語中介語語料庫、現(xiàn)代漢語研究語料庫,后者如中國社會科學院語言研究所的北京地區(qū)現(xiàn)場即席話語語料庫。

漢語中介語語料庫的建設(shè)目標是為對外漢語教學、中介語研究、偏誤分析和漢語本體研究提供資源,因此它的語料來源很有對外漢語教學的特點。作者先在北京和其他省市的9 所高等院校里,從來自96個國家和地區(qū)的1635位外國留學生那里收集了成篇成段的漢語作文或練習材料5774篇,共3528988字。再從中抽取了 740人的1731篇語料,共有44218句,1041274字。全部語料都記錄了學生姓名、性別、年齡、國別、是否華裔、第一語言、文化程度、所學主要教材、語料類別、寫作時間、提供者等23項屬性。然后對這104萬字的語料進行詞語切分、詞性標注以及一些專用的語言學特征標注。例如,標出了字、詞、句、篇等不同的層次,對語料的非規(guī)范形式(例如:錯字、別字、繁體字、拼音字、非規(guī)范詞等)做出索引標記,記錄其對應(yīng)的規(guī)范形式。這個語料庫的管理系統(tǒng)有語篇屬性登錄、文本過濾、文字預(yù)處理信息登錄、語料抽樣、斷句、分詞、詞性輔助標注、自動標注以及語料的主題檢索、全文檢索和數(shù)據(jù)瀏覽等各種功能,分別處理語料庫的建立、管理和維護,以及用戶瀏覽、查詢和檢索等。與人工收集的學生病句卡片資料相比,中介語語料庫能夠更好地反映學生學習漢語的情況,幫助教師更加全面地觀察他們的學習過程,了解影響學習和習得的各種因素。在漢語作為第二語言的教學中,為教材編寫、課堂教學、測試等環(huán)節(jié)提供依據(jù)。

現(xiàn)代漢語研究語料庫的建設(shè)目標是為語言學家提供一個研究平臺,由2000萬字的粗語料庫和200萬字經(jīng)過分詞和詞性標注的精語料庫兩個部分組成。粗語料庫收錄的語料樣本中絕大部分是九十年代的出版物,有《人民日報》1000萬字,《中國新聞》500萬字,各種書籍250萬字,文學作品150萬字,準口語材料(書面形式的對話、獨白)100萬字。精語料庫的200萬字語料樣本是從粗語料庫中按照規(guī)定的比例由計算機隨機抽取的,有書面語語料160萬字,準口語語料40萬字,是從語體、題材、體裁三個方面均衡選取的平衡語料庫。為了對這些語料進行詞語切分和詞性標注,作者制定了詞語切分的細則和詞性標記體系的原則,采用了一個含有112個詞類標記的標記集,確定了兼類詞的處理方法。這個語料庫的管理系統(tǒng)具有建庫、檢索、瀏覽、統(tǒng)計、輸出等功能,可以按詞或詞類檢索,統(tǒng)計出詞的頻率、詞類頻率、詞類共現(xiàn)頻率、平均詞長、平均句長等結(jié)果。這個語料庫建成以后,很快應(yīng)用在現(xiàn)代漢語語法、漢語教學和漢語信息處理的研究中,研究內(nèi)容涉及現(xiàn)代漢語的插入語、漢語句子的主題-主語標注、V+N序列實驗分析、詞性標注中詞語歸類問題、動賓組合的自動獲取與標注,等等。

建設(shè)北京地區(qū)現(xiàn)場即席話語語料庫的目的是,通過收集大量的現(xiàn)場即席話語語料研究現(xiàn)場即席話語的各種動態(tài)機制,以揭示現(xiàn)場即席話語的使用規(guī)律。這個語料庫的研究策略和取樣方法很有特點,首先是嚴格區(qū)分資源庫和語料庫,資源庫收集符合現(xiàn)場即席話語定義的錄音材料,語料庫收錄按照一定標準從資源庫提取出來的材料;另外在語料采樣前先做摸底性研究,通過研究對現(xiàn)場即席話語的真實情況有所了解,確定取樣域,再定取樣范疇,然后根據(jù)取樣范疇去錄現(xiàn)場典型材料,這是一種層次范疇化的取樣方法。這個語料庫目前正在建設(shè)之中,已經(jīng)取得了近600小時的錄音材料和50多小時的錄象材料。

在用于漢語研究的語料庫中,講究選材均衡,注重語料加工,同時也提供公開服務(wù)的,當數(shù)臺灣中央研究院歷史語言研究所的現(xiàn)代漢語平衡語料庫(簡稱Sinica Corpus)。這個語料庫的規(guī)模為500萬個詞,每個句子都依詞斷開,標示詞類標記,并且配備了檢索系統(tǒng),在網(wǎng)上開放供大家使用。根據(jù)自己制定的一套漢語文本屬性特征為語料分類,在不同的類別上盡量均衡地采集語料,是這個語料庫的特點之一。文本屬性用來說明文檔的呈現(xiàn)方式、文章的寫作方式、文章寫作的內(nèi)容和文檔的來源出處,包括7類,每類下設(shè)若干小類:

文類(文檔的呈現(xiàn)方式)

報導(dǎo)、評論、廣告圖文、信函、公告啟事、小說故事寓言、散文、傳記日記、詩歌、語錄、說明手冊、劇本、會話、演講、會議記錄 文體(文章的寫作方式)

記敘、論說、說明、描寫

語式(文檔的呈現(xiàn)方式)

書面語、演講稿、劇本/臺辭、口語談話、會議記錄

主題(文章寫作的內(nèi)容)

哲學、科學、社會、藝術(shù)、生活、文學

媒體報紙、一般雜志、學術(shù)期刊、教科書、工具書、學術(shù)論著、一般圖書、書信、視聽媒體、其它

作者姓名、性別、國籍、母語

出版出版單位、出版地、出版日期、版次

不同研究目的的語言學者可以自己按語式、文體、媒體和主題的小類選取不同類別的語料,組成“自訂語料庫”,在“自訂語料庫”的范圍內(nèi)進行語料的檢索和統(tǒng)計。除了通常的按詞語、詞類的檢索和統(tǒng)計以外,這個語料庫的管理系統(tǒng)還提供了一種“進階處理”功能,對檢索出來的數(shù)據(jù)作進一步處理,對處理的結(jié)果還可以再次處理,形成多層的檢索結(jié)果。

(四)面向語言信息處理的現(xiàn)代漢語語料庫

90年代中后期,面向語言信息處理的現(xiàn)代漢語語料庫開始建立并投入應(yīng)用。其中最早開發(fā)的是清華大學用于研究和開發(fā)漢語自動分詞技術(shù)的現(xiàn)代漢語語料庫,經(jīng)過幾年的積累已達到8億多字生語料。在這個語料庫的支持下,用統(tǒng)計語言模型的方法研究了漢語自動分詞中的理論、算法和技術(shù),編制了總數(shù)為9萬多個詞語的《信息處理用現(xiàn)代漢語分詞詞表》。這些研究工作體現(xiàn)了我國漢語自動分詞技術(shù)的發(fā)展水平,詞表被許多漢語自動分詞系統(tǒng)作為底表使用,是不可缺少的基礎(chǔ)資源。

TH通用語料庫系統(tǒng)是清華大學建立的另一個現(xiàn)代漢語語料庫。這個語料庫有兩個特點,一是語料庫管理系統(tǒng)根據(jù)不同的加工深度,分四個等級管理語料。第一級是生語料分庫,有4千余萬字;第二級以上都是加工程度不同的熟語料庫,其中第二級存放經(jīng)過自動分詞并由人工校對過的初加工語料500余萬字;第三級存放經(jīng)過詞性標注和人工校對的語料約300萬字;第四級是經(jīng)過句子成分標注和人工校對的語料。每個分庫又按語料的來源分成一般書籍、報紙、雜志、論文和工具書五類子庫。不同等級的語料可以為不同的應(yīng)用目標服務(wù)。第二個特點是在這個語料庫的支持下,進行了漢語信息處理技術(shù)的研究。譬如,采用以謂語為中心的句型成分分析與語料統(tǒng)計相結(jié)合的方法,自動分析漢語的句型,提出了一個“漢語句型頻度表”;在漢語文本中自動標注句子成分和句型成分的邊界;根據(jù)指定的句型在語料庫里搜尋句子實例,等等。

HuaYu人工標注語料庫是清華大學和北京語言大學合作建立的一個現(xiàn)代漢語平衡語料庫。這個語料庫按文學、新聞、學術(shù)、應(yīng)用文四個大類收錄了200余萬字語料。它的特點是講究加工的深度,除了詞語切分和詞性標注以外,還根據(jù)語句中動詞的類型和句子的長度進行“語塊”標注和“句法樹”標注,目的是為建立漢語短語分析或句法分析的語言模型獲取統(tǒng)計數(shù)據(jù)提供資源。下面分別是語塊標注和句法樹標注的示例。

對句子“自古以來,人類就重視檔案的保存和利用,設(shè)置館庫、選派專人進行管理。”進行語塊標注以后得到的是一個無嵌套的線性序列,其中S是主語語塊,P是述語語塊,O是賓語語塊:

[D 自/p 古/t 以來/f,/, [S 人類/n [D 就/d [P 重視/v [O 檔案/n 的/u 保存/vN和/c 利用/vN,/, [P 設(shè)置/v [O 館庫/n、/、[P 選派/v [O 專人/n [P 進行/v [O 管理v。

對句子“我哥哥送給我一本很漂亮的書?!边M行句法樹標注以后,得到的是一個與樹形結(jié)構(gòu)等價的線性序列:

[ zj-XX [ dj-ZW [ np-DZ我/ rN哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 給/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 書/n ] ] ] ]。/w ]

(五)用于開發(fā)特定語言分析技術(shù)的專用語料庫

這類語料庫是針對漢語信息處理技術(shù)的需要專門建立的。例如山西大學的專有名詞標注語料庫和分詞與詞性標注語料庫。

分詞與詞性標注語料庫,規(guī)模為500萬字,帶有分詞標記、詞性標記和句法標記。標注時依據(jù)《信息處理用現(xiàn)代漢語分詞規(guī)范》和《信息處理用現(xiàn)代漢語詞類及標記集規(guī)范》。在這個語料庫的支持下,開發(fā)漢語自動分詞和詞性標注軟件,研究自動分詞和詞性標注的評測技術(shù)。為了解決漢語自動分詞中的切分歧義問題,還建立了交集型歧義字段庫和組合型歧義字段庫,專門收集這兩種類型的歧義切分實例。前者有7.8萬字,后者收錄了140多條。并且在分詞和詞性標注語料庫里作了這兩類切分歧義的標注。利用這些語料調(diào)查交集型歧義當中的“偽歧義”現(xiàn)象(既切分結(jié)果只可能有唯一選擇的那些交集型歧義切分字段),發(fā)現(xiàn)這種現(xiàn)象在歧義切分字段中很普遍,可以達到90%以上。

專有名詞標注語料庫用于研究漢語自動分詞中專有名詞的識別算法。其中包括標注了中國地名的語料280萬字,標注了中國人姓名的語料300萬字,標注了西文姓名的語料250萬字,標注了漢語機構(gòu)名稱的語料50萬字,還有標注了網(wǎng)絡(luò)新詞語的語料150萬字。利用這些語料,建立了中國地名用字、用詞庫,姓氏人名庫,姓氏用字頻率表,名字用字頻率表等,用統(tǒng)計語言模型的方法識別專有名詞。

(六)雙語語料庫

基于實例的機器翻譯(Example-based)需要大規(guī)模的雙語平行語料庫來支持。語料庫里的源語和目標語實例要按照相同級別的翻譯單位一一對齊。目前已有的雙語平行語料庫主要是漢語和英語的,語料對齊的單位有句子級的、子句級的、短語級的,也有詞匯級的。機器翻譯系統(tǒng)把要翻譯的句子與語料庫里的源語實例進行對比,分析相似程度,找到最適合的源語實例,再參照與它對齊的目標語實例生成譯文。用于這類機器翻譯系統(tǒng)的雙語語料庫必須有一定的規(guī)模,用人工做語料對齊的工作顯然很難滿足要求。這就使文本自動對齊成為建立雙語語料庫的關(guān)鍵技術(shù)。

在目前已有的雙語語料庫中,哈爾濱工業(yè)大學的漢英平行語料庫已經(jīng)直接用來開發(fā)英漢雙向機器翻譯系統(tǒng)。這個語料庫有6萬個漢語和英語的句子,使用多級對齊加工技術(shù),分別按照句子、短語結(jié)構(gòu)和詞一一對齊。中國科學院計算技術(shù)研究所的漢英雙語語料庫有20萬個句對,也完成了句子一級的對齊,并在網(wǎng)上提供查詢服務(wù)。北京大學、中國科學院軟件研究所等單位也建立了按句對齊的漢英雙語語料庫。除此之外,還有以語段或短語為單位收集的漢英雙語語料庫,譬如中國科學院自動化研究所的漢英雙語短語庫,有3~5萬對已對齊的漢語和英語短語。東北大學的英漢雙語語段庫,用來幫助建立電子版的英漢搭配詞典。

(七)面向漢語史研究的語料庫

面向漢語史研究的語料庫建設(shè)是從搜集漢語史文獻資料開始的。臺灣中央研究院歷史語言研究所從90年代初期就開始了這項工作,他們先收集上古漢語的語料,然后擴展到中古漢語和近代漢語。90年代中后期逐步開始上古漢語語料和近代漢語的標注,在該院信息研究所和計算中心的協(xié)助下進行標注技術(shù)和檢索技術(shù)的開發(fā)。根據(jù)是否經(jīng)過分詞處理和詞性標注,臺灣中央研究院的古漢語語料庫和近代漢語語料庫可以分成兩類:生語料庫和標記語料庫。目前生語料庫收集的語料已涵蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)的大部分重要文獻資料,并己陸續(xù)開放使用。在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注工作,也逐步提供網(wǎng)上檢索。2001年底,開放了近代漢語標記語料庫WWW版供各界使用,首先提供查詢的文獻是《紅樓夢》及《三遂平妖傳》。在查詢方面,除了常用的功能以外,還可以在顯示詞項及詞類的同時給出例句的出處,便于歷史語法的研究者使用。

多年來中國社會科學院語言研究所也一直在致力于文獻資料的建設(shè),搜集整理了近代漢語書面語語料150萬字,中古近代漢語語料約1千萬字,部分語料已作了標注。目前已經(jīng)完成了一個小型語料庫,包括:敦煌變文集、祖堂集、三朝北盟匯編、碧巖錄、朱子語類、劉知遠諸宮調(diào)、西廂記諸宮調(diào)、元刊全相平話五種、元典章刑部、老乞大諺解、樸通事諺解、孝經(jīng)直解、魯齋遺書、經(jīng)筵講義等十余種文獻,成為漢語史和語言學理論研究的重要資源。此外,語言研究所的先秦專書電子文檔有4部文獻,共約120萬字,并且已由古漢語學者逐篇逐句標注了語法信息。

上海師范大學、浙江師范大學、四川大學等學校也依據(jù)各自漢語史研究的方向,建立了歷史文獻語料庫。四川大學的中古漢語語料庫有1億字的中古漢語語料和有關(guān)中古漢語研究的資料。浙江師范大學的楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫,已用于“前四史”語言研究和唐宋詩詞語詞研究。

目前歷史文獻語料庫建設(shè)的特點是依托學科建設(shè)和研究方向,廣泛收集資料,注重??本珜?。隨著漢語史研究和語料庫應(yīng)用的發(fā)展,資源共享和語料加工將得到越來越多的重視。歷史文獻資源共享,首先要避免語料的重復(fù)收集,還要采用國際通用的標準處理語料文本,使語料能夠準確、方便地交換和使用。語料加工則是充分發(fā)掘語料應(yīng)用價值的基礎(chǔ)工作,從收集歷史文獻的電子文檔,到建成一個具有必要的語言學標記信息、合理的邏輯結(jié)構(gòu)和方便的檢索功能的語料庫,語料的加工是不可或缺的一步。

(八)比較語料庫

為了研究漢語在不同地區(qū)的使用情況,香港城市大學建立了LIVAC共時語料庫(Linguistic Variation in Chinese Speech Communities)。語料來自香港、臺灣、北京、上海、澳門及新加坡六地有代表性的中文報紙,以及電子媒介上的新聞報道。自1995年7月開始,每四天一次,收集這六個地區(qū)的對等書面語文本,每次約兩萬字。內(nèi)容包括新聞、特寫、評論等文章。到2003年上半年,已收集了1億1千多萬字、超過56萬個詞條。計劃收集到2005年6月,囊括新舊世紀交接點前后各五年各地華語社區(qū)有代表性的重要語言數(shù)據(jù),供漢語的各種共時比較研究使用。

在語料的組織和加工方面,這個語料庫用計算機自動分詞,再經(jīng)人工校對分類,可以依字、詞、句為基礎(chǔ)進行檢索,提供字、詞配搭、分布等數(shù)據(jù),有統(tǒng)計功能。語言學家能通過這個語料庫考察上述六地出現(xiàn)的新詞、詞義有所發(fā)展或轉(zhuǎn)移的舊詞、以及有地方特色的詞語,還可以對具體字或詞的頻率作統(tǒng)計比較,對字詞的差別作計量分析。對研究華人社區(qū)的文化、社會、語言差異也有作用。這個語料庫的一部分已經(jīng)在網(wǎng)上提供服務(wù)。

(九)少數(shù)民族語言語料庫

新疆大學從2002年起開始建設(shè)現(xiàn)代維吾爾語語料庫系統(tǒng),計劃包括5個部分:語料庫、電子語法信息詞典、規(guī)則庫、統(tǒng)計信息庫和檢索統(tǒng)計軟件包。其中語料庫部分又分成生語料庫(經(jīng)初步整理的原始語料)和加工語料庫(經(jīng)過標注和校對的語料)。目前已有生語料800萬詞。另外,新疆大學也正在以新聞領(lǐng)域的維漢-漢維機器翻譯為目標,建設(shè)雙語平行語料庫。內(nèi)蒙古大學的中世紀蒙古文語料庫收集了《元朝秘史》、《黃金史》、《回鶻蒙古文文獻集》等歷史文獻。他們還建立了500萬詞的現(xiàn)代蒙古語語料庫,研究了蒙古文附加成分的自動切分、復(fù)合詞的自動識別和語料的詞性標注,獲得了詞頻統(tǒng)計、音節(jié)統(tǒng)計、詞類統(tǒng)計、附加成分統(tǒng)計等數(shù)據(jù)。西北民族大學建立了1億3千萬字節(jié)的大型藏文語料庫,用于藏文詞匯頻度和通用度的統(tǒng)計。中國社會科學院民族學與人類學研究所建立了500萬藏語字符的藏語語料庫,進行詞語切分和標注的研究。新疆師范大學也建立了200萬詞的維吾爾語語料庫。

與漢語語料庫相比,少數(shù)民族語料庫的建設(shè)還需要解決一些特殊的問題,譬如拼音文字轉(zhuǎn)寫的標準和規(guī)范,詞語分類體系及其標記集等。

到2003年,已建和在建的各種文本語料庫還有很多(包括書面語語料庫和以文本形式表示的口語語料庫),以上提到的只是有代表性的一部分。與文本語料庫相對的,是語音語料庫。語音語料庫不僅記錄語圖、聲學參數(shù)等語音學數(shù)據(jù),還有句法、韻律等各種語言學信息標記和副語言學信息標記,可以在語音識別與合成系統(tǒng)中用來建立語音模型,用于語音研究、語音工程開發(fā)和漢語普通話教學等領(lǐng)域。語音技術(shù)是當前信息技術(shù)和通訊領(lǐng)域里最具潛力的發(fā)展方向之一,語音語料庫在科研和工程上有很高的使用價值。關(guān)于語音語料庫的詳細情況,請見“語音學和言語工程研究綜述”。

第四篇:國內(nèi)語料庫建設(shè)一覽表

類型

英語學習者語料庫(書面語及

口語)

平行語料庫

國內(nèi)語料庫建設(shè)一覽表

語料庫名稱及大小

中國學習者語料庫 CLEC(100萬)大學英語學習者口語語料庫 COLSEC(5萬)

香港科技大學學習者語料庫 HKUST Learner Corpus

中國英語專業(yè)語料庫 CEME(148萬)中國英語學習者口語語料庫 SECCL(100萬)

LINSEI-China(10萬)

碩士寫作語料庫 MWC(12萬)

漢英平行語料庫 PCCE 南大-國關(guān)平行語料庫 英漢文學作品語料庫;

馮友蘭《中國哲學史》漢英對照語料庫

李約瑟(Joself Needham)《中國科學技術(shù)史》英漢對照語料庫

計算機專業(yè)的雙語語料庫;

柏拉圖(Plato)哲學名著《理想國》的雙語語料庫

英漢雙語語料庫(15萬對)

建設(shè)單位 廣外、上海交大 上海交大 香港科技大學 南京大學 南京大學 華南師大 華中科技大學

北外 南京大學

外研社 究所 中科院軟件所

國際外語學習者英語口語語料庫中國部分國家語言文字工作委員會語言文字應(yīng)用研

英漢雙語語料庫:LDC香港新聞英漢雙語對齊語料36294段以及香港法律英漢雙語對齊語

特殊英語語料

漢語語料庫

料31萬句子對

英漢雙語語料庫(100萬),網(wǎng)上英漢語段電子詞典及網(wǎng)上電子英漢搭配詞典(1000萬)

英漢雙語語料庫(40-50萬句子對)

雙語語料庫(5萬多對)

對比語料庫 LIVAC(Linguistic variety in Chinese communities)平衡語料庫(Sinica Corpus);樹圖語料庫(Sinica Treebank)

中國英語(China English)語料庫

軍事英語語料庫(Corpus of Military Texts)

新視野大學英語教材語料庫

漢語現(xiàn)代文學作品語料庫(1979年,527萬字)

現(xiàn)代漢語語料庫(1983年,2000萬字)中學語文教材語料庫(1983年,106萬8000字)

現(xiàn)代漢語詞頻統(tǒng)計語料庫(1983年,182萬字)國家級大型漢語均衡語料庫(2000萬字)《人民日報》語料庫(2700萬字)大型中文語料庫(5億字,10分庫)

中國科學院自動化研究所

東北大學 哈爾濱工業(yè)大學 北京大學計算語言學研究所

香港城市理工大學

臺灣 河南師范大學

解放軍外語學院 上海交通大學 武漢大學 北京航空航天大學 北京師范大學 北京語言學院 國家語言文字工作委員會 北京大學計算機語言學研究所

北京語言文化大學

現(xiàn)代漢語語料庫(1億字)

漢語新聞?wù)Z料庫;(1988年,250萬字)

標準語料庫(2000年,70萬字)

生語料庫(3000萬字);《作家文摘》的標注語料庫(100萬字)

現(xiàn)代自然口語語料庫

旅游咨詢口語對話語料庫和旅館預(yù)定口語對話語料庫

清華大學

山西大學

上海師范大學 中國科學院自動化所

中國社會科學院語言所

第五篇:語料庫的應(yīng)用(最終)

語料庫的應(yīng)用

語料庫方法廣泛應(yīng)用于語言學理論研究、軍事等領(lǐng)域。當代語料庫語言學(以語料庫方法為取向的研究語言的分支就被稱為語料庫語言學)已是高歌猛進,日新月異,新的語料庫更是層出不窮,經(jīng)過科學選材和標注,具有適當規(guī)模的語料庫能夠反映和記錄語言的實際使用情況,人們通過語料庫觀察和把握語言事實,分析和研究語言系統(tǒng)的規(guī)律,極大地方便了語言研究者。

軍事語料庫對信息化條件下的軍事斗爭具備潛在價值,積極開展軍事語料庫的研究和建設(shè)實踐活動,并把研究成果轉(zhuǎn)化到實戰(zhàn)之中。和平時期對信息化高科技武器的建設(shè)不可小視,對戰(zhàn)場態(tài)勢的綜合信息捕捉、把握和利用的能力建設(shè)至關(guān)重要,但對身邊已有的各類信息的綜合收集和利用也同樣不可忽視。軍事語料庫的建設(shè)正是針對實現(xiàn)信息化戰(zhàn)爭中爭奪與占有信息資源、獲取不對稱的戰(zhàn)爭中的信息掌握和信息利用的不對稱優(yōu)勢。

【一】、語料庫成為語言學理論研究的基礎(chǔ)資源

語料庫是計算語言學的基礎(chǔ)。語料庫對應(yīng)的英文是corpus,復(fù)數(shù)形式為corpora。這個詞既可以指語料也可以表示語料庫。英國語言學專家戴維?克里斯特爾認為,語料庫“指收集的一批語言學數(shù)據(jù),或為書面文本或為言語錄音的轉(zhuǎn)寫,可用作語言學描寫的出發(fā)點,也可作為驗證語言假說的手段。計算機語料庫是一大批機器可讀文本的結(jié)集。各種為不同目的而建立的語料庫可以應(yīng)用在詞匯、語法、語義、語用、語體研究,社會語言學研究,口語研究,詞典編纂,語言教學以及自然語言處理、人工智能、機器翻譯、言語識別與合成等領(lǐng)域。

起初語料庫主要用于語言學研究,而且建成的語料庫多為通用語料庫,服務(wù)的研究領(lǐng)域主要集中于詞典編纂、詞語搭配與結(jié)構(gòu)、基于平行語料庫的英漢互譯、文學作品和作家語言風格的研究以及基于語料庫的外語教學研究等。隨著研究的不斷深入,各種專業(yè)領(lǐng)域語料庫也相繼建立,語料庫的應(yīng)用研究逐漸擴大到其他學科。

我國在語料庫的應(yīng)用上還處于起步階段,在計算語言學和語言信息處理領(lǐng)域,語料庫主要用來為統(tǒng)計語言模型提供語言特征信息和概率數(shù)據(jù),在語言研究的其他領(lǐng)域,多使用語料的檢索和頻率統(tǒng)計結(jié)果。

目前國外已建成且較有影響的主要為以下的語料庫:美國:布朗大學的今日美國英語標準語料庫(The Brown University Standard Corpusof Present Day American English)、蘭卡斯特一奧斯陸/卑爾根語料庫(The Lancast-er-Oslo/Bergen(LOB)Corpus)、英語語庫(TheBank of English)、英國國家語料庫(The BritishNational Corpus(BNC、倫敦一隆德語料庫(Lon-don-Lund Corpus(LLC》、美國傳統(tǒng)中介語料(American Heritage Intermediate(AHI)Corpus)以及英語國際語料庫(The Intemational Corpus ofEnglish(ICE》等。國內(nèi)在語料庫建設(shè)方面雖然較晚,但已體現(xiàn)出較強的后發(fā)優(yōu)勢,個別語料庫在世界上也形成了一定的影響。趨于領(lǐng)先地位的有廣東外語外貿(mào)大學的中國英語學習者語料庫(Chinese Learner English Corpus(CLEC)、中國社科院語言所的漢語情景會話口語庫(北京地區(qū))(Spoken Chinese Corpus of Situated Discoursein Beijing Area)以及上海交大的科技英語語料庫(JDESt)近期由文秋芳等編著的中國學生英語口筆語語料庫無疑是對以上的語料庫的有效補充。

【二】、語料庫在軍事領(lǐng)域的應(yīng)用

<一>、信息化條件下的軍事語料庫的應(yīng)用背景

從世紀之交的幾場局部戰(zhàn)爭來看,信息化戰(zhàn)爭已成為當代和未來戰(zhàn)爭的主要形式。信息化戰(zhàn)爭的核心是對信息資源的爭奪與占有,信息匱乏或信息弱勢的一方注定會成為戰(zhàn)爭的輸家。不對稱的戰(zhàn)爭中很大的不對稱就是信息掌握和信息利用的不對稱。要想實現(xiàn)信息化的部隊,避免在戰(zhàn)爭中成為信息弱勢的一方,和平時期對信息化高科技武器的建設(shè)不可小視,對戰(zhàn)場態(tài)勢的綜合信息捕捉、把握和利用的能力建設(shè)至關(guān)重要,但對身邊已有的各類信息的綜合收集和利用也同樣不可忽視。對于后者,軍事語料庫的建設(shè)正是針對實現(xiàn)這一目標的有力依靠和手段,具有不可低估的價值。首先,可以借助語料庫對海量信息進行情報處理和分析外,從中生成重要的情報,為相關(guān)部門和專家提供決策輔助;還可以借助語料庫的后臺支持,開發(fā)出戰(zhàn)場針對交戰(zhàn)對方或所在地的語言自動翻譯和語音處理的軟硬件,更好地服務(wù)于戰(zhàn)場信息控制與掌握,提高戰(zhàn)斗人員的生存能力,確保對敵的信息優(yōu)勢。

以美國為首的西方發(fā)達國家已經(jīng)意識到軍事語料庫對信息化條件下的軍事斗爭所具備的潛在價值,積極開展軍事語料庫的研究和建設(shè)實踐活動,并把研究成果轉(zhuǎn)化到實戰(zhàn)之中。比如,利用語料庫的資源支持,借助自然語言的處理技術(shù),美軍為駐伊拉克的美軍部隊開發(fā)和配備了一種“多語言自動講話翻譯機”,它能迅速將英語翻譯成阿拉伯語,以解決美軍與伊拉克人交流的問題。美國防高級研究計劃局

(DARPA)也正在著手開發(fā)新一代雙路語音翻譯技術(shù),并采用該技術(shù)為駐伊部隊開發(fā)英語和阿拉伯語的翻譯系統(tǒng)。

美國的GALE(全球獨立語言開發(fā))計劃通過構(gòu)建多國語料庫,運用語料庫技術(shù)來處理庫中多國語言的大量語音和文字材料,這些工作

包括采集、翻譯、分析和解釋這些材料,旨在消除對語言學家和分析學家的依賴,以適當?shù)姆绞阶詣拥叵蜍娛轮笓]官或其他人員提供相關(guān)、簡潔、可操作的信息。此外,美國軍方DARPA計劃中,有很多項目涉及語料庫基礎(chǔ)上的計算機語言處理技術(shù),其中包括機器自動翻譯、跨語言情報偵測、情報抽取、情報摘要、特定事件情報追蹤等方面。在以上系統(tǒng)的研制過程中,美國建立了大量的軍事語料庫,大大提高了信息收集與處理的效率,并積累了豐富的軍事語料庫開發(fā)經(jīng)驗。日本、俄羅斯、歐盟等其他發(fā)達國家和國際組織也不甘落后,在軍事語料庫研究與開發(fā)等方面投入大量資金,并取得了顯著的效果。我軍未來面臨的戰(zhàn)爭形勢更為復(fù)雜,需要做好打贏“多戰(zhàn)場”戰(zhàn)爭的準備,而且在情報電子對抗等方面面臨的競爭更為激烈。“多戰(zhàn)場”戰(zhàn)爭即意味著戰(zhàn)爭的多地域性、多語言性。這就要求我們研究與開發(fā)多種語言的軍事語料庫,并且開發(fā)多種載體的軍事語料庫,譬如文本、音頻、視頻等。同時,情報電子對抗領(lǐng)域競爭的加劇也要求我們開發(fā)多種專業(yè)的軍事語料庫,譬如心理戰(zhàn)語料庫、核情報語料庫、各種尖端武器語料庫以及對方重要軍政領(lǐng)導(dǎo)人物的語言語料庫等。

<二>、軍事語料庫獨特的發(fā)展空間

作為一種專業(yè)語料庫,軍事語料庫具備語料庫的共有的功能。這些功能可以歸納為軍事語料庫的一般應(yīng)用;同時,在信息化條件下,軍事語料庫也有自身獨特的發(fā)展空間和應(yīng)用前景。

軍事語料庫是指由服務(wù)于軍事甚至內(nèi)容涉及軍事的單一語種或多語種的文本所組成的語料庫,也可以是含圖片、語音、視頻等媒體形式的語料庫。根據(jù)具體用途不同可以有軍事通用語料庫,指的是即覆蓋軍事思想、政策與規(guī)定、科學研究、教育訓練、裝備與技術(shù)、作戰(zhàn)與指揮等各領(lǐng)域的語料,也可以是單一用途或?qū)ο蟮恼Z料庫,如軍事術(shù)語語料庫、軍事科技文獻語料庫、軍事裝備與技術(shù)語料庫(可以含軍事裝備本體的研究)、軍事情報語料庫、輿論戰(zhàn)、心理戰(zhàn)語言素材語料庫、軍事文學語料庫、軍事外語教學語料庫等。部分內(nèi)容不涉及軍事,但明顯具有服務(wù)軍事功能的語料庫包括:對象國語言文化百 科知識語料庫,對象國政情語料庫,對象國自然資源語料庫,對象國科技情報語料庫,對象國經(jīng)濟情報語料庫,對象國新聞報道語料庫等等。

總的說來,軍事語料庫的建設(shè)、開發(fā)與研究對大多數(shù)國家來說仍然是剛剛起步的新鮮事物,美軍在此方面的研究較早,具體應(yīng)用方面已經(jīng)取得了明顯的突破,因此我國也應(yīng)該加緊軍事語料庫的建設(shè)步伐。

1、軍事語料庫的一般應(yīng)用

(1)革新軍事語言研究方法,提高軍事語言研究效率

軍事語言研究主要集中在五個方面,即軍事術(shù)語研究、軍事書面語研究、軍事口語研究、軍用主題詞研究、軍事現(xiàn)象與語言現(xiàn)象共變理論等研究。這些方面的研究在局部已取得了令人振奮的成果,對軍隊建設(shè)發(fā)揮了積極的推動作用。但目前,這樣的研究許多仍基于以往的傳統(tǒng)研究方法,即依靠人力進行語料的收集、分類、提取和分析,不僅效率低下,而且研究結(jié)論的可信度容易引起人們的疑問。如果能借助于相關(guān)的軍事語料庫,軍事語言的研究可以大大提高效率和準確度。其中,可以為軍事詞匯的研究提供軍事運用中的全貌,常用軍事用語也可以更符合語言應(yīng)用的實際情況,對于語言結(jié)構(gòu)的研究也可以更好地體現(xiàn)軍事用語的分布、變化和來龍去脈。由于軍事語料庫具有使用方便、查詢科學、信息抽取準確的優(yōu)點,因而還能夠滿足軍事用語應(yīng)用和研究的各類應(yīng)急需要。

(2)加速各類軍事辭典編纂,提高軍事辭典應(yīng)用價值

目前,國內(nèi)已經(jīng)有相當數(shù)量的針對我軍和外軍的軍事詞典,既有一般性的軍語詞典,也有專門性的術(shù)語詞典,還有武器裝備、科學技術(shù)詞典和百科全書等。但這些詞典由于多是用傳統(tǒng)人工收集語料的編纂而成,詞典的覆蓋面較窄,選詞的代表性不高,也不易體現(xiàn)符合軍事語言實際使用的全貌。另外,由于選材的原因,軍語和軍事詞匯的系統(tǒng)性較差,未能較好地體現(xiàn)當代語言使用的特點,也不能反映軍語的歷史變化和相互關(guān)系。具體說來,就是對新詞的收集未能全面覆蓋,未能準確反映國內(nèi)外軍事發(fā)展的新動態(tài),對舊詞的采用沒有有力的依據(jù),例句的使用也不能保證是否是軍語使用的實際情況,因而,其結(jié)果是容易造成隨意性的編撰。另一個突出的弱點是,幾乎所有軍語詞典都沒有考慮按照國際目前詞典出版的新趨勢去考慮,即配以語料庫基礎(chǔ)上生成的電子詞典光盤版。實際上,創(chuàng)建軍事語料庫,將詞典的整個編撰和使用建立在軍事語料庫基礎(chǔ)上,將能夠有效彌補傳統(tǒng)軍事辭典的上述缺憾,能夠保證軍事辭典的理據(jù)性、系統(tǒng)性、全面性、準確度和時效性,從而提高軍事辭典的實際應(yīng)用價值。(3)創(chuàng)新語言戰(zhàn)法研究,大力促進新軍事變革

在新的國際斗爭環(huán)境下,語言已成為當今軍事斗爭中的主要武器和媒介,其表現(xiàn)形式為信息戰(zhàn)、心理戰(zhàn)、輿論戰(zhàn)、法律戰(zhàn)等,作用和地位不斷凸現(xiàn)。輿論宣傳和心理攻擊已經(jīng)成為新的大規(guī)模殺傷武器。西方軍隊紛紛組建起大批專門從事上述作戰(zhàn)形式的部隊和研究機構(gòu)。美軍在各軍種的指揮學院都開設(shè)了心理戰(zhàn)的課程,專門的心理戰(zhàn)部隊更是花樣繁多,不斷加強心理戰(zhàn)的作戰(zhàn)樣式和作戰(zhàn)能力。對語言的巧妙運用是心理戰(zhàn)的重要基礎(chǔ)。傳統(tǒng)的做法是,組織人員針對某一特殊情況臨時編輯創(chuàng)作心理戰(zhàn)和輿論戰(zhàn)的文本和稿件,但由于工作量大,任務(wù)緊急,單一的人工做法很難滿足信息時代快節(jié)奏行動的需要。因而,建立心理戰(zhàn)、輿論戰(zhàn)、法律戰(zhàn)的語料庫,利用語料庫的快捷查詢、數(shù)據(jù)準確、處理能力強、生成快捷的特點,可以定量和定性開展這方面的理論探索和應(yīng)用研究,從而更好地發(fā)揮語言的實戰(zhàn)作用,提高語言的殺傷力。這樣做,才能真正做到針對信息戰(zhàn)的“未雨綢繆”,“即需即用”。

(4)推動軍事語料庫輔助教學研究,提高軍事外語教學水平

軍事語料庫不但為軍事語言研究提供了豐富的語言素材,為編寫軍事詞典提供大規(guī)模的詞匯源頭,還可以為各種軍事教材提供重要的依托和依據(jù),而且在軍事外語教學理論、內(nèi)容、方法等方面也可以發(fā)揮重要作用。傳統(tǒng)的軍事外語教學主要是憑感覺進行主觀設(shè)計,在經(jīng)驗下行事,往往在出現(xiàn)問題后再進行補救。而建立在軍事語料庫基礎(chǔ)上的軍事外語教學,將實現(xiàn)對傳統(tǒng)外語教學的變革與創(chuàng)新??偟恼f來,軍事語料庫可以在軍事外語教學語言教學中從事以

下的主要活動:

(1)避免課堂授課內(nèi)容與人們實際使用的軍事語言之間的差距;

(2)發(fā)現(xiàn)過去被忽略的軍事語言規(guī)律;

(3)理解軍事詞語在實際交際中的意義和用法;

(4)揭示和認清軍事語域的特點;

(5)發(fā)現(xiàn)學習者使用軍事語言時的問題;

(6)解決語言學習測試的有效性和合理性;

(7)實現(xiàn)語言學習錯誤的科學分析;

(8)提供軍事語言學習的策略和輔助素材;

(9)幫助學生實現(xiàn)自主學習、自我檢查和自我提高。

總之,軍事語料庫的建立,對傳統(tǒng)的軍事語言研究、詞典編撰、輿論戰(zhàn)和心理戰(zhàn)的語言使用策略和戰(zhàn)略以及語言教學會帶來新的革命性的轉(zhuǎn)變。

2、軍事語料庫在信息化條件下的創(chuàng)新應(yīng)用

信息化條件下的戰(zhàn)爭對信息掌握、信息控制、信息處理和信息傳遞的能力提出了非同一般的要求,而各類軍事語料庫的建立,能更好地滿足和適應(yīng)這些能力的建設(shè)。

(1)推動軍事情報檢索發(fā)展,提高情報獲取能力 我們處在一個信息大爆炸的時代,僅互聯(lián)網(wǎng)上每秒傳遞的各類信息都很難以統(tǒng)計,無線電話的語音信息也是一個海量。這其中蘊藏著 大量的有價值的情報,如果能有選擇性地收集其中的信息,建成語料庫,再利用語料庫對信息進行過濾和篩選,就會為軍事情報提供重要的參考和判斷依據(jù)。如果直接收集敵方軍事人員的各類電話和互聯(lián)網(wǎng)信息,建立分門別類的語料庫,其潛在軍事價值就更為可想而知了。比如,為了針對特殊對象的信息收集、情報偵聽、方位跟蹤等,可以建立該人物群體的軍事語音語料庫。利用特定人物的語音樣本,對相關(guān)人員的無線電話可以實現(xiàn)全球跟蹤和定位。據(jù)傳,美國在打擊基地組織的關(guān)鍵人物中就采用了這一技術(shù),這也就是為什么拉登很少使用手機的原因。值得指出的是,美國的GALE(全球獨立語言開發(fā))機構(gòu)利用語料庫的技術(shù),結(jié)合計算機語言學的其他技術(shù),已經(jīng)開始研究并應(yīng)用處理多國語言中的大量語音和文字材料,這些工作包括采集、翻譯、分析和解釋這些材料。通過計算機對大量語料的快速處理,自動地向軍事指揮官或其他人員提供相關(guān)、簡潔.可操作的信息。這樣可以部分消除對語言學專家和信息分析專家的依賴。軍事人員只用掌握簡單的操作命令,就可以對某一信息或某一問題在當前海量信息中的權(quán)重或分量得出結(jié)論,從而對下一步采取何種應(yīng)對措施和行動提供參照。當然,如果是情報分析專家來利用這套系統(tǒng),對情報的掌握就更加全面和準確了。

(2)方便多國協(xié)同軍事行動,實現(xiàn)戰(zhàn)場實時軍事翻譯

當前國際多國多語種的聯(lián)合演習、聯(lián)合反恐、國際維和、軍事談判和軍事交流日益擴大,范圍也越來越廣;另一方面,一國軍隊人員往往遠程作戰(zhàn),對戰(zhàn)斗地區(qū)和占領(lǐng)區(qū)的文化都缺乏了解,語言溝通就更加困難了,這對軍事翻譯提出了很強的需求。然而,單純的人工現(xiàn)場翻譯顯然已經(jīng)無法滿足要求,也無法實現(xiàn)。在軍事行動過程中,用人工進行實現(xiàn)翻譯的代價也太高。因此開發(fā)自動翻譯系統(tǒng)迫在眉睫,而機器翻譯實現(xiàn)的重要基礎(chǔ)就是語料庫技術(shù)和方法。

目前開發(fā)類似于人類智能的通用機器翻譯系統(tǒng)比較困難,然而對于特定領(lǐng)域的機器翻譯,借助語料庫的技術(shù),還是可以實現(xiàn)的。比如,在多國協(xié)同作戰(zhàn)中,由于涉及的詞匯和用語較為簡單,語句變化性小,戰(zhàn)場用語單一,因此,對它們實現(xiàn)軍語自動翻譯是完全可能的??梢越⒁欢ㄒ?guī)模的語料庫,然后通過計算機軟硬件技術(shù),尤其是自然語言的處理技術(shù),對它們進行可信度較高的快速翻譯,這也就是我們通常所說的機器翻譯。機器翻譯的基礎(chǔ)就是語料庫,而且是雙語或多語種的語料庫。

美軍已經(jīng)開始了這方面的探索和研究。由于美軍在全球各地行動,并且經(jīng)常在短時間內(nèi)處于非英語的陌生環(huán)境。出于對安全和行動有效性的考慮,他們必須了解相當廣泛的快速變化的新信息。然而,這些信息在第一時間經(jīng)常只是以外語的形式出現(xiàn)。它可能包括當?shù)鼐用竦脑捳Z交流、廣播電視、不同領(lǐng)導(dǎo)人對行動地區(qū)人民的講話以及當?shù)鼐用竦姆磻?yīng)。由于作戰(zhàn)部隊里具有能完全聽懂當?shù)卣Z言的官兵相對較少,再加上臨時培訓的代價又較高,而且語種繁多,一時間很難做很好的語言提高。這種情況下,收集并建立當?shù)鼗畹恼Z言的語料庫,在此基礎(chǔ)上實現(xiàn)機器翻譯,被美軍認為是目前較好的可行方案。實際上,美軍已在最近的兩場局部戰(zhàn)爭中采用了這種技術(shù)。

駐伊拉克的美軍部隊配備一種“多語言自動講話翻譯機”,它能迅速將英語翻譯成阿拉伯語,以解決美軍與伊拉克人交流的問題。據(jù)路透社報道,開發(fā)這種翻譯機的美國國際商用機器公司(IBM)已向駐伊美軍交付了裝有語音識別和翻譯軟件的筆記本電腦。這些電腦將首先配備給美軍醫(yī)務(wù)人員、特種部隊和海軍陸戰(zhàn)隊,目的是在需要醫(yī)療救援時能及時與伊拉克安全部隊和伊平民溝通。其中一款就是下圖所示的Babylon雙語翻譯機,涉及了阿拉伯語、漢語、英 語、法語、德語、意大利語、日語、朝語等8種語言的相互對譯,其內(nèi)核中配有大量的實時言語交流的語料庫數(shù)據(jù),然后通過處理軟件,對輸入的話語信息進行數(shù)據(jù)比對和排錯,最后輸出認為最為合適的翻譯結(jié)果。

報道說,盡管翻譯機暫時還不會應(yīng)用于沖突或作戰(zhàn)環(huán)境中,因為這些緊急狀況需要瞬間溝通和決策;但是,IBM的最終目標是讓軍隊在翻譯缺乏的真實戰(zhàn)場環(huán)境下實現(xiàn)操不同語言者之間的有效交流。IBM研究翻譯技術(shù)的技術(shù)高管納哈默(David Nahamoo)說,使用裝備了Mas-tor的筆記本電腦或掌上電腦,交談一方對著麥克風說話,經(jīng)軟件識別和翻譯后,電腦就會自動把翻譯好的話讀給另一方聽?,F(xiàn)在提供給美軍的翻譯機能翻譯5萬多英語單詞和10萬阿拉伯語單詞。納哈默指出,這種翻譯機與現(xiàn)有翻譯軟件最大不同在于,它并不局限于程序事先存人的語句,還可以在機器學習的基礎(chǔ)上,進一步識別人們不同的文法、詞序和句子結(jié)構(gòu)。不過,由于任何翻譯機都不可能達到準確無誤,為了防止翻錯,出現(xiàn)誤會,Mastor先在屏幕上顯示三種翻譯方式,由使用者進行選擇。

英國《防務(wù)系統(tǒng)日刊》2007年3月29日報道,美國防高級研究計劃局(DARPA)授予Flu-ential公司一份價值120萬美元的設(shè)計項目,開發(fā)新一代雙路語音翻譯技術(shù),該技術(shù)將用于為駐伊部隊開發(fā)英語和阿拉伯語的翻譯系統(tǒng)。為了能夠?qū)崿F(xiàn)英語和阿拉伯語的同步雙向語音交流,DARPA開展了戰(zhàn)術(shù)用話音通信和翻譯系統(tǒng)(TRANSTAC)項目。Fluential公司首席執(zhí)行官俄薩尼(Farzad Ehsani)表示,DARPA要求開發(fā)一種能夠進行快速、精確話音翻譯的應(yīng)用系統(tǒng)。作為DARPA合同的一部分,F(xiàn)luential公司將開發(fā)一種能夠用于多種任務(wù)的靈活系統(tǒng),該系統(tǒng)將可以適應(yīng)野外的工作環(huán)境。新系統(tǒng)將為隊提供廣泛的翻譯能力,目前這些士兵缺乏與伊拉克平民、警察和士兵進行交流的能力。

從以上可以看出,建立在語料庫技術(shù)至上的機器翻譯已在美軍中大行其道,頗受青睞。隨著技術(shù)的進步,不久的將來,以語料庫技術(shù)為支撐的戰(zhàn)場實時翻譯肯定會取得突破,并出現(xiàn)在戰(zhàn)場上。<三>、結(jié)論

綜上所述,建立大規(guī)模的軍事語料庫,可以提高我軍的軍事語言研究水平,加速軍事辭典編纂,提升輿論戰(zhàn)、心理戰(zhàn)的作戰(zhàn)和研究水平,提高情報檢索效率,推動軍事行動中機器翻譯發(fā)展,也能促進軍事外語教學改革。盡管軍事語料庫研究在我國還處于初級階段,但鑒于軍事語料庫的獨特作用,加快各類軍事語料庫的建設(shè)已經(jīng)刻不容緩。它既可以革新軍事領(lǐng)域中的許多理念,促進相關(guān)科研和教學的提高,也能大大加快軍隊信息化的步伐,從而最終將大大提高我軍信息化作戰(zhàn)的戰(zhàn)斗力和生存力。因此,我們需要抓住機會,以語料庫語言學理論和相關(guān)的軍事理論為指導(dǎo),加大軍事語料庫的開發(fā)力度,為促進我軍新軍事變革、提高打贏未來信息化戰(zhàn)爭的能力做貢獻

下載語料庫語言學綜合word格式文檔
下載語料庫語言學綜合.doc
將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
點此處下載文檔

文檔為doc格式


聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔相關(guān)法律責任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進行舉報,并提供相關(guān)證據(jù),工作人員會在5個工作日內(nèi)聯(lián)系你,一經(jīng)查實,本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

相關(guān)范文推薦

    語言學

    1.什么是音素?什么是音位?什么是音位變體?三者有怎樣的關(guān)系 音位和音素都是最小的語音單位,但二者不是一回事,它們既不相同,但又有聯(lián)系。音素是從音質(zhì)角度劃分出來的最小語音單位,......

    語言學

    1. 中國、印度和希臘-羅馬在傳統(tǒng)語文學的研究上都取得了輝煌的成就。 2. 運用語言的交際過程大體上可分為:編碼—發(fā)送—傳遞—接收—解碼。語言學關(guān)心的核 心是編碼和解碼的......

    語言學

    語言學 一、選擇 1、采用拉丁字母的是漢語拼音。 2、擦音:也叫“摩擦音”,發(fā)音時,發(fā)音器官不完全閉塞,從而造成隙縫,讓氣流從中摩擦而出而成音。 3、共同語的形成并不意味著共同......

    《語言學概論》專項練習和綜合測試題.

    《語言學概論》專項練習和綜合測試題 (王德壽根據(jù)中央電大胡老師發(fā)布資料整理) 一、根據(jù)下列漢語拼音字母寫出相應(yīng)的國際音標 ü o b z k q r x p......

    語言學感想

    小結(jié)語言學概論 文學院08級王佳(?。?0081150010056 在前兩個學年中,我們學習了現(xiàn)代漢語上下兩冊,以及現(xiàn)代漢語語法專題,這個學期我們著重學習語言學綱要,這門課幾乎涵蓋了前面兩......

    英語專業(yè)語言學

    LinguisticsⅠ. Choice (2'*15) 1. The study of language as a whole is often called__ linguistics A ParticularB generalC ordinaryD generative 2. The description o......

    語言學111

    薦]【語用】北語語用考研指導(dǎo) 北語語用考研指導(dǎo) 作者:武K哇啦 july719(紅色部分) (再次申明哦,同學們先把這篇帖子和往年的招生簡章給好好看看,如果還有啥不明白的再問我,問......

    應(yīng)用語言學

    中學寫作教學研究 綜合材料 20090401 11:32 閱讀 233 評論 1 字號: 大 中 小 領(lǐng)雁工程省骨干語文教師培訓記錄(十二) 中學寫作教學研究 余永剛 寧波市北侖區(qū)柴橋中學 余永剛,就......

主站蜘蛛池模板: 九九99无码精品视频在线观看| 色一情一乱一伦一区二区三欧美| 色噜噜狠狠一区二区三区果冻| 人妻熟女 视频二区 视频一区| 高级会所人妻互换94部分| 3d动漫精品啪啪一区二区免费| 50岁人妻丰满熟妇αv无码区| 亚洲色欲网熟女少妇| 福利100合集 在线播放| 国产无套中出学生姝| 午夜一区二区亚洲福利vr| 久久久精品人妻无码专区不卡| 久久不见久久见免费影院| 香蕉久久国产超碰青草| 亚洲日韩中文在线精品第一| 国产精品久久久久久久久久久久| 青青青在线香蕉国产精品| 久久99精品久久久影院老司机| 精品人妻无码专区在线无广告视频| 亚洲中文字幕无码第一区| 国产午夜福利久久精品| a∨无码天堂av| 浴室人妻的情欲hd三级国产| 亚洲精品国产av成拍色拍婷婷| 日本高清一二三不卡区| 潮喷失禁大喷水av无码| 国产精品久久久久久久久软件| 午夜无码片在线观看影视| 国产成人免费爽爽爽视频| 天天躁日日躁狠狠躁婷婷高清| 国产色婷婷亚洲99精品小说| 特级欧美插插插插插bbbbb| 舔高中女生奶头内射视频| 亚洲成片在线观看12345| 露脸内射熟女--69xx| 中文字幕亚洲码在线| 别揉我奶头~嗯~啊~一区二区三区| 精品国产拍国产天天人| 精品人妻少妇一区二区三区不卡| 成人免费视频?国产免费麻豆| 亚洲蜜桃精久久久久久久久久久久|