第一篇:語料庫研究綜述
語料庫研究與應用綜述
目錄 一概述
二中國語料庫建設的基本情況 三語料庫的加工、管理和規范 四語料庫在語言研究中的的應用 五參考文獻
語料庫研究與應用綜述
一概述
語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經過科學選材和標注、具有適當規模的語料庫能夠反映和記錄語言的實際使用情況。人們通過語料庫觀察和把握語言事實,分析和研究語言系統的規律。語料庫已經成為語言學理論研究、應用研究和語言工程不可缺少的基礎資源。
語料庫有多種類型,確定類型的主要依據是它的研究目的和用途,這一點往往能夠體現在語料采集的原則和方式上。有人曾經把語料庫分成四種類型:(1)異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料;(2)同質的(Homogeneous):只收集同一類內容的語料;(3)系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一范圍內的語言事實;(4)專用的(Specialized):只收集用于某一特定用途的語料。除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的采集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關系,多用于機器翻譯、雙語詞典編撰等應用領域,后者將表述同樣內容的不同語言文本收集到一起,多用于語言對比研究。
語料庫建設中涉及的主要問題包括:
(1)設計和規劃:主要考慮語料庫的用途、類型、規模、實現手段、質量保證、可擴展性等。
(2)語料的采集:主要考慮語料獲取、數據格式、字符編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。
(3)語料的加工:包括標注項目(詞語單位、詞性、句法、語義、語體、篇章結構等)標記集、標注規范和加工方式。
(4)語料管理系統的建設:包括數據維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標注、文本分割、合并、標記處理等)、用戶功能(查詢、檢索、統計、打印等)。
(5)語料庫的應用:針對語言學理論和應用領域中的各種問題,研究和開發處理語料的算法和軟件工具。
我國語料庫的建設始于80年代,當時的主要目標是漢語詞匯統計研究。進入90年代以后,語料庫方法在自然語言信息處理領域得到了廣泛的應用,建立了各種類型的語料庫,研究的內容涉及語料庫建設中的各個問題。90年代末到新世紀初這幾年是語料庫開發和應用的進一步發展時期,除了語言信息處理和言語工程領域以外,語料庫方法在語言教學、詞典編纂、現代漢語和漢語史研究等方面也得到了越來越多的應用。
語料庫與語言信息處理有著某種天然的聯系。當人們還不了解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基于規則的(Rule-based)。對于用規則無法表達或不能涵蓋的語言事實,計算機就很難處理。語料庫出現以后,人們利用它對大規模的自然語言進行調查和統計,建立統計語言模型,研究和應用基于統計的(Statistical-based)語言處理技術,在信息檢索、文本分類、文本過濾、信息抽取等應用方向取得了進展。另一方面,語言信息處理技術的發展也為語料庫的建設提供了支持。從字符編碼、文本輸入和整理,語料的自動分詞和標注,到語料的統計和檢索,自然語言信息處理的研究都為語料的加工提供了關鍵性的技術。
下面先簡要敘述1998年到2003年中國語料庫建設的基本情況,然后介紹語料庫的加工、管理和規范問題,最后談談語料庫方法在語言研究和語言工程等方面的應用。由于以前的《中國語言學年鑒》很少談及語料庫問題,為了盡可能全面地反映我國語料庫研究和應用的情況,必要時會將時間上限向前延伸幾年。
二中國語料庫建設的基本情況
90年代末到新世紀初這幾年投入建設或開始使用的語料庫有數十個之多,不同的應用目的使這些語料庫的類型各不相同,對語料的加工方法也各不相同。下面是其中已開始使用并且具有一定代表性的語料庫。
(一)現代漢語通用語料庫
這是一個由國家語言文字工作委員會主持建立、面向全社會應用需求的大型通用語料庫,從90年代初開始建設,計劃規模7000萬字,主要應用目標是語言文字信息處理、語言文字規范和標準的制定、語言文字的學術研究、語文教育、以及語言文字的社會應用。
這個語料庫收錄的語料以書面語為主、以書面語轉述的口語為輔。語料來源是1919年至今,主要是1977年至今出版的教材、報紙、綜合性刊物、專業刊物和圖書。在設計原則上,講求通用性、描述性、實用性和抽樣的科學性。在語料分類方面,以“門類為主,語體為輔”為原則制定三個大類:
第一類:人文與社會科學類(包括8個次類、30個細類)
1.政法類:哲學政治宗教法律
2.歷史類:歷史考古民族
3.社會類:社會學心理語言文字教育文藝理論新聞民俗
4.經濟類:工業經濟農業經濟政治經濟財貿經濟
5.藝術類:音樂美術舞蹈戲劇
6.文學類:小說散文傳記報告文學科幻口語
7.軍體類:軍事體育
8.生活類
第二類:自然科學類(包括6個次類)
1.數理類
2.生化類
3.天文地理類
4.海洋氣象類
5.農林類
6.醫藥衛生類
第三類:綜合類(包括6個次類,30多個細類)
1.行政公文類:請示報告批復命令指示布告紀要通知等
2.章程法規類:章程條例細則制度公約辦法法律條文等
3.司法文書類:訴訟辯護詞控告信委托書等
4.商業文告類:說明廣告調查報告經濟合同等
5.禮儀辭令類:歡迎詞賀電訃告唁電慰問信祝酒詞等
6.實用文書類:請假條檢討申請書請愿書等 在不同類別、不同來源、不同時期的語言材料中,按照不等密度的思路確定合適的語料選取比例,從共時和歷時兩個角度保證入選語料的平衡性,是這個語料庫的特點。譬如,在語言材料的年限方面,選材比例是:
1919年– 1925年
5%
1926年– 1949年
15%
1950年– 1965年
25%
1966年– 1976年
5%
1977年以后
50%
在語言材料的門類、語體和來源方面,選材比例是:
人文與社會科學類占59.6%。其中各個次類在本大類中的比例是:
政法
12.7%
歷史
8.4%
社會
14.0%
經濟
9.8%
藝術
6.7%
文學
44.9%
軍體
2.3%
生活
1.4%
自然科學類占17.24%。其中各個次類在本大類中的比例是:
數理
17.2%
生化
19.1%
天文地理
14.1%
海洋氣象
9.1%
農林
22.8%
醫藥衛生
17.7%
綜合類占9.36%。其中各個次類在本大類中的比例是:
各類應用文
91.1%
其他
8.9%
報紙類占13.79%。其中各個次類在本大類中的比例是:
全國性報刊
25%
省市報刊
75%
這個語料庫在選材過程中收集和記錄語料的有關描述信息,為每個語料樣本設立了20個描述項目:總號、分類號、樣本名稱、類別、作者、寫作時間、書刊名稱、編著者、出版者、出版日期、期號(版面號)、版次(初版日期)、印冊數、總頁數、開本、選樣方式、樣本起止頁數、樣本字數、樣本總數、繁簡字。用戶可以利用這些語料描述標記根據各自的需要進行各種方式的檢索。語料庫的建庫工作分為兩步,第一步先建立核心語料庫(由7000萬字的語料中篩選出2000萬字語料組成)。到90年代末,完成了2000萬字生語料的收錄工作。從2001年開始,對2000萬字核心語料進行分詞和詞性標注加工。
(二)《人民日報》標注語料庫
《人民日報》標注語料庫由北京大學計算語言學研究所和日本富士通公司合作,從1999年開始,到2002年完成,原始語料取自1998年全年的《人民日報》,共約2700萬字,到2003年又擴充到3500萬字,是我國第一個大型的現代漢語標注語料庫。這個語料庫加工的項目有詞語切分和詞性標注,還有專有名詞(人名、地名、團體機構名稱等)標注、語素子類標注、動詞、形容詞的特殊用法標注和短語型標注。下面是一段語料標注的示例,對于1998年1月1日第5版第1篇文章的第11段:
我國的國有企業改革見成效。位于河南的中國一拖集團有限責任公司面向市場,積極調整產品結構,加快技術改造和新產品研制步伐。圖為東方紅牌履帶拖拉機生產線。(趙鵬攝)
標注后的形式是:
19980101-05-001-011/m 我國/n 的/u 國有/vn企業/n 改革/v 見/v 成效/n。/w 位于/v 河南/ns 的/u [中國/ns 一拖/j 集團/n 有限/a 責任/n 公司/n]nt面向/v 市場/n,/w 積極/ad 調整/v 產品/n 結構/n,/w 加快/v 技術/n 改造/vn和/c 新/a 產品/n 研制/vn步伐/n。/w 圖/n 為/v 東方紅牌/nz履帶/n 拖拉機/n 生產線/n。/w(/w 趙/nr 鵬/nr 攝/Vg)/w
在每一個切分出來的詞和標點符號后面,是該詞語的標記。譬如詞性標記(n,v,a,u,m,w等),專有名詞標記(nr,ns,nz等),語素子類標記(Vg等),動詞和形容詞特殊用法標記(vn,ad)。所有的標記都是以北京大學的《現代漢語語法信息詞典》為基礎詞庫,在一個加工規范的指導下標注的。
利用《人民日報》標注語料庫,人們可以從各個角度考察和分析語言事實,統計各種語言單位出現的頻率,譬如,詞語或詞類的分布、搭配和共現,專有名詞的結構方式、兼類詞在句子中的表現,語素字的使用情況,等等。也可以從語料里提取各種語言單位或語句片段作為研究實例。與僅僅以漢字串的形式表示的“生語料”相比,經過標注的“熟語料”顯然含有更多的語言學特征信息,對漢語詞匯研究、語法研究和漢語信息處理系統來說是更好的語言知識資源。
《人民日報》標注語料庫中一半的語料(1998年上半年)共1300萬字已經通過《人民日報》新聞信息中心公開提供許可使用權。其中一個月的語料(1998年1月)近200萬字在互聯網上公布,供自由下載。
(三)用于語言教學和研究的現代漢語語料庫
建立現代漢語語料庫的主要目的之一是對外漢語教學和現代漢語研究,可以分為書面語語料庫和以文本形式表示的口語語料庫兩類。前者如北京語言大學的漢語中介語語料庫、現代漢語研究語料庫,后者如中國社會科學院語言研究所的北京地區現場即席話語語料庫。
漢語中介語語料庫的建設目標是為對外漢語教學、中介語研究、偏誤分析和漢語本體研究提供資源,因此它的語料來源很有對外漢語教學的特點。作者先在北京和其他省市的9 所高等院校里,從來自96個國家和地區的1635位外國留學生那里收集了成篇成段的漢語作文或練習材料5774篇,共3528988字。再從中抽取了 740人的1731篇語料,共有44218句,1041274字。全部語料都記錄了學生姓名、性別、年齡、國別、是否華裔、第一語言、文化程度、所學主要教材、語料類別、寫作時間、提供者等23項屬性。然后對這104萬字的語料進行詞語切分、詞性標注以及一些專用的語言學特征標注。例如,標出了字、詞、句、篇等不同的層次,對語料的非規范形式(例如:錯字、別字、繁體字、拼音字、非規范詞等)做出索引標記,記錄其對應的規范形式。這個語料庫的管理系統有語篇屬性登錄、文本過濾、文字預處理信息登錄、語料抽樣、斷句、分詞、詞性輔助標注、自動標注以及語料的主題檢索、全文檢索和數據瀏覽等各種功能,分別處理語料庫的建立、管理和維護,以及用戶瀏覽、查詢和檢索等。與人工收集的學生病句卡片資料相比,中介語語料庫能夠更好地反映學生學習漢語的情況,幫助教師更加全面地觀察他們的學習過程,了解影響學習和習得的各種因素。在漢語作為第二語言的教學中,為教材編寫、課堂教學、測試等環節提供依據。
現代漢語研究語料庫的建設目標是為語言學家提供一個研究平臺,由2000萬字的粗語料庫和200萬字經過分詞和詞性標注的精語料庫兩個部分組成。粗語料庫收錄的語料樣本中絕大部分是九十年代的出版物,有《人民日報》1000萬字,《中國新聞》500萬字,各種書籍250萬字,文學作品150萬字,準口語材料(書面形式的對話、獨白)100萬字。精語料庫的200萬字語料樣本是從粗語料庫中按照規定的比例由計算機隨機抽取的,有書面語語料160萬字,準口語語料40萬字,是從語體、題材、體裁三個方面均衡選取的平衡語料庫。為了對這些語料進行詞語切分和詞性標注,作者制定了詞語切分的細則和詞性標記體系的原則,采用了一個含有112個詞類標記的標記集,確定了兼類詞的處理方法。這個語料庫的管理系統具有建庫、檢索、瀏覽、統計、輸出等功能,可以按詞或詞類檢索,統計出詞的頻率、詞類頻率、詞類共現頻率、平均詞長、平均句長等結果。這個語料庫建成以后,很快應用在現代漢語語法、漢語教學和漢語信息處理的研究中,研究內容涉及現代漢語的插入語、漢語句子的主題-主語標注、V+N序列實驗分析、詞性標注中詞語歸類問題、動賓組合的自動獲取與標注,等等。
建設北京地區現場即席話語語料庫的目的是,通過收集大量的現場即席話語語料研究現場即席話語的各種動態機制,以揭示現場即席話語的使用規律。這個語料庫的研究策略和取樣方法很有特點,首先是嚴格區分資源庫和語料庫,資源庫收集符合現場即席話語定義的錄音材料,語料庫收錄按照一定標準從資源庫提取出來的材料;另外在語料采樣前先做摸底性研究,通過研究對現場即席話語的真實情況有所了解,確定取樣域,再定取樣范疇,然后根據取樣范疇去錄現場典型材料,這是一種層次范疇化的取樣方法。這個語料庫目前正在建設之中,已經取得了近600小時的錄音材料和50多小時的錄象材料。
在用于漢語研究的語料庫中,講究選材均衡,注重語料加工,同時也提供公開服務的,當數臺灣中央研究院歷史語言研究所的現代漢語平衡語料庫(簡稱Sinica Corpus)。這個語料庫的規模為500萬個詞,每個句子都依詞斷開,標示詞類標記,并且配備了檢索系統,在網上開放供大家使用。根據自己制定的一套漢語文本屬性特征為語料分類,在不同的類別上盡量均衡地采集語料,是這個語料庫的特點之一。文本屬性用來說明文檔的呈現方式、文章的寫作方式、文章寫作的內容和文檔的來源出處,包括7類,每類下設若干小類:
文類(文檔的呈現方式)
報導、評論、廣告圖文、信函、公告啟事、小說故事寓言、散文、傳記日記、詩歌、語錄、說明手冊、劇本、會話、演講、會議記錄 文體(文章的寫作方式)
記敘、論說、說明、描寫
語式(文檔的呈現方式)
書面語、演講稿、劇本/臺辭、口語談話、會議記錄
主題(文章寫作的內容)
哲學、科學、社會、藝術、生活、文學
媒體報紙、一般雜志、學術期刊、教科書、工具書、學術論著、一般圖書、書信、視聽媒體、其它
作者姓名、性別、國籍、母語
出版出版單位、出版地、出版日期、版次
不同研究目的的語言學者可以自己按語式、文體、媒體和主題的小類選取不同類別的語料,組成“自訂語料庫”,在“自訂語料庫”的范圍內進行語料的檢索和統計。除了通常的按詞語、詞類的檢索和統計以外,這個語料庫的管理系統還提供了一種“進階處理”功能,對檢索出來的數據作進一步處理,對處理的結果還可以再次處理,形成多層的檢索結果。
(四)面向語言信息處理的現代漢語語料庫
90年代中后期,面向語言信息處理的現代漢語語料庫開始建立并投入應用。其中最早開發的是清華大學用于研究和開發漢語自動分詞技術的現代漢語語料庫,經過幾年的積累已達到8億多字生語料。在這個語料庫的支持下,用統計語言模型的方法研究了漢語自動分詞中的理論、算法和技術,編制了總數為9萬多個詞語的《信息處理用現代漢語分詞詞表》。這些研究工作體現了我國漢語自動分詞技術的發展水平,詞表被許多漢語自動分詞系統作為底表使用,是不可缺少的基礎資源。
TH通用語料庫系統是清華大學建立的另一個現代漢語語料庫。這個語料庫有兩個特點,一是語料庫管理系統根據不同的加工深度,分四個等級管理語料。第一級是生語料分庫,有4千余萬字;第二級以上都是加工程度不同的熟語料庫,其中第二級存放經過自動分詞并由人工校對過的初加工語料500余萬字;第三級存放經過詞性標注和人工校對的語料約300萬字;第四級是經過句子成分標注和人工校對的語料。每個分庫又按語料的來源分成一般書籍、報紙、雜志、論文和工具書五類子庫。不同等級的語料可以為不同的應用目標服務。第二個特點是在這個語料庫的支持下,進行了漢語信息處理技術的研究。譬如,采用以謂語為中心的句型成分分析與語料統計相結合的方法,自動分析漢語的句型,提出了一個“漢語句型頻度表”;在漢語文本中自動標注句子成分和句型成分的邊界;根據指定的句型在語料庫里搜尋句子實例,等等。
HuaYu人工標注語料庫是清華大學和北京語言大學合作建立的一個現代漢語平衡語料庫。這個語料庫按文學、新聞、學術、應用文四個大類收錄了200余萬字語料。它的特點是講究加工的深度,除了詞語切分和詞性標注以外,還根據語句中動詞的類型和句子的長度進行“語塊”標注和“句法樹”標注,目的是為建立漢語短語分析或句法分析的語言模型獲取統計數據提供資源。下面分別是語塊標注和句法樹標注的示例。
對句子“自古以來,人類就重視檔案的保存和利用,設置館庫、選派專人進行管理。”進行語塊標注以后得到的是一個無嵌套的線性序列,其中S是主語語塊,P是述語語塊,O是賓語語塊:
[D 自/p 古/t 以來/f,/, [S 人類/n [D 就/d [P 重視/v [O 檔案/n 的/u 保存/vN和/c 利用/vN,/, [P 設置/v [O 館庫/n、/、[P 選派/v [O 專人/n [P 進行/v [O 管理v。
對句子“我哥哥送給我一本很漂亮的書。”進行句法樹標注以后,得到的是一個與樹形結構等價的線性序列:
[ zj-XX [ dj-ZW [ np-DZ我/ rN哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 給/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 書/n ] ] ] ]。/w ]
(五)用于開發特定語言分析技術的專用語料庫
這類語料庫是針對漢語信息處理技術的需要專門建立的。例如山西大學的專有名詞標注語料庫和分詞與詞性標注語料庫。
分詞與詞性標注語料庫,規模為500萬字,帶有分詞標記、詞性標記和句法標記。標注時依據《信息處理用現代漢語分詞規范》和《信息處理用現代漢語詞類及標記集規范》。在這個語料庫的支持下,開發漢語自動分詞和詞性標注軟件,研究自動分詞和詞性標注的評測技術。為了解決漢語自動分詞中的切分歧義問題,還建立了交集型歧義字段庫和組合型歧義字段庫,專門收集這兩種類型的歧義切分實例。前者有7.8萬字,后者收錄了140多條。并且在分詞和詞性標注語料庫里作了這兩類切分歧義的標注。利用這些語料調查交集型歧義當中的“偽歧義”現象(既切分結果只可能有唯一選擇的那些交集型歧義切分字段),發現這種現象在歧義切分字段中很普遍,可以達到90%以上。
專有名詞標注語料庫用于研究漢語自動分詞中專有名詞的識別算法。其中包括標注了中國地名的語料280萬字,標注了中國人姓名的語料300萬字,標注了西文姓名的語料250萬字,標注了漢語機構名稱的語料50萬字,還有標注了網絡新詞語的語料150萬字。利用這些語料,建立了中國地名用字、用詞庫,姓氏人名庫,姓氏用字頻率表,名字用字頻率表等,用統計語言模型的方法識別專有名詞。
(六)雙語語料庫
基于實例的機器翻譯(Example-based)需要大規模的雙語平行語料庫來支持。語料庫里的源語和目標語實例要按照相同級別的翻譯單位一一對齊。目前已有的雙語平行語料庫主要是漢語和英語的,語料對齊的單位有句子級的、子句級的、短語級的,也有詞匯級的。機器翻譯系統把要翻譯的句子與語料庫里的源語實例進行對比,分析相似程度,找到最適合的源語實例,再參照與它對齊的目標語實例生成譯文。用于這類機器翻譯系統的雙語語料庫必須有一定的規模,用人工做語料對齊的工作顯然很難滿足要求。這就使文本自動對齊成為建立雙語語料庫的關鍵技術。
在目前已有的雙語語料庫中,哈爾濱工業大學的漢英平行語料庫已經直接用來開發英漢雙向機器翻譯系統。這個語料庫有6萬個漢語和英語的句子,使用多級對齊加工技術,分別按照句子、短語結構和詞一一對齊。中國科學院計算技術研究所的漢英雙語語料庫有20萬個句對,也完成了句子一級的對齊,并在網上提供查詢服務。北京大學、中國科學院軟件研究所等單位也建立了按句對齊的漢英雙語語料庫。除此之外,還有以語段或短語為單位收集的漢英雙語語料庫,譬如中國科學院自動化研究所的漢英雙語短語庫,有3~5萬對已對齊的漢語和英語短語。東北大學的英漢雙語語段庫,用來幫助建立電子版的英漢搭配詞典。
(七)面向漢語史研究的語料庫
面向漢語史研究的語料庫建設是從搜集漢語史文獻資料開始的。臺灣中央研究院歷史語言研究所從90年代初期就開始了這項工作,他們先收集上古漢語的語料,然后擴展到中古漢語和近代漢語。90年代中后期逐步開始上古漢語語料和近代漢語的標注,在該院信息研究所和計算中心的協助下進行標注技術和檢索技術的開發。根據是否經過分詞處理和詞性標注,臺灣中央研究院的古漢語語料庫和近代漢語語料庫可以分成兩類:生語料庫和標記語料庫。目前生語料庫收集的語料已涵蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)的大部分重要文獻資料,并己陸續開放使用。在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注工作,也逐步提供網上檢索。2001年底,開放了近代漢語標記語料庫WWW版供各界使用,首先提供查詢的文獻是《紅樓夢》及《三遂平妖傳》。在查詢方面,除了常用的功能以外,還可以在顯示詞項及詞類的同時給出例句的出處,便于歷史語法的研究者使用。
多年來中國社會科學院語言研究所也一直在致力于文獻資料的建設,搜集整理了近代漢語書面語語料150萬字,中古近代漢語語料約1千萬字,部分語料已作了標注。目前已經完成了一個小型語料庫,包括:敦煌變文集、祖堂集、三朝北盟匯編、碧巖錄、朱子語類、劉知遠諸宮調、西廂記諸宮調、元刊全相平話五種、元典章刑部、老乞大諺解、樸通事諺解、孝經直解、魯齋遺書、經筵講義等十余種文獻,成為漢語史和語言學理論研究的重要資源。此外,語言研究所的先秦專書電子文檔有4部文獻,共約120萬字,并且已由古漢語學者逐篇逐句標注了語法信息。
上海師范大學、浙江師范大學、四川大學等學校也依據各自漢語史研究的方向,建立了歷史文獻語料庫。四川大學的中古漢語語料庫有1億字的中古漢語語料和有關中古漢語研究的資料。浙江師范大學的楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫,已用于“前四史”語言研究和唐宋詩詞語詞研究。
目前歷史文獻語料庫建設的特點是依托學科建設和研究方向,廣泛收集資料,注重校勘精審。隨著漢語史研究和語料庫應用的發展,資源共享和語料加工將得到越來越多的重視。歷史文獻資源共享,首先要避免語料的重復收集,還要采用國際通用的標準處理語料文本,使語料能夠準確、方便地交換和使用。語料加工則是充分發掘語料應用價值的基礎工作,從收集歷史文獻的電子文檔,到建成一個具有必要的語言學標記信息、合理的邏輯結構和方便的檢索功能的語料庫,語料的加工是不可或缺的一步。
(八)比較語料庫
為了研究漢語在不同地區的使用情況,香港城市大學建立了LIVAC共時語料庫(Linguistic Variation in Chinese Speech Communities)。語料來自香港、臺灣、北京、上海、澳門及新加坡六地有代表性的中文報紙,以及電子媒介上的新聞報道。自1995年7月開始,每四天一次,收集這六個地區的對等書面語文本,每次約兩萬字。內容包括新聞、特寫、評論等文章。到2003年上半年,已收集了1億1千多萬字、超過56萬個詞條。計劃收集到2005年6月,囊括新舊世紀交接點前后各五年各地華語社區有代表性的重要語言數據,供漢語的各種共時比較研究使用。
在語料的組織和加工方面,這個語料庫用計算機自動分詞,再經人工校對分類,可以依字、詞、句為基礎進行檢索,提供字、詞配搭、分布等數據,有統計功能。語言學家能通過這個語料庫考察上述六地出現的新詞、詞義有所發展或轉移的舊詞、以及有地方特色的詞語,還可以對具體字或詞的頻率作統計比較,對字詞的差別作計量分析。對研究華人社區的文化、社會、語言差異也有作用。這個語料庫的一部分已經在網上提供服務。
(九)少數民族語言語料庫
新疆大學從2002年起開始建設現代維吾爾語語料庫系統,計劃包括5個部分:語料庫、電子語法信息詞典、規則庫、統計信息庫和檢索統計軟件包。其中語料庫部分又分成生語料庫(經初步整理的原始語料)和加工語料庫(經過標注和校對的語料)。目前已有生語料800萬詞。另外,新疆大學也正在以新聞領域的維漢-漢維機器翻譯為目標,建設雙語平行語料庫。內蒙古大學的中世紀蒙古文語料庫收集了《元朝秘史》、《黃金史》、《回鶻蒙古文文獻集》等歷史文獻。他們還建立了500萬詞的現代蒙古語語料庫,研究了蒙古文附加成分的自動切分、復合詞的自動識別和語料的詞性標注,獲得了詞頻統計、音節統計、詞類統計、附加成分統計等數據。西北民族大學建立了1億3千萬字節的大型藏文語料庫,用于藏文詞匯頻度和通用度的統計。中國社會科學院民族學與人類學研究所建立了500萬藏語字符的藏語語料庫,進行詞語切分和標注的研究。新疆師范大學也建立了200萬詞的維吾爾語語料庫。
與漢語語料庫相比,少數民族語料庫的建設還需要解決一些特殊的問題,譬如拼音文字轉寫的標準和規范,詞語分類體系及其標記集等。
到2003年,已建和在建的各種文本語料庫還有很多(包括書面語語料庫和以文本形式表示的口語語料庫),以上提到的只是有代表性的一部分。與文本語料庫相對的,是語音語料庫。語音語料庫不僅記錄語圖、聲學參數等語音學數據,還有句法、韻律等各種語言學信息標記和副語言學信息標記,可以在語音識別與合成系統中用來建立語音模型,用于語音研究、語音工程開發和漢語普通話教學等領域。語音技術是當前信息技術和通訊領域里最具潛力的發展方向之一,語音語料庫在科研和工程上有很高的使用價值。關于語音語料庫的詳細情況,請見“語音學和言語工程研究綜述”。
第二篇:初中英語作文語料庫
要求熟練掌握句式表達!!9月29日編輯完成。
寫作表達句式
1,I am a middle-school student.My dream is to enter into a better senior school.2,MY friend always encourage me to study hard.we are lonely and stressed out(我們很孤獨并且壓力大)4 we are short of parents’ care(我們缺乏父母的關心)5 I used to be poor in English but now I am always able to make full marks.我過去英語很差,但現在我能夠取得滿分
6,crossing road can be dangerous if we are not careful enough.如果我們不足夠小心,過馬路可能危險。7 waste water is used to water flowers。or computers are used to do a lot of things in daily life 廢水可以用來澆花。電腦可以用來做很多事情。(蘇文注意)
7,watching TV overly can be bad for our study if parents don’t limit screen time.如果父母不限制看電視時間過度看電視會對我們學習不利,8,as a teenager ,I always meet the same problems as you.here are some suggestions foryou 作為青少年,我常常遇到和你一樣的問題,這里一些建議給你。,as you know, our environment are becoming worse and worse nowadays 正如你所知,如今我們的環境正變得越來越差。
10.We should also never forget to turn off the lights when we leave the classrooms in order to save energy.What‘s more, it would be better if we walk or ride a bike to school.We should try our best to reduce pollution and waste.自行翻譯
1,the more I want to memorize the words, the more difficult I find it 十(也可以替換為the harder)
我想記得的單詞越多時,我發現這個過程更難.2.一些凳子是由木材做的,另一些是塑料做的。所有凳子在中國生產的。
Some chairs are made of wood, others are made of plastic.all chairs are made in china.2 to my joy(高興),my classmates always encourage me and give me a lot of help in study and life.(令我高興的是,我的朋友同學總是鼓勵我并且在我的學習生活方面給我足夠幫助)Our class is made up of six groups(如何組成的。班級分成6個小組)our school organize “hand –in-hand “activity to call on more people(students)to help lonely elders.學校組織手拉手活動呼吁更多學生幫助孤獨老年人、4,I WOULD like to visit the Great Wall.It is about more than 6500 kilometers long.It is so great.我想去游玩長城,她大概是6500長,如此宏觀。With the help of the Internet, shopping is not a difficult job.Just click your mouse to choose the article you like, and the shopping is finished.You needn't step out of the room.It seems easy and quick.在電腦幫助下,購物不是件困難的工作。只要一點鼠標去選擇自己喜歡的物品,整個購物過程就完成了。你不需要走出房間,這看起來簡單快速。6.he is more interested in sports than computer games.他對體育的興趣多余電腦游戲節目 a growing number of students have learned about the shortcomings of going on-line.越來越多的學生已經了解到上網的缺點
8There are many traditialfestivals in China, such as Spring Festival, Mid-Autumn Day and so on.在中國與許多節假日如春節,中求節等等including 老師們提醒我們過馬路時要小心
Our teachers always remind us to be careful when crossing the road 10 there are two sides to everything, and A is without exception(也可以替換為so is A)該句用于中間轉折,意思是凡事都有兩面性,A也是不例外(如此。
替換表達:Although there are many advantages ,its shortcomings can not be overlooked by us 盡管它有很多優點,但它的缺點不可以忽視,(這里用被動語態起強調作用)I have learned not only how to make friends but also how to talk to others during the learning process.我不僅學會了如何交朋友而且學會了如何與人交流 great changes have taken place in our hometown(china)我的家鄉發生巨大的變化(詞句用一般現在時也ok 3the life of people is much better than ever before(時態比較)人民的生活比曾經or過去好很多。
4we always waste water resource while millions of people in dry areas are in great need of water(while用法,用于兩者在同一件事情做對比)
我們總是浪費水資源而干旱地區成千上萬的人卻急需用水。
5there is a need for us to deal with the rubbish in cities and fight against the pollution 對于我們有必要處理城市垃圾,和與污染做斗爭。
6it is necessary /important /beneficial/difficult to do sth(必須、重要、有益、困難)都某件事 7.We should not cut down the trees because trees can clear air and also can better our environment.(另外一種表達:and this can …..)因為樹可以進化空氣而且改善我們環境,我們不可以砍樹。這里的better 是動詞詞性。I need to spend more time studying in order to come true my dream 替換:so that , 9 I plan to go swimming instead of going shopping this afternoon。我計劃去釣魚而不是去購物(替換詞匯rather than.)
10.we should not spit in a public place,we must pick up some rubbish andthrow it into a dustbin.If everyone makes contribution to protecting the environment, the world will become much more beautiful(學生自行翻譯。
第三篇:語料庫語言學綜合
語料庫語言學基礎知識
2008-09-11 01:45:34| 分類: 學術|舉報|字號 訂閱
語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經過科學選材和標注、具有適當規模的語料庫能夠反映和記錄語言的實際使用情況。人們通過語料庫觀察和把握語言事實,分析和研究語言系統的規律。語料庫已經成為語言學理論研究、應用研究和語言工程不可缺少的基礎資源。
語料庫有多種類型,確定類型的主要依據是它的研究目的和用途,這一點往往能夠體現在語料采集的原則和方式上。有人曾經把語料庫分成四種類型:(1)異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料;(2)同質的(Homogeneous):只收集同一類內容的語料;(3)系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一范圍內的語言事實;(4)專用的(Specialized):只收集用于某一特定用途的語料。除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的采集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關系,多用于機器翻譯、雙語詞典編撰等應用領域,后者將表述同樣內容的不同語言文本收集到一起,多用于語言對比研究。
語料庫建設中涉及的主要問題包括:
(1)設計和規劃:主要考慮語料庫的用途、類型、規模、實現手段、質量保證、可擴展性等。
(2)語料的采集:主要考慮語料獲取、數據格式、字符編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。
(3)語料的加工:包括標注項目(詞語單位、詞性、句法、語義、語體、篇章結構等)標記集、標注規范和加工方式。
(4)語料管理系統的建設:包括數據維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標注、文本分割、合并、標記處理等)、用戶功能(查詢、檢索、統計、打印等)。
(5)語料庫的應用:針對語言學理論和應用領域中的各種問題,研究和開發處理語料的算法和軟件工具。
我國語料庫的建設始于80年代,當時的主要目標是漢語詞匯統計研究。進入90年代以后,語料庫方法在自然語言信息處理領域得到了廣泛的應用,建立了各種類型的語料庫,研究的內容涉及語料庫建設中的各個問題。90年代末到新世紀初這幾年是語料庫開發和應用的進一步發展時期,除了語言信息處理和言語工程領域以外,語料庫方法在語言教學、詞典編纂、現代漢語和漢語史研究等方面也得到了越來越多的應用。
語料庫與語言信息處理有著某種天然的聯系。當人們還不了解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基于規則的(Rule-based)。對于用規則無法表達或不能涵蓋的語言事實,計算機就很難處理。語料庫出現以后,人們利用它對大規模的自然語言進行調查和統計,建立統計語言模型,研究和應用基于統計的(Statistical-based)語言處理技術,在信息檢索、文本分類、文本過濾、信息抽取等應用方向取得了進展。另一方面,語言信息處理技術的發展也為語料庫的建設提供了支持。從字符編碼、文本輸入和整理,語料的自動分詞和標注,到語料的統計和檢索,自然語言信息處理的研究都為語料的加工提供了關鍵性的技術。
下面先簡要敘述1998年到2003年中國語料庫建設的基本情況,然后介紹語料庫的加工、管理和規范問題,最后談談語料庫方法在語言研究和語言工程等方面的應用。由于以前的《中國語言學年鑒》很少談及語料庫問題,為了盡可能全面地反映我國語料庫研究和應用的情況,必要時會將時間上限向前延伸幾年。
二 中國語料庫建設的基本情況
90年代末到新世紀初這幾年投入建設或開始使用的語料庫有數十個之多,不同的應用目的使這些語料庫的類型各不相同,對語料的加工方法也各不相同。下面是其中已開始使用并且具有一定代表性的語料庫。
(一)現代漢語通用語料庫
這是一個由國家語言文字工作委員會主持建立、面向全社會應用需求的大型通用語料庫,從90年代初開始建設,計劃規模7000萬字,主要應用目標是語言文字信息處理、語言文字規范和標準的制定、語言文字的學術研究、語文教育、以及語言文字的社會應用。
這個語料庫收錄的語料以書面語為主、以書面語轉述的口語為輔。語料來源是1919年至今,主要是1977年至今出版的教材、報紙、綜合性刊物、專業刊物和圖書。在設計原則上,講求通用性、描述性、實用性和抽樣的科學性。在語料分類方面,以“門類為主,語體為輔”為原則制定三個大類:
第一類:人文與社會科學類(包括8個次類、30個細類)1.政法類: 哲學 政治 宗教 法律 2.歷史類: 歷史 考古 民族
3.社會類: 社會學 心理 語言文字 教育 文藝理論 新聞 民俗
4.經濟類: 工業經濟 農業經濟 政治經濟 財貿經濟 5.藝術類: 音樂 美術 舞蹈 戲劇
6.文學類: 小說 散文 傳記 報告文學 科幻 口語 7.軍體類: 軍事 體育 8.生活類
第二類:自然科學類(包括6個次類)1.數理類 2.生化類 3.天文地理類 4.海洋氣象類 5.農林類 6.醫藥衛生類
第三類:綜合類(包括6個次類,30多個細類)
1.行政公文類: 請示 報告 批復 命令 指示 布告 紀要 通知等
2.章程法規類: 章程 條例 細則 制度 公約 辦法 法律條文等 3.司法文書類: 訴訟 辯護詞 控告信 委托書等 4.商業文告類: 說明 廣告 調查報告 經濟合同等
5.禮儀辭令類: 歡迎詞 賀電 訃告 唁電 慰問信 祝酒詞等 6.實用文書類: 請假條 檢討 申請書 請愿書等
在不同類別、不同來源、不同時期的語言材料中,按照不等密度的思路確定合適的語料選取比例,從共時和歷時兩個角度保證入選語料的平衡性,是這個語料庫的特點。譬如,在語言材料的年限方面,選材比例是:
1919年 – 1925年 5% 1926年 – 1949年 15% 1950年 – 1965年 25% 1966年 – 1976年 5% 1977年以后 50% 在語言材料的門類、語體和來源方面,選材比例是:
人文與社會科學類占59.6%。其中各個次類在本大類中的比例是:
政法 12.7% 歷史 8.4% 社會 14.0% 經濟 9.8% 藝術 6.7% 文學 44.9% 軍體 2.3% 生活 1.4% 自然科學類占17.24%。其中各個次類在本大類中的比例是:
數理 17.2% 生化 19.1% 天文地理 14.1% 海洋氣象 9.1% 農林 22.8% 醫藥衛生 17.7% 綜合類占9.36%。其中各個次類在本大類中的比例是:
各類應用文 91.1% 其他 8.9% 報紙類占13.79%。其中各個次類在本大類中的比例是: 全國性報刊 25% 省市報刊 75% 這個語料庫在選材過程中收集和記錄語料的有關描述信息,為每個語料樣本設立了20個描述項目:總號、分類號、樣本名稱、類別、作者、寫作時間、書刊名稱、編著者、出版者、出版日期、期號(版面號)、版次(初版日期)、印冊數、總頁數、開本、選樣方式、樣本起止頁數、樣本字數、樣本總數、繁簡字。用戶可以利用這些語料描述標記根據各自的需要進行各種方式的檢索。語料庫的建庫工作分為兩步,第一步先建立核心語料庫(由7000萬字的語料中篩選出2000萬字語料組成)。到90年代末,完成了2000萬字生語料的收錄工作。從2001年開始,對2000萬字核心語料進行分詞和詞性標注加工。
(二)《人民日報》標注語料庫
《人民日報》標注語料庫由北京大學計算語言學研究所和日本富士通公司合作,從1999年開始,到2002年完成,原始語料取自1998年全年的《人民日報》,共約2700萬字,到2003年又擴充到3500萬字,是我國第一個大型的現代漢語標注語料庫。這個語料庫加工的項目有詞語切分和詞性標注,還有專有名詞(人名、地名、團體機構名稱等)標注、語素子類標注、動詞、形容詞的特殊用法標注和短語型標注。下面是一段語料標注的示例,對于1998年1月1日第5版第1篇文章的第11段:
我國的國有企業改革見成效。位于河南的中國一拖集團有限責任公司面向市場,積極調整產品結構,加快技術改造和新產品研制步伐。圖為東方紅牌履帶拖拉機生產線。(趙鵬攝)
標注后的形式是:
19980101-05-001-011/m 我國/n 的/u 國有/vn 企業/n 改革/v 見/v 成效/n。/w 位于/v 河南/ns 的/u [中國/ns 一拖/j 集團/n 有限/a 責任/n 公司/n]nt 面向/v 市場/n,/w 積極/ad 調整/v 產品/n 結構/n,/w 加快/v 技術/n 改造/vn 和/c 新/a 產品/n 研制/vn 步伐/n。/w 圖/n 為/v 東方紅牌/nz 履帶/n 拖拉機/n 生產線/n。/w(/w 趙/nr 鵬/nr 攝/Vg)/w 在每一個切分出來的詞和標點符號后面,是該詞語的標記。譬如詞性標記(n,v,a,u,m,w等),專有名詞標記(nr,ns,nz等),語素子類標記(Vg等),動詞和形容詞特殊用法標記(vn,ad)。所有的標記都是以北京大學的《現代漢語語法信息詞典》為基礎詞庫,在一個加工規范的指導下標注的。
利用《人民日報》標注語料庫,人們可以從各個角度考察和分析語言事實,統計各種語言單位出現的頻率,譬如,詞語或詞類的分布、搭配和共現,專有名詞的結構方式、兼類詞在句子中的表現,語素字的使用情況,等等。也可以從語料里提取各種語言單位或語句片段作為研究實例。與僅僅以漢字串的形式表示的“生語料”相比,經過標注的“熟語料”顯然含有更多的語言學特征信息,對漢語詞匯研究、語法研究和漢語信息處理系統來說是更好的語言知識資源。
《人民日報》標注語料庫中一半的語料(1998年上半年)共1300萬字已經通過《人民日報》新聞信息中心公開提供許可使用權。其中一個月的語料(1998年1月)近200萬字在互聯網上公布,供自由下載。
(三)用于語言教學和研究的現代漢語語料庫
建立現代漢語語料庫的主要目的之一是對外漢語教學和現代漢語研究,可以分為書面語語料庫和以文本形式表示的口語語料庫兩類。前者如北京語言大學的漢語中介語語料庫、現代漢語研究語料庫,后者如中國社會科學院語言研究所的北京地區現場即席話語語料庫。
漢語中介語語料庫的建設目標是為對外漢語教學、中介語研究、偏誤分析和漢語本體研究提供資源,因此它的語料來源很有對外漢語教學的特點。作者先在北京和其他省市的9所高等院校里,從來自96個國家和地區的1635位外國留學生那里收集了成篇成段的漢語作文或練習材料5774篇,共3528988字。再從中抽取了740人的1731篇語料,共有44218句,1041274字。全部語料都記錄了學生姓名、性別、年齡、國別、是否華裔、第一語言、文化程度、所學主要教材、語料類別、寫作時間、提供者等23項屬性。然后對這104萬字的語料進行詞語切分、詞性標注以及一些專用的語言學特征標注。例如,標出了字、詞、句、篇等不同的層次,對語料的非規范形式(例如:錯字、別字、繁體字、拼音字、非規范詞等)做出索引標記,記錄其對應的規范形式。這個語料庫的管理系統有語篇屬性登錄、文本過濾、文字預處理信息登錄、語料抽樣、斷句、分詞、詞性輔助標注、自動標注以及語料的主題檢索、全文檢索和數據瀏覽等各種功能,分別處理語料庫的建立、管理和維護,以及用戶瀏覽、查詢和檢索等。與人工收集的學生病句卡片資料相比,中介語語料庫能夠更好地反映學生學習漢語的情況,幫助教師更加全面地觀察他們的學習過程,了解影響學習和習得的各種因素。在漢語作為第二語言的教學中,為教材編寫、課堂教學、測試等環節提供依據。
現代漢語研究語料庫的建設目標是為語言學家提供一個研究平臺,由2000萬字的粗語料庫和200萬字經過分詞和詞性標注的精語料庫兩個部分組成。粗語料庫收錄的語料樣本中絕大部分是九十年代的出版物,有《人民日報》1000萬字,《中國新聞》500萬字,各種書籍250萬字,文學作品150萬字,準口語材料(書面形式的對話、獨白)100萬字。精語料庫的200萬字語料樣本是從粗語料庫中按照規定的比例由計算機隨機抽取的,有書面語語料160萬字,準口語語料40萬字,是從語體、題材、體裁三個方面均衡選取的平衡語料庫。為了對這些語料進行詞語切分和詞性標注,作者制定了詞語切分的細則和詞性標記體系的原則,采用了一個含有112個詞類標記的標記集,確定了兼類詞的處理方法。這個語料庫的管理系統具有建庫、檢索、瀏覽、統計、輸出等功能,可以按詞或詞類檢索,統計出詞的頻率、詞類頻率、詞類共現頻率、平均詞長、平均句長等結果。這個語料庫建成以后,很快應用在現代漢語語法、漢語教學和漢語信息處理的研究中,研究內容涉及現代漢語的插入語、漢語句子的主題-主語標注、V+N序列實驗分析、詞性標注中詞語歸類問題、動賓組合的自動獲取與標注,等等。
建設北京地區現場即席話語語料庫的目的是,通過收集大量的現場即席話語語料研究現場即席話語的各種動態機制,以揭示現場即席話語的使用規律。這個語料庫的研究策略和取樣方法很有特點,首先是嚴格區分資源庫和語料庫,資源庫收集符合現場即席話語定義的錄音材料,語料庫收錄按照一定標準從資源庫提取出來的材料;另外在語料采樣前先做摸底性研究,通過研究對現場即席話語的真實情況有所了解,確定取樣域,再定取樣范疇,然后根據取樣范疇去錄現場典型材料,這是一種層次范疇化的取樣方法。這個語料庫目前正在建設之中,已經取得了近600小時的錄音材料和50多小時的錄象材料。
在用于漢語研究的語料庫中,講究選材均衡,注重語料加工,同時也提供公開服務的,當數臺灣中央研究院歷史語言研究所的現代漢語平衡語料庫(簡稱Sinica Corpus)。這個語料庫的規模為500萬個詞,每個句子都依詞斷開,標示詞類標記,并且配備了檢索系統,在網上開放供大家使用。根據自己制定的一套漢語文本屬性特征為語料分類,在不同的類別上盡量均衡地采集語料,是這個語料庫的特點之一。文本屬性用來說明文檔的呈現方式、文章的寫作方式、文章寫作的內容和文檔的來源出處,包括7類,每類下設若干小類:
文類(文檔的呈現方式)
報導、評論、廣告圖文、信函、公告啟事、小說故事寓言、散文、傳記日記、詩歌、語錄、說明手冊、劇本、會話、演講、會議記錄 文體(文章的寫作方式)記敘、論說、說明、描寫 語式(文檔的呈現方式)
書面語、演講稿、劇本/臺辭、口語談話、會議記錄 主題(文章寫作的內容)
哲學、科學、社會、藝術、生活、文學
媒體 報紙、一般雜志、學術期刊、教科書、工具書、學術論著、一般圖書、書信、視聽媒體、其它
作者 姓名、性別、國籍、母語
出版 出版單位、出版地、出版日期、版次
不同研究目的的語言學者可以自己按語式、文體、媒體和主題的小類選取不同類別的語料,組成“自訂語料庫”,在“自訂語料庫”的范圍內進行語料的檢索和統計。除了通常的按詞語、詞類的檢索和統計以外,這個語料庫的管理系統還提供了一種“進階處理”功能,對檢索出來的數據作進一步處理,對處理的結果還可以再次處理,形成多層的檢索結果。
(四)面向語言信息處理的現代漢語語料庫
90年代中后期,面向語言信息處理的現代漢語語料庫開始建立并投入應用。其中最早開發的是清華大學用于研究和開發漢語自動分詞技術的現代漢語語料庫,經過幾年的積累已達到8億多字生語料。在這個語料庫的支持下,用統計語言模型的方法研究了漢語自動分詞中的理論、算法和技術,編制了總數為9萬多個詞語的《信息處理用現代漢語分詞詞表》。這些研究工作體現了我國漢語自動分詞技術的發展水平,詞表被許多漢語自動分詞系統作為底表使用,是不可缺少的基礎資源。
TH通用語料庫系統是清華大學建立的另一個現代漢語語料庫。這個語料庫有兩個特點,一是語料庫管理系統根據不同的加工深度,分四個等級管理語料。第一級是生語料分庫,有4千余萬字;第二級以上都是加工程度不同的熟語料庫,其中第二級存放經過自動分詞并由人工校對過的初加工語料500余萬字;第三級存放經過詞性標注和人工校對的語料約300萬字;第四級是經過句子成分標注和人工校對的語料。每個分庫又按語料的來源分成一般書籍、報紙、雜志、論文和工具書五類子庫。不同等級的語料可以為不同的應用目標服務。第二個特點是在這個語料庫的支持下,進行了漢語信息處理技術的研究。譬如,采用以謂語為中心的句型成分分析與語料統計相結合的方法,自動分析漢語的句型,提出了一個“漢語句型頻度表”;在漢語文本中自動標注句子成分和句型成分的邊界;根據指定的句型在語料庫里搜尋句子實例,等等。
HuaYu人工標注語料庫是清華大學和北京語言大學合作建立的一個現代漢語平衡語料庫。這個語料庫按文學、新聞、學術、應用文四個大類收錄了200余萬字語料。它的特點是講究加工的深度,除了詞語切分和詞性標注以外,還根據語句中動詞的類型和句子的長度進行“語塊”標注和“句法樹”標注,目的是為建立漢語短語分析或句法分析的語言模型獲取統計數據提供資源。下面分別是語塊標注和句法樹標注的示例。
對句子“自古以來,人類就重視檔案的保存和利用,設置館庫、選派專人進行管理。”進行語塊標注以后得到的是一個無嵌套的線性序列,其中S是主語語塊,P是述語語塊,O是賓語語塊: [D 自/p 古/t 以來/f,/, [S 人類/n [D 就/d [P 重視/v [O 檔案/n 的/u 保存/vN 和/c 利用/vN,/, [P 設置/v [O 館庫/n、/、[P 選派/v [O 專人/n [P 進行/v [O 管理v。
對句子“我哥哥送給我一本很漂亮的書。”進行句法樹標注以后,得到的是一個與樹形結構等價的線性序列:
[ zj-XX [ dj-ZW [ np-DZ我/ rN 哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 給/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 書/n ] ] ] ]。/w ]
(五)用于開發特定語言分析技術的專用語料庫
這類語料庫是針對漢語信息處理技術的需要專門建立的。例如山西大學的專有名詞標注語料庫和分詞與詞性標注語料庫。
分詞與詞性標注語料庫,規模為500萬字,帶有分詞標記、詞性標記和句法標記。標注時依據《信息處理用現代漢語分詞規范》和《信息處理用現代漢語詞類及標記集規范》。在這個語料庫的支持下,開發漢語自動分詞和詞性標注軟件,研究自動分詞和詞性標注的評測技術。為了解決漢語自動分詞中的切分歧義問題,還建立了交集型歧義字段庫和組合型歧義字段庫,專門收集這兩種類型的歧義切分實例。前者有7.8萬字,后者收錄了140多條。并且在分詞和詞性標注語料庫里作了這兩類切分歧義的標注。利用這些語料調查交集型歧義當中的“偽歧義”現象(既切分結果只可能有唯一選擇的那些交集型歧義切分字段),發現這種現象在歧義切分字段中很普遍,可以達到90%以上。
專有名詞標注語料庫用于研究漢語自動分詞中專有名詞的識別算法。其中包括標注了中國地名的語料280萬字,標注了中國人姓名的語料300萬字,標注了西文姓名的語料250萬字,標注了漢語機構名稱的語料50萬字,還有標注了網絡新詞語的語料150萬字。利用這些語料,建立了中國地名用字、用詞庫,姓氏人名庫,姓氏用字頻率表,名字用字頻率表等,用統計語言模型的方法識別專有名詞。
(六)雙語語料庫
基于實例的機器翻譯(Example-based)需要大規模的雙語平行語料庫來支持。語料庫里的源語和目標語實例要按照相同級別的翻譯單位一一對齊。目前已有的雙語平行語料庫主要是漢語和英語的,語料對齊的單位有句子級的、子句級的、短語級的,也有詞匯級的。機器翻譯系統把要翻譯的句子與語料庫里的源語實例進行對比,分析相似程度,找到最適合的源語實例,再參照與它對齊的目標語實例生成譯文。用于這類機器翻譯系統的雙語語料庫必須有一定的規模,用人工做語料對齊的工作顯然很難滿足要求。這就使文本自動對齊成為建立雙語語料庫的關鍵技術。
在目前已有的雙語語料庫中,哈爾濱工業大學的漢英平行語料庫已經直接用來開發英漢雙向機器翻譯系統。這個語料庫有6萬個漢語和英語的句子,使用多級對齊加工技術,分別按照句子、短語結構和詞一一對齊。中國科學院計算技術研究所的漢英雙語語料庫有20萬個句對,也完成了句子一級的對齊,并在網上提供查詢服務。北京大學、中國科學院軟件研究所等單位也建立了按句對齊的漢英雙語語料庫。除此之外,還有以語段或短語為單位收集的漢英雙語語料庫,譬如中國科學院自動化研究所的漢英雙語短語庫,有3~5萬對已對齊的漢語和英語短語。東北大學的英漢雙語語段庫,用來幫助建立電子版的英漢搭配詞典。
(七)面向漢語史研究的語料庫
面向漢語史研究的語料庫建設是從搜集漢語史文獻資料開始的。臺灣中央研究院歷史語言研究所從90年代初期就開始了這項工作,他們先收集上古漢語的語料,然后擴展到中古漢語和近代漢語。90年代中后期逐步開始上古漢語語料和近代漢語的標注,在該院信息研究所和計算中心的協助下進行標注技術和檢索技術的開發。根據是否經過分詞處理和詞性標注,臺灣中央研究院的古漢語語料庫和近代漢語語料庫可以分成兩類:生語料庫和標記語料庫。目前生語料庫收集的語料已涵蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)的大部分重要文獻資料,并己陸續開放使用。在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注工作,也逐步提供網上檢索。2001年底,開放了近代漢語標記語料庫WWW版供各界使用,首先提供查詢的文獻是《紅樓夢》及《三遂平妖傳》。在查詢方面,除了常用的功能以外,還可以在顯示詞項及詞類的同時給出例句的出處,便于歷史語法的研究者使用。
多年來中國社會科學院語言研究所也一直在致力于文獻資料的建設,搜集整理了近代漢語書面語語料150萬字,中古近代漢語語料約1千萬字,部分語料已作了標注。目前已經完成了一個小型語料庫,包括:敦煌變文集、祖堂集、三朝北盟匯編、碧巖錄、朱子語類、劉知遠諸宮調、西廂記諸宮調、元刊全相平話五種、元典章 刑部、老乞大諺解、樸通事諺解、孝經直解、魯齋遺書、經筵講義等十余種文獻,成為漢語史和語言學理論研究的重要資源。此外,語言研究所的先秦專書電子文檔有4部文獻,共約120萬字,并且已由古漢語學者逐篇逐句標注了語法信息。
上海師范大學、浙江師范大學、四川大學等學校也依據各自漢語史研究的方向,建立了歷史文獻語料庫。四川大學的中古漢語語料庫有1億字的中古漢語語料和有關中古漢語研究的資料。浙江師范大學的楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫,已用于“前四史”語言研究和唐宋詩詞語詞研究。
目前歷史文獻語料庫建設的特點是依托學科建設和研究方向,廣泛收集資料,注重校勘精審。隨著漢語史研究和語料庫應用的發展,資源共享和語料加工將得到越來越多的重視。歷史文獻資源共享,首先要避免語料的重復收集,還要采用國際通用的標準處理語料文本,使語料能夠準確、方便地交換和使用。語料加工則是充分發掘語料應用價值的基礎工作,從收集歷史文獻的電子文檔,到建成一個具有必要的語言學標記信息、合理的邏輯結構和方便的檢索功能的語料庫,語料的加工是不可或缺的一步。
(八)比較語料庫
為了研究漢語在不同地區的使用情況,香港城市大學建立了LIVAC共時語料庫(Linguistic Variation in Chinese Speech Communities)。語料來自香港、臺灣、北京、上海、澳門及新加坡六地有代表性的中文報紙,以及電子媒介上的新聞報道。自1995年7月開始,每四天一次,收集這六個地區的對等書面語文本,每次約兩萬字。內容包括新聞、特寫、評論等文章。到2003年上半年,已收集了1億1千多萬字、超過56萬個詞條。計劃收集到2005年6月,囊括新舊世紀交接點前后各五年各地華語社區有代表性的重要語言數據,供漢語的各種共時比較研究使用。
在語料的組織和加工方面,這個語料庫用計算機自動分詞,再經人工校對分類,可以依字、詞、句為基礎進行檢索,提供字、詞配搭、分布等數據,有統計功能。語言學家能通過這個語料庫考察上述六地出現的新詞、詞義有所發展或轉移的舊詞、以及有地方特色的詞語,還可以對具體字或詞的頻率作統計比較,對字詞的差別作計量分析。對研究華人社區的文化、社會、語言差異也有作用。這個語料庫的一部分已經在網上提供服務。
(九)少數民族語言語料庫
新疆大學從2002年起開始建設現代維吾爾語語料庫系統,計劃包括5個部分:語料庫、電子語法信息詞典、規則庫、統計信息庫和檢索統計軟件包。其中語料庫部分又分成生語料庫(經初步整理的原始語料)和加工語料庫(經過標注和校對的語料)。目前已有生語料800萬詞。另外,新疆大學也正在以新聞領域的維漢-漢維機器翻譯為目標,建設雙語平行語料庫。內蒙古大學的中世紀蒙古文語料庫收集了《元朝秘史》、《黃金史》、《回鶻蒙古文文獻集》等歷史文獻。他們還建立了500萬詞的現代蒙古語語料庫,研究了蒙古文附加成分的自動切分、復合詞的自動識別和語料的詞性標注,獲得了詞頻統計、音節統計、詞類統計、附加成分統計等數據。西北民族大學建立了1億3千萬字節的大型藏文語料庫,用于藏文詞匯頻度和通用度的統計。中國社會科學院民族學與人類學研究所建立了500萬藏語字符的藏語語料庫,進行詞語切分和標注的研究。新疆師范大學也建立了200萬詞的維吾爾語語料庫。
與漢語語料庫相比,少數民族語料庫的建設還需要解決一些特殊的問題,譬如拼音文字轉寫的標準和規范,詞語分類體系及其標記集等。
到2003年,已建和在建的各種文本語料庫還有很多(包括書面語語料庫和以文本形式表示的口語語料庫),以上提到的只是有代表性的一部分。與文本語料庫相對的,是語音語料庫。語音語料庫不僅記錄語圖、聲學參數等語音學數據,還有句法、韻律等各種語言學信息標記和副語言學信息標記,可以在語音識別與合成系統中用來建立語音模型,用于語音研究、語音工程開發和漢語普通話教學等領域。語音技術是當前信息技術和通訊領域里最具潛力的發展方向之一,語音語料庫在科研和工程上有很高的使用價值。關于語音語料庫的詳細情況,請見“語音學和言語工程研究綜述”。
三 語料庫的加工、管理和規范
(一)語料的加工
一個計算機語料庫的功能主要與三個因素有關,一是語料庫的規模,二是語料的分布,三是語料的加工程度。規模的大小關系到統計數據是否可靠,語料的分布涉及統計結果的適用范圍,語料加工的深度則決定這個語料庫能為使用者提供什么樣的語言學信息。
加工語料主要指文本格式處理和文本描述兩項工作,前者是對采集的語料文本進行整理,轉成統一的電子文本格式,例如數據庫格式、XML文本格式等。后者是描述每一篇語料樣本的屬性或特征,包括篇頭描述和篇體描述。篇頭描述說明整篇語料樣本的屬性,例如語體、內容所屬的領域、作者、寫作時間、來源出處等等,篇體描述是在文本里添加各種語言學屬性標記,對于漢語書面語語料庫來說,常見的是詞語切分標記、詞性標記、專有名詞標記,還有某些語法特征如短語標記、子句標記,或語義信息標記,等等。對漢語書面語語料的加工一般是從詞語切分、詞性標注,到語法、語義屬性標注,按順序進行。標注的信息逐步增多,語料加工的深度也就逐漸增加。人們通常把沒有篇體描述信息的語料叫做生語料。對漢語的生語料只能以字為單位進行檢索和統計。經過詞語切分處理的語料,就能以詞為單位進行檢索、統計和定量分析。如果還作了詞性標記,那么可以獲得的語言學信息就更多了。語料的標注如果由人來做,當然能夠保證準確性,但是人工標注對處理大規模的語料顯然不夠現實。所以幾乎每一個大規模語料庫的加工都需要借助自動化的手段,詞語自動切分、詞性自動標注等就成為備受關注的語料加工技術。
自動分詞是我國最早開始研究的漢語信息處理技術之一。語料庫的建設開始以后,自動分詞技術在語料加工中又得到了應用和發展。自動分詞和詞性自動標注一般都需要一個詞典,作為分詞和詞性標注的基礎。這個詞典與常用的語文詞典相比,收錄的詞目不大一樣,包括了語言學家認可的詞,以及一些比詞小的單位(如語素字、詞綴等)和一些比詞大的單位(如成語、習語、簡稱略語等)。詞典中也包括詞類信息和其他語法信息。目前的自動分詞技術是基于字符串匹配原理的,有正向最大匹配、逆向最大匹配等基本算法。在切分過程中會出現歧義現象,如何處理歧義是自動分詞研究的重點之一,在這方面投入的研究也最多,先后提出了“短語結構法”、“專家系統法”、“隱馬爾科夫模型”、“串頻統計和詞匹配”等辯識歧義的方法。識別未登錄詞是自動分詞研究的第二個重點。未登錄詞指沒有被分詞底表收錄的詞語,包括人名、地名、機構名等專有名詞和新出現的詞語。對未登錄詞的識別一般以基于語料庫的統計語言模型方法為主。
詞性自動標注通常與自動分詞同時進行,根據帶有詞類信息的分詞詞典,給切分出來的詞語標上初始的詞類標記。對于兼類詞,必須在句子里判斷類別。因此需要分析兼類詞語在上下文中的分布特點和語法功能,并用形式化的方式表達出來,作為詞性標注系統排除兼類的規則。近年來,已經有幾個自動分詞和詞性自動標注系統投入了應用,其中北京大學用自己研制的系統為《人民日報標注語料庫》做分詞和詞性標注的初加工,北京語言大學的自動分詞系統也成為其《面向語言教學研究的漢語語料檢索系統》中的關鍵技術。此外,經過十幾年的研究和實踐,2001年發布了收錄9萬多詞語的《信息處理用現代漢語分詞詞表》和《現代漢語詞類及標記集規范》。對于1993年制定的國家標準《信息處理用現代漢語分詞規范》的可操作性問題,也進行了積極的討論和實驗,提出了有效的解決方法。關于自動分詞和詞性自動標注的詳細情況,請見“計算語言學和自然語言信息處理研究綜述”。
經過分詞的語料,除了標注詞性以外,還可以進一步標注其他語言學屬性,譬如韻律、語調、短語結構、句法結構、語義關系等等。句子的語法結構需要有形式化的方式來表達,大多數語料庫或者采用短語結構樹,或者采用依存語法樹的方式,這樣標注過的語料庫就成為短語樹庫或句法樹庫。一般情況下,在詞性標注的基礎上再作進一步的語法標注加工,多以人工為主,也有關于自動短語定界和句法信息自動標注的研究和實驗。目前已有的漢語短語庫、句法樹庫規模都不大,至多百萬詞級。
在雙語語料庫的建設中,除了上述語料加工項目以外,還有一項不可缺少的語料加工任務:雙語語料對齊。語料對齊分為段落、句子、子句、短語和詞語幾個不同的層次。如果考慮用計算機程序做自動對齊,不同的層次要解決的問題各不相同。每種語言的段落都有可識別的標志,因此段落的對齊最容易實現,句子的對齊在印歐語言之間比它們和漢語之間要容易,詞語的對齊需要借助詞典,句子內的各種結構要自動對齊則是最難的。目前雙語自動對齊技術的研究主要是針對句子和句子內的結構,采用的方法有基于長度的、基于詞典的,或者是這兩種方法的混合策略。
(二)語料庫管理系統
經過科學選材和標注、具有適當規模的語料庫,還應該有一個功能齊備的管理系統,包括數據維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標注、文本分割、合并、語料對齊、標記處理等)、用戶服務功能(查詢、檢索、統計、打印等)。其中數據維護部分主要涉及漢字字符處理、文本處理、文件管理等計算機程序設計技術。語料自動加工部分的主要內容是自動分詞、各種語言學屬性的標注技術,已經在前面專門介紹過了。這里主要談談面向用戶的語料檢索、統計和分析技術。
語料檢索是一種全文檢索技術,但是也有自己的特點,僅用普通的全文檢索技術還不能滿足語料檢索的需要。這是因為,全文信息檢索關心的是檢索目標的意義,不是檢索目標的語言表述形式。而面向語言研究的語料檢索則特別注重語言的表述形式,它既需要按照字、字串和詞檢索,也需要把詞語的語言學屬性作為檢索的目標和約束條件,還要求把檢索的結果或目標的出處按照研究的需要排序、輸出。除此之外,還要有字頻、詞頻和特定語言形式出現頻率的統計功能。
對漢語生語料的檢索和統計是以字或字串為單位進行的。這一類檢索系統主要以單字索引和字符串匹配為關鍵技術,由于把詞語當作字串來檢索,所以檢索結果中經常出現“非詞”的問題。例如要查找“出警”,檢索結果中除了“迅速出警”、“拒絕出警”、“出警次數”等實例以外,“發出警告”、“放出警犬”等也混在其中。為了解決這些問題,常常需要為字符串匹配的檢索表達式另外設置限制條件。這些限制條件大多是個性的,只能排除一部分“非詞”的實例。要想從根本上解決這個問題,就必須對語料作詞語切分。經過詞語切分處理的熟語料,能以詞為單位進行檢索、統計和定量分析。但是熟語料庫的加工代價很高,而且對于語料的詞語切分和詞性標注,目前還沒有既成熟又便于操作的規范,所以近年來,面向生語料庫的檢索技術一直在廣泛應用,并且在用戶功能方面不斷發展。譬如,可以對用戶給出的任何生語料快速生成索引;可以使用具有復合邏輯關系的檢索表達式;可以按照漢字、拼音、筆畫對檢索結果的上下文自動排序;可以提供檢出實例的來源、出處;可以按字頻統計的數據排序;檢索結果和統計結果既可以按文本形式輸出,也可以按數據庫形式輸出;還可以通過網絡支持多用戶遠程檢索。
對于經過詞語切分處理和詞性標注的熟語料庫,除了所有生語料的檢索功能以外,語料檢索系統還可以把詞語或詞性作為檢索的關鍵字或限制條件,得到關于這些語言學屬性的檢索和統計結果,并按各種排序和輸出形式的提供給用戶。語言學屬性來自語言學家對漢語的研究,研究過程中有各種觀點和認識,從詞的定義到詞類的確定,一直還沒有統一的意見。另一方面,人們檢索語料時的目的也各不相同,有的關心詞匯問題,有的關心語法現象,還有的目標是漢語信息處理的應用問題。因此對于熟語料庫檢索來說,一個好的檢索系統應該能夠包容各種不同的語言學觀點,可以用于不同的檢索目的。
為了做到這一點,通常采用的辦法是,把用于語料庫自動分詞的底表和附著于底表的詞性、構詞等屬性都看作語言學屬性表,使這個屬性表與檢索系統的程序相互獨立,檢索系統只把屬性標記作為抽象的字符串處理,而把建立屬性表的工作交給用戶。以北京語言大學的《面向語言教學研究的漢語語料檢索系統》為例,它的自動分詞詞表、詞屬性集和每個詞的屬性標記都由用戶提供,提供的方式是把詞目和它的屬性標記登記在數據庫里。檢索系統使用用戶提供的這個屬性表對生語料自動分詞,并生成索引,供給用戶檢索。檢索系統對屬性表沒有任何限制,規模可大可小,表中的詞目也可以跟通常認為的詞沒有關系,屬性可以是語法的,也可以是構詞的、語義的、語音的,等等。這樣用戶就能根據自己的需要檢索和研究各種字串在語料中的表現。
把語料加工技術集成在檢索系統里面,是語料庫檢索系統的另一個特點。語料加工技術一般指詞語自動切分和詞性自動標注。在北京語言大學的語料檢索系統中,未登錄詞的自動識別技術比較有特點。它可以識別各種數字串、中西人名、中西地名、機構名、后綴短語等,并為它們建立索引,供用戶檢索和統計。
(三)語料庫的規范問題
語料庫的規范問題主要是對語料加工而言的。漢語語料庫首先遇到的規范問題是詞語切分。我國90年代初發布了國家標準《信息處理用現代漢語分詞規范》(標準號為GB/T13715-92)。這個規范基本上采用《暫擬漢語教學語法系統》中的觀點,把詞定義為“最小的獨立運用的語言單位”。針對漢語語素、詞和詞組界限不夠清晰的問題,還特別提出了“分詞單位”的概念。把“分詞單位”定義成“漢語信息處理使用的具有確定的語義或語法功能的基本單位”,并且用“結合緊密、使用穩定”的原則作為判斷分詞單位的標準。這樣做的目的是避免關于如何界定詞的爭論。但是“結合緊密、使用穩定”的原則缺少可操作性,對于自動分詞研究中的具體問題常常難有定論。于是就有了根據規范制定一個詞表,用“規范+詞表”的辦法指導分詞的建議。這樣在90年代中期和末期,分別提出了收詞43570條的《信息處理用現代漢語常用詞表》和收詞9萬多條的《信息處理用現代漢語分詞詞表》。其中后者是在8億字的大規模語料庫支持下,采用“串頻”、“互信息”、“相關度”等計算統計方法,依據定量的數據分析結果辨識“分詞單位”的。與此同時,語言學家也參與了制定這個詞表的工作,他們提出的各種語言學規則,從定性分析的角度與統計數據相互作用,最后經過人工審定,確定了92843個詞目,其中一級常用詞56606個,二級常用詞36237個,成為目前許多自動分詞系統使用的詞表。
90年代中期,臺灣的計算語言學會也提出了一個《資訊處理用中文分詞規范》。這個規范有三條基本原則,一是分詞單位必須符合語言學理論的要求;二是在信息處理上切實可行;三是能夠確保真實文本處理的一致性。它把分詞規范分成信、達、雅三個不同的等級,“信”級是基本資料交換的標準,“達”級是機器翻譯、情報檢索等自然語言處理的標準,“雅”級則是分詞的最好結果。這樣可以根據不同的應用目的做難易程度不同的分詞處理。
詞語切分以后,下一個規范問題就是詞性標注。經過十多年的詞性標注研究和實踐,教育部語言文字應用研究所于2001年提出了《信息處理用現代漢語詞類標記集規范》。這個規范吸收了語言學家的研究成果,也兼顧了已有的各個用于語言信息處理的詞類系統,制定了標記現代漢語書面語詞類的符號集,使各種漢語信息處理應用系統能夠盡量使用統一的詞類標記,有助于信息交換和資源共享。
標注短語和句子結構是語料庫進一步深加工的內容,雖然目前尚處于起步階段,但已經在標注的同時考慮了規范的問題。清華大學提出的《漢語句子的句法樹標注規范》,主要包括句法標記集的內容描述、句法樹的劃分規定、歧義結構的處理、結構分析的方向性等問題。上海師范大學根據自己制定的《漢語文本短語結構人工標注規范》,對100萬字的1997年《讀者文摘》進行了分詞、詞性標注和人工標注短語的試驗。哈爾濱工業大學采用包含23個短語符號的標記集合,開發了一個8000個句子的漢語樹庫。清華大學還建立了一個基于語義依存關系的語料庫,也涉及到標注體系的選擇和標注關系集的確定。這些工作規模都不大,在規范方面還處于各自為政的狀態。隨著語料的進一步深入加工,統一規范將成為不可避免的問題。
北京大學的《人民日報》標注語料庫是目前規模最大的漢語基本標注語料庫。在它的開發過程中,各種加工規范起了關鍵的作用。在這些加工規范中,有詞語的切分規范,主要規定把句子的漢字串形式切分為詞語序列的原則;有現代漢語詞類及標記集規范,規定切分出來的詞語、短語、標點符號的類別和標識符號;有切分和標注相結合的規范,規定語素構成合成詞的方式(重疊、附加和復合);有標注規范,規定詞性標注與詞庫的關系,主要解決如何在上下文環境里確定兼類詞的詞性;還有收詞7萬余條的詞庫《現代漢語語法信息詞典》。加工大規模的語料是一項浩大的語言工程。語料標注的準確性和一致性需要靠完善、合理的詞庫和嚴謹、實用的加工規范來保證。《人民日報》標注語料庫的加工規范和《現代漢語語法信息詞典》是語言學家和信息處理專家合作,在漢語語法研究的理論和方法指導下,根據漢語信息處理的實際需要制定和開發的。在標注大規模語料的實踐中,又得到了驗證和完善。
除了語料加工以外,語料庫還應該在語料的采集和存儲格式上有所規范。對于平衡語料庫來說,采集規范主要是為了保證語料的平衡性,而類別分布和時間分布是語料平衡的兩大要素。每個語料庫都要對語料進行分類,分類的原則各不相同。有的根據內容涉及的主題分類,有的根據語體分類。在眾多平衡語料庫當中,臺灣中央研究院的現代漢語平衡語料庫的分類標準很值得注意。這個語料庫的研制者認為,用傳統的文體單一特征來界定平衡語料庫不足以反映影響整個語言全貌的內在因素。因此他們采用的是多重分類原則:把所有語料都標上五個不同特征的值:(1)文類(2)文體(3)語式(4)主題(5)媒體。利用以主題為主的五個特征的多重分類來進行語料庫的平衡。這樣做還使研究者能夠任選其中幾個特征的組合,定義自己的次語料庫(sub-corpora),也可以在次語料庫間作比較研究。另外,多重分類原則也有利于以后平衡語料庫的更新。語料存儲格式的規范一般指采用統一的編碼規范為電子文本作標記,目前可擴充置標語言XML被廣泛地用作語料庫標注的元語言,存儲格式的標準化有助于語料的交換和共享。
四 語料庫在語言研究中的的應用
在語言研究中,語料庫方法是一種經驗的方法,它能提供大量的自然語言材料,有助于研究者根據語言實際得出客觀的結論,這種結論同時也是可觀測和可驗證的。在計算機技術的支持下,語料庫方法對語言研究的許多領域產生了越來越多的影響。各種為不同目的而建立的語料庫可以應用在詞匯、語法、語義、語用、語體研究,社會語言學研究,口語研究,詞典編纂,語言教學以及自然語言處理、人工智能、機器翻譯、言語識別與合成等領域。我國在語料庫的應用上還處于起步階段,在計算語言學和語言信息處理領域,語料庫主要用來為統計語言模型提供語言特征信息和概率數據,在語言研究的其他領域,多使用語料的檢索和頻率統計結果。
語料庫與自然語言信息處理有著相輔相成的關系,大規模的語料庫是用統計語言模型方法處理自然語言的基礎資源。然而統計語言模型本身并不關心其建模對象的語言學信息,它關心的只是一串符號的同現概率。譬如N元語法模型,它只關心句子中各種單元(比如字、詞、短語等)近距離連接關系的概率分布,而對于許多復雜的語言現象,它就無能為力了。在統計語言建模技術最先得到成功應用的自動語音識別領域,語料庫的開發和建設受到格外的重視,標注語料庫成為不可缺少的系統資源,就是因為,要想改進N元語法的建模技術,必須利用語料庫引入更多的語言特征信息和統計語言數據。同樣,在書面語語言信息處理領域里,語料庫提供的語言知識也越來越多地用在統計語言模型方法中。除了詞語自動切分、詞性自動標注、雙語語料對齊等語料加工技術以外,人們還在語料庫的支持下,建立有關語法、語義的語言知識庫,開發信息抽取系統、信息檢索系統、文本分類和過濾系統,并且把基于統計或實例的分析技術集成到機器翻譯系統里面。
近年來在語料庫的支持下,從信息處理的角度研究漢語詞匯、語法和語義問題的報告也日漸增多。這些研究包括:根據逐詞索引作漢語詞義的調查;對詞語搭配進行計量分析;利用量詞--名詞的搭配數據研究漢語名詞分類問題;進行現代漢語句型的統計和研究;做短語自動識別(例如基本名詞短語、動賓結構)和自動句法分析的試驗;研究在句子里為詞語排除歧義的算法;分析和統計漢語詞語重疊結構的深層結構類型及產生方式;等等。
對于詞匯學、語法學、語言理論、歷史語言學等研究來說,語料庫的作用目前大多還是通過語料檢索和頻率統計,幫助人們觀察和把握語言事實,分析和研究語言的規律。語料庫方法的發展會使這種僅起輔助作用的手段逐步變成必備的應用資源和工具。利用語料庫,人們可以把指定的語法現象加以量化,并且檢測和驗證語言理論、規則或假設。
在少數民族語言和方言調查研究方面,比較有代表性的工作是“藏緬語語料庫及比較研究的計量描寫”。它建立了我國境內藏緬語族五大語支82個語言點16萬詞條的詞匯語音數據庫,對藏語方言的音節、音位、聲母、韻母、聲詞、詞素、構詞能力和語音結構等10余項特征作了分布和對比分析。對藏語15個方言點作了語音對應關系和音系對比關系的量化描述,并且在這個基礎上做出具有歷時和共時比較研究意義的相關分析,得出了語言分類的相關矩陣和聚類分析圖表。
在應用語言學領域,詞典編纂和語言教學同是語料庫的最大受益者。目前已有多部詞典在編纂或修訂過程中,不同程度地使用語料庫或電子文檔收集詞語數據,用于收詞、釋義、例句、屬性標注等。南京大學近年來開發了NULEXID語料庫暨雙語詞典編纂系統,涉及英漢兩種語言,在《新時代英漢大詞典》的編纂過程中起了重要作用。從詞典編纂的整體情況看,我們還缺少充分的語料資源和有效的分析工具,很多有意義的事情還做不了。譬如,分析語料中顯現的詞語搭配現象,利用語料庫進行詞語意義辨析,在動態的語料庫中輔助提取新詞語,等等。把語料庫用于語言教學的一個例子是上海交通大學的JDEST英語語料庫,利用這個語料庫,通過語料比較、統計、篩選等方法為中國大學英語教學提供通用詞匯和技術詞匯的應用信息,為確定大學英語教學大綱的詞表提供了可靠的量化依據。這個語料庫也在英語語言研究中發揮了作用,支持基于語料庫的英語語法的頻率特征、語料庫驅動的詞語搭配等項研究。2003年,中國學習者英語語料庫由上海外語教育出版社正式發行。這個語料庫是一個100多萬詞的書面英語語料庫,涵蓋我國中學生、大學英語4級和6級、英語專業低年級和高年級的學習內容,并對所有的語料作了語法標注和言語失誤標注。根據這個語料庫得到了詞頻排列表、拼寫失誤表、詞目表、詞頻分布表、語法標注頻數表、言語失誤表等,還把這些數據與一些英語本族語語料庫(如BROWN,LOB,FROWN,FLOB)進行了某些比較。這個語料庫為詞典編纂、教材編寫和語言測試提供了必要的資源。目前上海交通大學正在建設大學英語學習者口語英語語料庫。
在幾年來語料庫建設和應用的基礎上,2003年國家“973”計劃開始支持中文語言資源聯盟(Chinese Linguistic Data Consortium,簡稱ChineseLDC)的建立。ChineseLDC是吸收國內高等院校、科研機構和公司參加的開放式語言資源聯盟。其目的是建成能代表當今中文信息處理水平的、通用的中文語言信息知識庫。ChineseLDC將建設和收集中文信息處理所需要的各種語言資源,包括詞典、語料庫、數據、工具等。在建立和收集語言資源的基礎上,分發資源,促成統一的標準和規范,推薦給用戶,并且針對中文信息處理領域的關鍵技術建立評測機制,為中文信息處理的基礎研究和應用開發提供支持。
幾年來在計算語言學和語言信息處理領域的學術會議上,語料庫的建設和應用一直是重要論題之一。討論的重點集中在基于語料庫的語言分析方法,以及語料的標注、管理和規范等問題上。語言學家更多關心的是語料庫的規劃和建設,語料庫方法在語言研究和教學中的應用。近年來語言學界也召開有關語料庫的專門學術會議,譬如2001年由中國社會科學院語言研究所主辦、在清華大學召開的語料庫語言學與計算語言學研究與實踐研討會(主要討論了語料庫的建設和應用、語言信息處理等問題);2003年由上海交通大學等單位主辦、在上海交通大學召開的語料庫語言學國際研討會(會議主題是語料庫研究與外語教學)。
第四篇:基于語料庫的中國文化負載詞匯英譯研究
基于語料庫的中國文化負載詞匯英譯研究
[本文為2015年江蘇省大學生創新創業訓練計劃省級項目“基于語料庫的中國文化負載詞匯研究---以2015年政府工作報告為例”(項目編號:201510332069X)部分研究成果。
江蘇省高校哲學社會科學項目“基于語料庫的中國英語文化負載詞匯研究”(2014SJB554)。]
摘要:本研究以德國功能目的論為依據,探討2015年《政府工作報告》(以下簡稱《報告》)中國文化負載詞的英譯方法。研究采用語料庫檢索工具Antconc3.2,通過國務院官網2015年《報告》(英文版)報道和中央編譯局2015年《報告》重要術語發布建立兩個小型語料庫。結果發現,2015年政府工作報告英譯本詞匯具有:實詞使用量大、動詞名詞化顯著和解釋性名詞具有中國特色的特征。通過對政府工作報告的英譯文本分析,得出以下結論:《報告》英譯是有明確目的的跨文化交際活動,中國文化負載詞的英譯應遵循“目的法則”,靈活多樣地采取直譯、直譯+增譯、意譯相結合的翻譯方法,以提升中國文化軟實力。
關鍵詞:語料庫;文化負載詞;2015年《政府工作報告》;功能目的論;英譯
一、引言
隨著自身的全球化和本土化,英語作為世界通用語,日漸與源文化分離,不斷產生區域變體,中國英語就是英語在中國本土化之后的使用變體。葛傳?耍?1980:91-93)提出,中國英語是以規范英語為核心,表達中國社會文化諸領域特有事物,不受母語干擾,通過英譯、借譯及語義再生諸多手段進入英語交際,具有中國特點的詞匯、句式或語篇。汪榕培(1991:1-8)肯定中國英語是客觀存在的,國際著名語言類期刊“World Englishes ”2002年第2期也曾集中刊發了15篇中國英語研究方面的論文,可見,中國英語研究也成為世界英語變體研究的熱點之一。金惠康(2003:72-79)認為,中國英語是介紹華夏文明的橋梁,能填補詞匯空白、文化空白和中國意念的空白。這些空白標志著中國文化中特有事物的詞組和短語,即中國文化負載詞,從中可以了解中華民族的價值觀、思維方式和風土人情。
中國英語文化負載詞匯是中國英語的重要組成部分,其承載的信息量絕不亞于句法和語篇。雖然國內有學者也注意到了中國英語文化負載詞匯所折射出的文化身份和意識形態,但這方面鮮有系統性的實證研究,故本文將對2015《政府工作報告》的中國文化負載詞匯英譯策略和英譯方法展開較為系統的研究。
二、研究意義和視角
《政府工作報告》(以下簡稱《報告》)屬政論文體,用詞嚴謹,書面語特征明顯,是對上一年工作的總結和新一年工作的部署。《報告》的英譯不僅具有傳達貫徹黨和國家大政方針的重要職能,也是他國了解我國國情、方針政策、政治制度、政治立場等最權威的來源(王小萍,2006:109)。《報告》作為典型的外宣文件,每個詞的英譯都要仔細斟酌其政治影響。中國外交部官員王弄笙(2004:56-59)曾指出,譯文必須準確無誤地反映原文,不能偏離原意,更不能曲解原意。
隨著中國社會的不斷發展,大量反映時代思想和風貌的新詞不斷涌現。詞匯作為語言中最活躍的因素不斷更新變化,日益頻繁的國際交往也使得詞匯的翻譯成為了語言中變化最快的部分。(楊原,2006:103-105)早在1991年,Newmark就在其專著《關于翻譯》(About Translation)中獨辟一章討論了政治文化負載詞匯的特點和英譯策略,可見外宣文化交際中詞匯翻譯的重要性。
德國功能派翻譯理論始于1971年,“目的論”是其核心理論。功能目的論的理論基礎是行為主義,認為人的行為是在特定的情況下發生的有目的的行為,翻譯是在目的語情景中為某種目的及目的的受眾而生產的語篇(Nord,1997)。
功能目的論有三大法則:目的法則、連貫法則和忠實法則,后兩者必須服從于目的法則。作為一種有目的的跨文化交際活動,翻譯的目的決定了翻譯的策略。《報告》英譯的目的是溝通(王惠,2011),即與世界各國進行平等的文化交流,過度使用異化或歸化的翻譯策略都是不得體的。
三、語料統計
本文將以Antconc3.2作為語料庫檢索工具,通過國務院英文官網對2015年《報告》的報道及中共中央編譯局對2015年《報告》重要術語的譯文發布建立兩個小型的語料庫。
《報告》英譯本的詞匯主要有以下三個特征:
一、大量實詞的使用;
二、文體正式,動詞名詞化現象顯著;
三、解釋性名詞頗具中國特色(李楠芳,2012:110)。本文通過統計2015年《報告》英譯本前100個高頻詞,以揭示2015年中國社會發展變化的軌跡和本屆中國政府的工作重心,語料數據及分析如下。
1.“We”“we”詞頻排名第5、第19,總計出現419次;“China”“Chinese”詞頻排名第16、第19,總計出現101次;“government”“governments”詞頻排名第20、第92,總計出現91次,表明2015《報告》中“我們(的)”、“中國(的)”、“政府”是主體。“development”“develop”詞頻排名第10、第15,總計出現169次,表明“發展”是《報告》主旋律。
2.“reform”詞頻排名第5、第19,總計出現419次,表明2015《報告》“改革”是主基調。“more”“improve”“increase”“promote”“growth”等表示增長含義的詞語在《報告》前100高頻詞中占11個,總計出現445次,表明“改革”的目的是為了促進國家各方面的提升發展。
3.“policies”“policy”詞頻排名第82、第88,總計出現44次;“economic”“economy”詞頻排名第36、第68,總計出現76次;“market”“investment”詞頻排名第58、第62,總計出現52次;“education”“innovation”詞頻排名第77、第79,總計出現48次,表明2015《報告》對政治、經濟、教育、創新等各方面提出了“改革”。
4.網絡領域
直譯
原文:制定“互聯網+”行動計劃,推動移動互聯網、云計算、大數據、物聯網等與現代制造業結合。
譯文:We will develop the “Internet Plus” action plan to integrate the mobile Internet,cloud computing,big data,and the Internet of Things with modern manufacturing,“互聯網+”是指創新互聯網發展的新形態和新業態,促進者經濟形態的轉變,為中國經濟的發展提供了廣闊的網絡平臺。The “Internet Plus” action plan 采用直譯的翻譯方法準確忠實地表達了“互聯網+”這一新詞的內在涵義。
5.教育領域
意譯
原文:提供跟多優秀文藝作品,倡導全民閱讀,建設書香社會。
譯文:We will ensure that more outstanding works of literature and art are created for the people to enjoy,and encourage a love of reading in all our people to build a nation of avid readers.“書香社會”的文化內涵在于倡導“全民閱讀”,建設學習型社會。“avid”意為“熱衷的,熱切的”,用“avid readers” 體現全民閱讀的氛圍,以名詞化結構“a nation of avid readers”對“書香社會”進行意譯,傳達了豐富的內在含義,簡潔明了的表述也有助于語篇得到的銜接,體現了功能目的論的連貫法則。
五、結語
本文運用語料庫的研究方法,在德國功能目的論的研究視角下,對2015《報告》的中國文化負載詞進行了較為全面的英譯方法分析。中國文化的輸出,在很大程度上取決于翻譯工作的力量。(黃友義,2008:6-9)報告》的中國文化負載詞匯英譯需在“目的法則”的指導下,貼近中國發展的實際、貼近國外受眾對中國信息的需求、貼近國外受眾的思維習慣,(黃友義,2004:27-28)采用靈活多變的翻譯策略和翻譯方法,才能實現《報告》外宣目的,讓世界了解中國,向世界傳播中國的聲音。在當今的全球化語境下,本研究對提高中華文化軟實力和國際影響力、推動中華文化走向世界、增強中華文化在世界文化交流中的話語權、切實維護國家文化安全方面具有重要的現實意義。
【參考文獻】
[1] Nord,C.Translating as a Purposeful Activity Functionalist Approaches Explained[M].Manchester:St.Jerome Publishing,1997,7
[2]黃友義.堅持“外宣三貼近原則”處理好外宣翻譯中的難點問題[J].中國翻譯,2004(6):27-28
[3]黃友義.發展翻譯事業,促進世界多元化文化的交流與繁榮[J].中國翻譯,2008(4):6-9
[4]金惠康.漢英跨文化交際中的CHINA ENGLISH[J].廣東職業技術師范學院學報,2002(2):72-79
[5]李楠芳.《政府工作報告》英譯本的詞匯特征[J].湖北經濟學院學報,2012(11):110-112
[6]王惠.從目的論角度看《政府工作報告》的中譯英[D].北京:外交學院,2011.[7]王弄笙.十六大報告漢英翻譯的幾點思考[J].中國翻譯,2004(1):56-59
[8]汪榕培.中國英語是客觀存在[J].解放軍外語學院學報,1991(1):1-8
[9]王小萍.中國黨政熱點詞語英譯[M].廣州:廣東人民出版社,2006:109
[10]王銀泉.“福娃”的英譯之爭與文化負載詞的漢英翻譯策略[J].中國翻譯,2006(3):74-76
[11]楊原.有關中國特色的政治經濟詞匯的英譯[J].邵陽學院學報,2006,5(2):103-105
[12]張順生.談俗語“打鐵還須自身硬”的英譯[J].上海翻譯,2013(2):54-56.
第五篇:如何利用語料庫輔助語言教學與研究(BNC)
如何利用語料庫輔助語言教學與研究(BNC)
一、緒言
語料庫是專門用于語言材料檢索和統計的工具,包括為某一目的而收集的大量電子文本(加標注或未加標注)和專門的語料檢索和管理程序。其最大的特點是能快速提供大量真實的語言材料并進行相關統計(如詞頻和搭配詞等),已廣泛運用于詞典、教材、語法書和詞匯表等的編纂及語言研究中。然而,語料庫在日常外語課堂教學和學生自主學習中并沒有得到廣泛運用,至少在中國是如此。這一方面是由于對語料庫在教學中的運用缺乏有力推廣,加價格、市場等因素使得購買商用語料庫有難度,自己建設語料庫又需花費較大精力,另一方面人們對如何獲取網上免費語料庫資源缺乏了解。
語料庫在日常英語課堂教學和學生自主學習中能夠起到多種作用。作為一種高效的語言檢索工具,它所提供的大量真實語言實例能提示從構詞、詞短語到句法結構乃至語篇幾乎所有語言單位的語言生態(language ecology),包括語境、搭配規律、使用頻率、語義和語用等。語料庫的獲得和個人建設雖然面臨諸多困難,但幸運的是,開放的互聯網為廣大英語教師和英語學習者提供了接觸和使用語料庫的機會。
二、網絡語料庫的運用 1.英語單語語料庫
目前,語料庫運用于日常英語課堂教學的主要還是英語單語語料庫,互聯網上的情況也是如此。網上有許多大型通用語料庫(單語)提供在線檢索,其免費服務雖功能有所限制,但已能滿足中學英語教學和學生自主學習的需求。如1億詞次的英語國家語料庫(BNC)(http://view.byu.edu/)和5600萬詞次的柯林斯在線詞庫(Collins Wordbanks Online)(www.tmdps.cnbination),并能指定檢索詞詞性,功能強大,檢索方便,可在日常中學英語教學中加以運用。
1)提供語用實例
語料庫在線檢索在日常英語課堂教學中最常見的用途是提供大量典型語例。當傳統方法(如詞典)無法提供足夠的典型例句時就可檢索網上語料庫。如“wet”一詞語義很豐富,而其動詞用法在教學中關注不多,詞典也沒有提供足夠的語用信息。利用以上語料庫在線檢索(此處指柯林斯,檢索表達式為“wet/VERB”,詳細用法參見檢索頁使用說明),便可呈現它作動詞時的大量語用實例,下面是部分檢索行實例(concordance line)(經過整理):
Wet your face thoroughly before using the product.Yeah, They wet their pants and cry a lot.“[p]No.”She eased me, Sumner wet the bed every night.It would be impossible…
對于詞匯的某一具體用法,如該詞的“wet the / one’s bed”,詞典就更缺少語用信息。為了解其實際使用狀況,如語境、使用頻率等可用該結構做檢索詞進一步檢索,通過大量真實的語例使學習者感性地認識到本族語者確實廣泛地使用該用法,這能提高學習者語言輸出的信心和質量。下面是從柯林斯檢索獲取的部分例子:
(1)Even dry children may wet the bed under stress, like a change of school, a divorce or moving house.(2)1982 found that one-third of normal 3-year-olds still wet three or more times a week.2)揭示搭配規律
展示語言搭配規律是語料庫最主要的特色。搭配也是目前中學英語教學中常常被忽視的地方,這和教師對語言的認識、對搭配的敏感程度及自身擁有的搭配能力密切相關。語料庫的運用正好能提供大量的搭配信息,彌補英語非母語教師搭配能力的不足。其呈現形式也有助于提高教師和學生的搭配意識(collocational awareness)。從語料庫運用于語言教學的角度,最直接的方法是根據檢索詞的特點將檢索行排序以突顯檢索詞左邊或右邊的搭配規律(謝家成,2004)。不過,由于網上語料庫檢索行缺乏排序功能,可將檢索行拷貝下來進行手工整理歸納,限于篇幅,本文不便例示。
除了通過檢索行直接觀察語言實例以發現和歸納語言搭配外,利用語料庫提供的基于統計方法自動獲取的搭配詞也有助于搭配學習。最為有效的是一個稱為“詞語素描”(Word Sketches)的網站(www.tmdps.cne was high, say 90%, but the market went otherwise from your expectation? What did you do then? 2)Have you ever had a case where you did not know occurred and had to seek other’s advice? 搜索引擎不僅可用于揭示語言運用規律,也可用于查詢沒有把握的英語表達,觀察該表達是否被母語者廣泛使用。如漢語“小雨”,當不能肯定其對應英語表達是“small rain”或“light rain”,或者兩者皆可時,我們便可以在網上搜索。不過我們應充分認識到開放的互聯網語料庫自身的不足,為保證語料的可靠性,需要查看網址來源、文章作者等以判斷某一語料是否來自英語本族語者。當然,前文提到的網絡語料庫也可以用來驗證有疑問的英語表達,如“light rain”在BNC中檢索到47個語例,而“small rain”則只有一個語例,哪個更地道就顯而易見了。由此可見,專門的語料庫和直接利用網絡資源的開放語料庫各有優勢和局限,適合不同類型問題的查詢。一般在專門的語料庫無法滿足需要時,我們可求助規模更大的開放語料庫;二者也可相互補充。
四、結語
充分且真實地道的語言輸入是外語學習的重要條件,網上各種語料庫工具正是提供這種資源的有效途徑之一。這些豐富而典型的實例無論是教師歸納講解,或是課堂實時演示,或是改編成練習,或是學生自主檢索和探索學習,都能極大促進語言教學與學習效率,促進所學語言內化。由于語料庫的語料對中學生難免會有一些難度,教師對語例的選擇和歸納應是不可或缺的工作。教師和學習者均應具備強烈的語用實證意識,對任何語言疑難問題、語用和搭配規律等都應盡可能利用多種工具查詢,盡力尋求客觀而充分的解釋。
參考文獻:
1.Eastment, D.(2003)Googling.ELT Journal,(1): 91-94)2.謝家成“個人英語教學語料庫的運用”,《電化教學》2004年第2期