久久99精品久久久久久琪琪,久久人人爽人人爽人人片亞洲,熟妇人妻无码中文字幕,亚洲精品无码久久久久久久

國內語料庫建設一覽表

時間:2019-05-15 10:24:20下載本文作者:會員上傳
簡介:寫寫幫文庫小編為你整理了多篇相關的《國內語料庫建設一覽表》,但愿對你工作學習有幫助,當然你在寫寫幫文庫還可以找到更多《國內語料庫建設一覽表》。

第一篇:國內語料庫建設一覽表

類型

英語學習者語料庫(書面語及

口語)

平行語料庫

國內語料庫建設一覽表

語料庫名稱及大小

中國學習者語料庫 CLEC(100萬)大學英語學習者口語語料庫 COLSEC(5萬)

香港科技大學學習者語料庫 HKUST Learner Corpus

中國英語專業語料庫 CEME(148萬)中國英語學習者口語語料庫 SECCL(100萬)

LINSEI-China(10萬)

碩士寫作語料庫 MWC(12萬)

漢英平行語料庫 PCCE 南大-國關平行語料庫 英漢文學作品語料庫;

馮友蘭《中國哲學史》漢英對照語料庫

李約瑟(Joself Needham)《中國科學技術史》英漢對照語料庫

計算機專業的雙語語料庫;

柏拉圖(Plato)哲學名著《理想國》的雙語語料庫

英漢雙語語料庫(15萬對)

建設單位 廣外、上海交大 上海交大 香港科技大學 南京大學 南京大學 華南師大 華中科技大學

北外 南京大學

外研社 究所 中科院軟件所

國際外語學習者英語口語語料庫中國部分國家語言文字工作委員會語言文字應用研

英漢雙語語料庫:LDC香港新聞英漢雙語對齊語料36294段以及香港法律英漢雙語對齊語

特殊英語語料

漢語語料庫

料31萬句子對

英漢雙語語料庫(100萬),網上英漢語段電子詞典及網上電子英漢搭配詞典(1000萬)

英漢雙語語料庫(40-50萬句子對)

雙語語料庫(5萬多對)

對比語料庫 LIVAC(Linguistic variety in Chinese communities)平衡語料庫(Sinica Corpus);樹圖語料庫(Sinica Treebank)

中國英語(China English)語料庫

軍事英語語料庫(Corpus of Military Texts)

新視野大學英語教材語料庫

漢語現代文學作品語料庫(1979年,527萬字)

現代漢語語料庫(1983年,2000萬字)中學語文教材語料庫(1983年,106萬8000字)

現代漢語詞頻統計語料庫(1983年,182萬字)國家級大型漢語均衡語料庫(2000萬字)《人民日報》語料庫(2700萬字)大型中文語料庫(5億字,10分庫)

中國科學院自動化研究所

東北大學 哈爾濱工業大學 北京大學計算語言學研究所

香港城市理工大學

臺灣 河南師范大學

解放軍外語學院 上海交通大學 武漢大學 北京航空航天大學 北京師范大學 北京語言學院 國家語言文字工作委員會 北京大學計算機語言學研究所

北京語言文化大學

現代漢語語料庫(1億字)

漢語新聞語料庫;(1988年,250萬字)

標準語料庫(2000年,70萬字)

生語料庫(3000萬字);《作家文摘》的標注語料庫(100萬字)

現代自然口語語料庫

旅游咨詢口語對話語料庫和旅館預定口語對話語料庫

清華大學

山西大學

上海師范大學 中國科學院自動化所

中國社會科學院語言所

第二篇:國內各銀行收費情況一覽表

國內各銀行收費情況一覽表

國內各銀行收費情況一覽表

銀行異地存取款收費比較

牡丹靈通卡 中國工商銀行

異地ATM取款:異地本行ATM跨行取款每筆取款金額的1%,最低1元,最高50元;異地跨行ATM取款每筆手續費為2元+取款金額的1%,1%部分最低1元,最高50元; 異地存款手續費:按存款金額的0.5%收取手續費,最低1元,最高50元。

異地取款手續費:按取款金額的0.5%收取手續費,最低1元,最高50元。

龍卡儲蓄卡 中國建設銀行

異地ATM取款:異地本行ATM跨行取款每筆取款金額的1%,最低2元;異地跨行ATM取款每筆手續費為2元+取款金額的1%,1%部分最低2元;

異地存款手續費:按存款金額的0.5%收取手續費,最低2元,最高50元。

異地取款手續費:按取款金額的0.5%收取手續費,最低2元,不設上限。

一卡通 招商銀行

異地ATM取款:異地本行ATM跨行取款每筆取款金額的0.5%;異地跨行ATM取款每筆手續費為2元+取款金額的0.5%;

異地存款手續費:按存款金額的0.5%收取手續費。

異地取款手續費:按取款金額的0.5%收取手續費。

太平洋借記卡 交通銀行

異地ATM取款:異地本行ATM跨行取款每筆取款金額的0.8%;異地跨行ATM取款每筆手續費為2元+取款金額的0.8%;

異地存款手續費:存款金額的萬分之五,最低10元,最高50元

異地取款手續費:取款金額的1%,最低10元,最高100元

浦發銀行的東方儲蓄卡2007年以后收費標準:在全國任意一臺浦發銀行ATM機取款免費!在省內(包括本市范圍)任意一臺其它銀行ATM機取款收費標準:1000以內每筆2元,1000元以上免費!在省外任意一臺ATM機取款收費標準:千分之五,每筆最低五元,最高五十元!

深發展銀行卡本行異地取現交易金額的5%,同城跨行取現免費,異地跨行取現交易金額的5%+2元/筆,最低1元/筆

刷卡

無跨行之說,使用銀行卡在POS機上刷卡 無論同城 異地都不需要支付手續費的商家承擔所有手續費 商家需要支付銀行1%的手續費 如果商家以刷卡加收刷卡者手續費 您完全可以拒絕 然后打95516中國銀聯投訴熱線一經核實 銀聯會給以商家處罰 嚴重的可以吊銷其POS機

各大銀行收費標準

銀行名稱 開戶費 年費 掛失 密碼掛失 開辦或補換新卡

建設銀行 0元 10元 10元 10元 5元/卡

交通銀行 5元 10元 10元 不詳 5元/卡

招商銀行 0元 0元 10元 不詳 ———

深發行 10元 0元 5元 5元 5元/卡

浦發銀行 0元 0元 0元 不詳 ———

各大銀行異地存款收費標準

銀行名稱 每筆收費 最低收費 封頂收費

工商銀行 百分之一 1元 50元

建設銀行 千分之五 1元 50元

招商銀行 千分之五 5元 沒有

深發展 千分之一 5元 沒有

交通銀行 萬分之五 10元 50元

浦發銀行 免費 免費 免費

使用網上銀行收年費情況

工商銀行:有證書客戶每戶12元

建設銀行:36元/年

浦東銀行:暫時不收費

深圳發展銀行:免收費

注:工商銀行理財金賬戶客戶免收

目前,各銀行異地匯款通常都有兩種方式,一種是直接到銀行匯款的柜臺式匯款,一種則是通過網上銀行或電話銀行匯款。

中國工商銀行

手續費用:工商銀行提供兩種匯款方式,一是靈通卡匯款,手續費為匯款金額的1%,最低匯款手續費為1元,最高為50元。二是牡丹卡匯款,沒有匯款的手續費用。

網上銀行:每筆最低5元,最高為50元。

到賬時間:靈通卡匯款24小時內到賬,牡丹卡匯款3~5個工作日到賬。

建設銀行

手續費用:最低手續費1元,最高手續費為50元。

網上銀行:每筆最低1元,最高不超過30元。

電話銀行:每筆最低1元,最高不超過40元。

到賬時間:分兩種情況,如果匯款的銀行是在聯網城市,匯款后兩小時即可到賬;否則,需

3~5個工作日才能到賬。

交通銀行

手續費用:同行之間匯款,收取0.05%手續費,最低10元,最高50元;跨行匯款收1%的手續費,最高收取50元。

到賬時間:即時到賬。

招商銀行

手續費用:分為兩種,一種是快速匯款,最低手續費5元,超過1000元,按0.5%收取費用,適合l萬元以內匯款金額。另一種是電子匯款,最低手續費10元,匯款手續費為匯款金額的1%,最高為50元,適合1萬元以上匯款金額。

網上銀行:每筆收費5元,跨行匯款收費10元。

到賬時間:快速匯款即時到賬,電子匯款到賬時間為2~3個工作日。

國內銀行匯款比較

目前各銀行匯款通常都有兩種方式,一種是直接到銀行匯款的柜臺式匯款,一種則是通過網上銀行或電話銀行匯款。

招商銀行

手續費用:分為兩種,一種是快速匯款,最低手續費5元,超過1000元,按0.5%收取費用。適合1萬元以內匯款金額;另一種是電子匯款,最低手續費10元,匯款手續為匯款金額的1%,最高封頂手續費為50元,適合1萬元以上匯款金額。

到款時間:快遞匯款可以實時到賬;電子匯款到賬時間為2-3個工作日。

網上銀行:每筆收費5元。跨行匯款收費10元。

缺點:如果低于500元的匯款,與其他銀行相比費用最高。通過網上銀行匯款時,如接收方為同行匯款,需要點擊“同行速匯”,否則統一按10元收費。

建設銀行

手續費用:最低手續費1元,最高手續費為50元。

匯款方式:匯款方必須持有銀行卡。

到款時間:分為兩種情況,如果匯款的銀行是在聯網城市,匯款后2小時內即可到賬;如果匯款的銀行不在聯網城市,則需要3-5個工作日才能到賬。

網上銀行:每筆最低1元,最高不超過30元。

電話銀行:每筆最低1元,最高不超過40元。

缺點:在建行匯款,匯款方必須持有建行儲蓄卡方可匯款。如果沒有儲蓄卡,需要先花10元手續費辦理建行龍卡。盡管匯款最快在2個小時內即可到賬,但收款方當天無法查詢到賬明細。

工商銀行

手續費用:工商銀行提供兩種轉賬方式,一是靈通卡匯款,手續費為匯款金額的1%,最低匯款手續費為1元,最高為50元。二是牡丹卡匯款,沒有匯款的手續費用。

到賬時間:靈通卡匯款為24小時內到賬,牡丹卡匯款為3-5個工作日內到賬。網上銀行:每筆最低5元,最高為50元。

缺點:工商銀行通常人比較多,大中城市的工商銀行都需要排隊,辦理時間較長。網上銀行周末和節假日無法匯款。

交通銀行

手續費用:1000元以內收1%的手續費,1000元以上收10元的手續費。交通銀行最大的特點是可以自動在匯款中扣手續費,甚至可以匯款方、收款方分擔手續費。

到賬時間:實時到賬。

缺點:網點少。

工行異地存款手續費,牡丹靈通卡按金額的0.5%收取,最低1元,最高50元。“理財金賬戶”客戶異地存款免費。牡丹信用卡、貸記卡、國際卡不收取。異地取款手續費,按金額的1%收取,最低1元,最高50元。“理財金賬戶”客戶異地取現手續費優惠50%。目前個人網上銀行年費不收取。

電話銀行年費,各地區是否收取的情況不同,北京不收取。

工行匯款沒有“靈通卡匯款”和“牡丹卡匯款”的說法。牡丹信用卡、貸記卡異地無卡存款不收取手續費,1-2個工作日到賬。

轉賬匯款分為:

工行內轉賬匯款(有收款賬號),正常情況下資金實時到賬。

工行內轉賬匯款(無收款賬號):款項會在第二個工作日營業終了前,匯至匯款人指定的收款網點。

跨行轉賬匯款:正常情況下資金當日到收款銀行,具體到賬時間取決于收款行系統。轉賬匯款費用個人網上銀行與柜面是同一標準:

工行內轉賬匯款:同城業務不收費,異地業務按交易金額1%收費,單筆最低收取1元,最高收取50元。理財金賬戶的客戶,手續費可減免50%。

跨行轉賬匯款:本異地跨行轉賬匯款手續費均按交易金額1%收費,單筆最低收取1元,最高收取50元。

第三篇:初中英語作文語料庫

要求熟練掌握句式表達!!9月29日編輯完成。

寫作表達句式

1,I am a middle-school student.My dream is to enter into a better senior school.2,MY friend always encourage me to study hard.we are lonely and stressed out(我們很孤獨并且壓力大)4 we are short of parents’ care(我們缺乏父母的關心)5 I used to be poor in English but now I am always able to make full marks.我過去英語很差,但現在我能夠取得滿分

6,crossing road can be dangerous if we are not careful enough.如果我們不足夠小心,過馬路可能危險。7 waste water is used to water flowers。or computers are used to do a lot of things in daily life 廢水可以用來澆花。電腦可以用來做很多事情。(蘇文注意)

7,watching TV overly can be bad for our study if parents don’t limit screen time.如果父母不限制看電視時間過度看電視會對我們學習不利,8,as a teenager ,I always meet the same problems as you.here are some suggestions foryou 作為青少年,我常常遇到和你一樣的問題,這里一些建議給你。,as you know, our environment are becoming worse and worse nowadays 正如你所知,如今我們的環境正變得越來越差。

10.We should also never forget to turn off the lights when we leave the classrooms in order to save energy.What‘s more, it would be better if we walk or ride a bike to school.We should try our best to reduce pollution and waste.自行翻譯

1,the more I want to memorize the words, the more difficult I find it 十(也可以替換為the harder)

我想記得的單詞越多時,我發現這個過程更難.2.一些凳子是由木材做的,另一些是塑料做的。所有凳子在中國生產的。

Some chairs are made of wood, others are made of plastic.all chairs are made in china.2 to my joy(高興),my classmates always encourage me and give me a lot of help in study and life.(令我高興的是,我的朋友同學總是鼓勵我并且在我的學習生活方面給我足夠幫助)Our class is made up of six groups(如何組成的。班級分成6個小組)our school organize “hand –in-hand “activity to call on more people(students)to help lonely elders.學校組織手拉手活動呼吁更多學生幫助孤獨老年人、4,I WOULD like to visit the Great Wall.It is about more than 6500 kilometers long.It is so great.我想去游玩長城,她大概是6500長,如此宏觀。With the help of the Internet, shopping is not a difficult job.Just click your mouse to choose the article you like, and the shopping is finished.You needn't step out of the room.It seems easy and quick.在電腦幫助下,購物不是件困難的工作。只要一點鼠標去選擇自己喜歡的物品,整個購物過程就完成了。你不需要走出房間,這看起來簡單快速。6.he is more interested in sports than computer games.他對體育的興趣多余電腦游戲節目 a growing number of students have learned about the shortcomings of going on-line.越來越多的學生已經了解到上網的缺點

8There are many traditialfestivals in China, such as Spring Festival, Mid-Autumn Day and so on.在中國與許多節假日如春節,中求節等等including 老師們提醒我們過馬路時要小心

Our teachers always remind us to be careful when crossing the road 10 there are two sides to everything, and A is without exception(也可以替換為so is A)該句用于中間轉折,意思是凡事都有兩面性,A也是不例外(如此。

替換表達:Although there are many advantages ,its shortcomings can not be overlooked by us 盡管它有很多優點,但它的缺點不可以忽視,(這里用被動語態起強調作用)I have learned not only how to make friends but also how to talk to others during the learning process.我不僅學會了如何交朋友而且學會了如何與人交流 great changes have taken place in our hometown(china)我的家鄉發生巨大的變化(詞句用一般現在時也ok 3the life of people is much better than ever before(時態比較)人民的生活比曾經or過去好很多。

4we always waste water resource while millions of people in dry areas are in great need of water(while用法,用于兩者在同一件事情做對比)

我們總是浪費水資源而干旱地區成千上萬的人卻急需用水。

5there is a need for us to deal with the rubbish in cities and fight against the pollution 對于我們有必要處理城市垃圾,和與污染做斗爭。

6it is necessary /important /beneficial/difficult to do sth(必須、重要、有益、困難)都某件事 7.We should not cut down the trees because trees can clear air and also can better our environment.(另外一種表達:and this can …..)因為樹可以進化空氣而且改善我們環境,我們不可以砍樹。這里的better 是動詞詞性。I need to spend more time studying in order to come true my dream 替換:so that , 9 I plan to go swimming instead of going shopping this afternoon。我計劃去釣魚而不是去購物(替換詞匯rather than.)

10.we should not spit in a public place,we must pick up some rubbish andthrow it into a dustbin.If everyone makes contribution to protecting the environment, the world will become much more beautiful(學生自行翻譯。

第四篇:語料庫語言學綜合

語料庫語言學基礎知識

2008-09-11 01:45:34| 分類: 學術|舉報|字號 訂閱

語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經過科學選材和標注、具有適當規模的語料庫能夠反映和記錄語言的實際使用情況。人們通過語料庫觀察和把握語言事實,分析和研究語言系統的規律。語料庫已經成為語言學理論研究、應用研究和語言工程不可缺少的基礎資源。

語料庫有多種類型,確定類型的主要依據是它的研究目的和用途,這一點往往能夠體現在語料采集的原則和方式上。有人曾經把語料庫分成四種類型:(1)異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料;(2)同質的(Homogeneous):只收集同一類內容的語料;(3)系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一范圍內的語言事實;(4)專用的(Specialized):只收集用于某一特定用途的語料。除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的采集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關系,多用于機器翻譯、雙語詞典編撰等應用領域,后者將表述同樣內容的不同語言文本收集到一起,多用于語言對比研究。

語料庫建設中涉及的主要問題包括:

(1)設計和規劃:主要考慮語料庫的用途、類型、規模、實現手段、質量保證、可擴展性等。

(2)語料的采集:主要考慮語料獲取、數據格式、字符編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。

(3)語料的加工:包括標注項目(詞語單位、詞性、句法、語義、語體、篇章結構等)標記集、標注規范和加工方式。

(4)語料管理系統的建設:包括數據維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標注、文本分割、合并、標記處理等)、用戶功能(查詢、檢索、統計、打印等)。

(5)語料庫的應用:針對語言學理論和應用領域中的各種問題,研究和開發處理語料的算法和軟件工具。

我國語料庫的建設始于80年代,當時的主要目標是漢語詞匯統計研究。進入90年代以后,語料庫方法在自然語言信息處理領域得到了廣泛的應用,建立了各種類型的語料庫,研究的內容涉及語料庫建設中的各個問題。90年代末到新世紀初這幾年是語料庫開發和應用的進一步發展時期,除了語言信息處理和言語工程領域以外,語料庫方法在語言教學、詞典編纂、現代漢語和漢語史研究等方面也得到了越來越多的應用。

語料庫與語言信息處理有著某種天然的聯系。當人們還不了解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基于規則的(Rule-based)。對于用規則無法表達或不能涵蓋的語言事實,計算機就很難處理。語料庫出現以后,人們利用它對大規模的自然語言進行調查和統計,建立統計語言模型,研究和應用基于統計的(Statistical-based)語言處理技術,在信息檢索、文本分類、文本過濾、信息抽取等應用方向取得了進展。另一方面,語言信息處理技術的發展也為語料庫的建設提供了支持。從字符編碼、文本輸入和整理,語料的自動分詞和標注,到語料的統計和檢索,自然語言信息處理的研究都為語料的加工提供了關鍵性的技術。

下面先簡要敘述1998年到2003年中國語料庫建設的基本情況,然后介紹語料庫的加工、管理和規范問題,最后談談語料庫方法在語言研究和語言工程等方面的應用。由于以前的《中國語言學年鑒》很少談及語料庫問題,為了盡可能全面地反映我國語料庫研究和應用的情況,必要時會將時間上限向前延伸幾年。

二 中國語料庫建設的基本情況

90年代末到新世紀初這幾年投入建設或開始使用的語料庫有數十個之多,不同的應用目的使這些語料庫的類型各不相同,對語料的加工方法也各不相同。下面是其中已開始使用并且具有一定代表性的語料庫。

(一)現代漢語通用語料庫

這是一個由國家語言文字工作委員會主持建立、面向全社會應用需求的大型通用語料庫,從90年代初開始建設,計劃規模7000萬字,主要應用目標是語言文字信息處理、語言文字規范和標準的制定、語言文字的學術研究、語文教育、以及語言文字的社會應用。

這個語料庫收錄的語料以書面語為主、以書面語轉述的口語為輔。語料來源是1919年至今,主要是1977年至今出版的教材、報紙、綜合性刊物、專業刊物和圖書。在設計原則上,講求通用性、描述性、實用性和抽樣的科學性。在語料分類方面,以“門類為主,語體為輔”為原則制定三個大類:

第一類:人文與社會科學類(包括8個次類、30個細類)1.政法類: 哲學 政治 宗教 法律 2.歷史類: 歷史 考古 民族

3.社會類: 社會學 心理 語言文字 教育 文藝理論 新聞 民俗

4.經濟類: 工業經濟 農業經濟 政治經濟 財貿經濟 5.藝術類: 音樂 美術 舞蹈 戲劇

6.文學類: 小說 散文 傳記 報告文學 科幻 口語 7.軍體類: 軍事 體育 8.生活類

第二類:自然科學類(包括6個次類)1.數理類 2.生化類 3.天文地理類 4.海洋氣象類 5.農林類 6.醫藥衛生類

第三類:綜合類(包括6個次類,30多個細類)

1.行政公文類: 請示 報告 批復 命令 指示 布告 紀要 通知等

2.章程法規類: 章程 條例 細則 制度 公約 辦法 法律條文等 3.司法文書類: 訴訟 辯護詞 控告信 委托書等 4.商業文告類: 說明 廣告 調查報告 經濟合同等

5.禮儀辭令類: 歡迎詞 賀電 訃告 唁電 慰問信 祝酒詞等 6.實用文書類: 請假條 檢討 申請書 請愿書等

在不同類別、不同來源、不同時期的語言材料中,按照不等密度的思路確定合適的語料選取比例,從共時和歷時兩個角度保證入選語料的平衡性,是這個語料庫的特點。譬如,在語言材料的年限方面,選材比例是:

1919年 – 1925年 5% 1926年 – 1949年 15% 1950年 – 1965年 25% 1966年 – 1976年 5% 1977年以后 50% 在語言材料的門類、語體和來源方面,選材比例是:

人文與社會科學類占59.6%。其中各個次類在本大類中的比例是:

政法 12.7% 歷史 8.4% 社會 14.0% 經濟 9.8% 藝術 6.7% 文學 44.9% 軍體 2.3% 生活 1.4% 自然科學類占17.24%。其中各個次類在本大類中的比例是:

數理 17.2% 生化 19.1% 天文地理 14.1% 海洋氣象 9.1% 農林 22.8% 醫藥衛生 17.7% 綜合類占9.36%。其中各個次類在本大類中的比例是:

各類應用文 91.1% 其他 8.9% 報紙類占13.79%。其中各個次類在本大類中的比例是: 全國性報刊 25% 省市報刊 75% 這個語料庫在選材過程中收集和記錄語料的有關描述信息,為每個語料樣本設立了20個描述項目:總號、分類號、樣本名稱、類別、作者、寫作時間、書刊名稱、編著者、出版者、出版日期、期號(版面號)、版次(初版日期)、印冊數、總頁數、開本、選樣方式、樣本起止頁數、樣本字數、樣本總數、繁簡字。用戶可以利用這些語料描述標記根據各自的需要進行各種方式的檢索。語料庫的建庫工作分為兩步,第一步先建立核心語料庫(由7000萬字的語料中篩選出2000萬字語料組成)。到90年代末,完成了2000萬字生語料的收錄工作。從2001年開始,對2000萬字核心語料進行分詞和詞性標注加工。

(二)《人民日報》標注語料庫

《人民日報》標注語料庫由北京大學計算語言學研究所和日本富士通公司合作,從1999年開始,到2002年完成,原始語料取自1998年全年的《人民日報》,共約2700萬字,到2003年又擴充到3500萬字,是我國第一個大型的現代漢語標注語料庫。這個語料庫加工的項目有詞語切分和詞性標注,還有專有名詞(人名、地名、團體機構名稱等)標注、語素子類標注、動詞、形容詞的特殊用法標注和短語型標注。下面是一段語料標注的示例,對于1998年1月1日第5版第1篇文章的第11段:

我國的國有企業改革見成效。位于河南的中國一拖集團有限責任公司面向市場,積極調整產品結構,加快技術改造和新產品研制步伐。圖為東方紅牌履帶拖拉機生產線。(趙鵬攝)

標注后的形式是:

19980101-05-001-011/m 我國/n 的/u 國有/vn 企業/n 改革/v 見/v 成效/n。/w 位于/v 河南/ns 的/u [中國/ns 一拖/j 集團/n 有限/a 責任/n 公司/n]nt 面向/v 市場/n,/w 積極/ad 調整/v 產品/n 結構/n,/w 加快/v 技術/n 改造/vn 和/c 新/a 產品/n 研制/vn 步伐/n。/w 圖/n 為/v 東方紅牌/nz 履帶/n 拖拉機/n 生產線/n。/w(/w 趙/nr 鵬/nr 攝/Vg)/w 在每一個切分出來的詞和標點符號后面,是該詞語的標記。譬如詞性標記(n,v,a,u,m,w等),專有名詞標記(nr,ns,nz等),語素子類標記(Vg等),動詞和形容詞特殊用法標記(vn,ad)。所有的標記都是以北京大學的《現代漢語語法信息詞典》為基礎詞庫,在一個加工規范的指導下標注的。

利用《人民日報》標注語料庫,人們可以從各個角度考察和分析語言事實,統計各種語言單位出現的頻率,譬如,詞語或詞類的分布、搭配和共現,專有名詞的結構方式、兼類詞在句子中的表現,語素字的使用情況,等等。也可以從語料里提取各種語言單位或語句片段作為研究實例。與僅僅以漢字串的形式表示的“生語料”相比,經過標注的“熟語料”顯然含有更多的語言學特征信息,對漢語詞匯研究、語法研究和漢語信息處理系統來說是更好的語言知識資源。

《人民日報》標注語料庫中一半的語料(1998年上半年)共1300萬字已經通過《人民日報》新聞信息中心公開提供許可使用權。其中一個月的語料(1998年1月)近200萬字在互聯網上公布,供自由下載。

(三)用于語言教學和研究的現代漢語語料庫

建立現代漢語語料庫的主要目的之一是對外漢語教學和現代漢語研究,可以分為書面語語料庫和以文本形式表示的口語語料庫兩類。前者如北京語言大學的漢語中介語語料庫、現代漢語研究語料庫,后者如中國社會科學院語言研究所的北京地區現場即席話語語料庫。

漢語中介語語料庫的建設目標是為對外漢語教學、中介語研究、偏誤分析和漢語本體研究提供資源,因此它的語料來源很有對外漢語教學的特點。作者先在北京和其他省市的9所高等院校里,從來自96個國家和地區的1635位外國留學生那里收集了成篇成段的漢語作文或練習材料5774篇,共3528988字。再從中抽取了740人的1731篇語料,共有44218句,1041274字。全部語料都記錄了學生姓名、性別、年齡、國別、是否華裔、第一語言、文化程度、所學主要教材、語料類別、寫作時間、提供者等23項屬性。然后對這104萬字的語料進行詞語切分、詞性標注以及一些專用的語言學特征標注。例如,標出了字、詞、句、篇等不同的層次,對語料的非規范形式(例如:錯字、別字、繁體字、拼音字、非規范詞等)做出索引標記,記錄其對應的規范形式。這個語料庫的管理系統有語篇屬性登錄、文本過濾、文字預處理信息登錄、語料抽樣、斷句、分詞、詞性輔助標注、自動標注以及語料的主題檢索、全文檢索和數據瀏覽等各種功能,分別處理語料庫的建立、管理和維護,以及用戶瀏覽、查詢和檢索等。與人工收集的學生病句卡片資料相比,中介語語料庫能夠更好地反映學生學習漢語的情況,幫助教師更加全面地觀察他們的學習過程,了解影響學習和習得的各種因素。在漢語作為第二語言的教學中,為教材編寫、課堂教學、測試等環節提供依據。

現代漢語研究語料庫的建設目標是為語言學家提供一個研究平臺,由2000萬字的粗語料庫和200萬字經過分詞和詞性標注的精語料庫兩個部分組成。粗語料庫收錄的語料樣本中絕大部分是九十年代的出版物,有《人民日報》1000萬字,《中國新聞》500萬字,各種書籍250萬字,文學作品150萬字,準口語材料(書面形式的對話、獨白)100萬字。精語料庫的200萬字語料樣本是從粗語料庫中按照規定的比例由計算機隨機抽取的,有書面語語料160萬字,準口語語料40萬字,是從語體、題材、體裁三個方面均衡選取的平衡語料庫。為了對這些語料進行詞語切分和詞性標注,作者制定了詞語切分的細則和詞性標記體系的原則,采用了一個含有112個詞類標記的標記集,確定了兼類詞的處理方法。這個語料庫的管理系統具有建庫、檢索、瀏覽、統計、輸出等功能,可以按詞或詞類檢索,統計出詞的頻率、詞類頻率、詞類共現頻率、平均詞長、平均句長等結果。這個語料庫建成以后,很快應用在現代漢語語法、漢語教學和漢語信息處理的研究中,研究內容涉及現代漢語的插入語、漢語句子的主題-主語標注、V+N序列實驗分析、詞性標注中詞語歸類問題、動賓組合的自動獲取與標注,等等。

建設北京地區現場即席話語語料庫的目的是,通過收集大量的現場即席話語語料研究現場即席話語的各種動態機制,以揭示現場即席話語的使用規律。這個語料庫的研究策略和取樣方法很有特點,首先是嚴格區分資源庫和語料庫,資源庫收集符合現場即席話語定義的錄音材料,語料庫收錄按照一定標準從資源庫提取出來的材料;另外在語料采樣前先做摸底性研究,通過研究對現場即席話語的真實情況有所了解,確定取樣域,再定取樣范疇,然后根據取樣范疇去錄現場典型材料,這是一種層次范疇化的取樣方法。這個語料庫目前正在建設之中,已經取得了近600小時的錄音材料和50多小時的錄象材料。

在用于漢語研究的語料庫中,講究選材均衡,注重語料加工,同時也提供公開服務的,當數臺灣中央研究院歷史語言研究所的現代漢語平衡語料庫(簡稱Sinica Corpus)。這個語料庫的規模為500萬個詞,每個句子都依詞斷開,標示詞類標記,并且配備了檢索系統,在網上開放供大家使用。根據自己制定的一套漢語文本屬性特征為語料分類,在不同的類別上盡量均衡地采集語料,是這個語料庫的特點之一。文本屬性用來說明文檔的呈現方式、文章的寫作方式、文章寫作的內容和文檔的來源出處,包括7類,每類下設若干小類:

文類(文檔的呈現方式)

報導、評論、廣告圖文、信函、公告啟事、小說故事寓言、散文、傳記日記、詩歌、語錄、說明手冊、劇本、會話、演講、會議記錄 文體(文章的寫作方式)記敘、論說、說明、描寫 語式(文檔的呈現方式)

書面語、演講稿、劇本/臺辭、口語談話、會議記錄 主題(文章寫作的內容)

哲學、科學、社會、藝術、生活、文學

媒體 報紙、一般雜志、學術期刊、教科書、工具書、學術論著、一般圖書、書信、視聽媒體、其它

作者 姓名、性別、國籍、母語

出版 出版單位、出版地、出版日期、版次

不同研究目的的語言學者可以自己按語式、文體、媒體和主題的小類選取不同類別的語料,組成“自訂語料庫”,在“自訂語料庫”的范圍內進行語料的檢索和統計。除了通常的按詞語、詞類的檢索和統計以外,這個語料庫的管理系統還提供了一種“進階處理”功能,對檢索出來的數據作進一步處理,對處理的結果還可以再次處理,形成多層的檢索結果。

(四)面向語言信息處理的現代漢語語料庫

90年代中后期,面向語言信息處理的現代漢語語料庫開始建立并投入應用。其中最早開發的是清華大學用于研究和開發漢語自動分詞技術的現代漢語語料庫,經過幾年的積累已達到8億多字生語料。在這個語料庫的支持下,用統計語言模型的方法研究了漢語自動分詞中的理論、算法和技術,編制了總數為9萬多個詞語的《信息處理用現代漢語分詞詞表》。這些研究工作體現了我國漢語自動分詞技術的發展水平,詞表被許多漢語自動分詞系統作為底表使用,是不可缺少的基礎資源。

TH通用語料庫系統是清華大學建立的另一個現代漢語語料庫。這個語料庫有兩個特點,一是語料庫管理系統根據不同的加工深度,分四個等級管理語料。第一級是生語料分庫,有4千余萬字;第二級以上都是加工程度不同的熟語料庫,其中第二級存放經過自動分詞并由人工校對過的初加工語料500余萬字;第三級存放經過詞性標注和人工校對的語料約300萬字;第四級是經過句子成分標注和人工校對的語料。每個分庫又按語料的來源分成一般書籍、報紙、雜志、論文和工具書五類子庫。不同等級的語料可以為不同的應用目標服務。第二個特點是在這個語料庫的支持下,進行了漢語信息處理技術的研究。譬如,采用以謂語為中心的句型成分分析與語料統計相結合的方法,自動分析漢語的句型,提出了一個“漢語句型頻度表”;在漢語文本中自動標注句子成分和句型成分的邊界;根據指定的句型在語料庫里搜尋句子實例,等等。

HuaYu人工標注語料庫是清華大學和北京語言大學合作建立的一個現代漢語平衡語料庫。這個語料庫按文學、新聞、學術、應用文四個大類收錄了200余萬字語料。它的特點是講究加工的深度,除了詞語切分和詞性標注以外,還根據語句中動詞的類型和句子的長度進行“語塊”標注和“句法樹”標注,目的是為建立漢語短語分析或句法分析的語言模型獲取統計數據提供資源。下面分別是語塊標注和句法樹標注的示例。

對句子“自古以來,人類就重視檔案的保存和利用,設置館庫、選派專人進行管理。”進行語塊標注以后得到的是一個無嵌套的線性序列,其中S是主語語塊,P是述語語塊,O是賓語語塊: [D 自/p 古/t 以來/f,/, [S 人類/n [D 就/d [P 重視/v [O 檔案/n 的/u 保存/vN 和/c 利用/vN,/, [P 設置/v [O 館庫/n、/、[P 選派/v [O 專人/n [P 進行/v [O 管理v。

對句子“我哥哥送給我一本很漂亮的書。”進行句法樹標注以后,得到的是一個與樹形結構等價的線性序列:

[ zj-XX [ dj-ZW [ np-DZ我/ rN 哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 給/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 書/n ] ] ] ]。/w ]

(五)用于開發特定語言分析技術的專用語料庫

這類語料庫是針對漢語信息處理技術的需要專門建立的。例如山西大學的專有名詞標注語料庫和分詞與詞性標注語料庫。

分詞與詞性標注語料庫,規模為500萬字,帶有分詞標記、詞性標記和句法標記。標注時依據《信息處理用現代漢語分詞規范》和《信息處理用現代漢語詞類及標記集規范》。在這個語料庫的支持下,開發漢語自動分詞和詞性標注軟件,研究自動分詞和詞性標注的評測技術。為了解決漢語自動分詞中的切分歧義問題,還建立了交集型歧義字段庫和組合型歧義字段庫,專門收集這兩種類型的歧義切分實例。前者有7.8萬字,后者收錄了140多條。并且在分詞和詞性標注語料庫里作了這兩類切分歧義的標注。利用這些語料調查交集型歧義當中的“偽歧義”現象(既切分結果只可能有唯一選擇的那些交集型歧義切分字段),發現這種現象在歧義切分字段中很普遍,可以達到90%以上。

專有名詞標注語料庫用于研究漢語自動分詞中專有名詞的識別算法。其中包括標注了中國地名的語料280萬字,標注了中國人姓名的語料300萬字,標注了西文姓名的語料250萬字,標注了漢語機構名稱的語料50萬字,還有標注了網絡新詞語的語料150萬字。利用這些語料,建立了中國地名用字、用詞庫,姓氏人名庫,姓氏用字頻率表,名字用字頻率表等,用統計語言模型的方法識別專有名詞。

(六)雙語語料庫

基于實例的機器翻譯(Example-based)需要大規模的雙語平行語料庫來支持。語料庫里的源語和目標語實例要按照相同級別的翻譯單位一一對齊。目前已有的雙語平行語料庫主要是漢語和英語的,語料對齊的單位有句子級的、子句級的、短語級的,也有詞匯級的。機器翻譯系統把要翻譯的句子與語料庫里的源語實例進行對比,分析相似程度,找到最適合的源語實例,再參照與它對齊的目標語實例生成譯文。用于這類機器翻譯系統的雙語語料庫必須有一定的規模,用人工做語料對齊的工作顯然很難滿足要求。這就使文本自動對齊成為建立雙語語料庫的關鍵技術。

在目前已有的雙語語料庫中,哈爾濱工業大學的漢英平行語料庫已經直接用來開發英漢雙向機器翻譯系統。這個語料庫有6萬個漢語和英語的句子,使用多級對齊加工技術,分別按照句子、短語結構和詞一一對齊。中國科學院計算技術研究所的漢英雙語語料庫有20萬個句對,也完成了句子一級的對齊,并在網上提供查詢服務。北京大學、中國科學院軟件研究所等單位也建立了按句對齊的漢英雙語語料庫。除此之外,還有以語段或短語為單位收集的漢英雙語語料庫,譬如中國科學院自動化研究所的漢英雙語短語庫,有3~5萬對已對齊的漢語和英語短語。東北大學的英漢雙語語段庫,用來幫助建立電子版的英漢搭配詞典。

(七)面向漢語史研究的語料庫

面向漢語史研究的語料庫建設是從搜集漢語史文獻資料開始的。臺灣中央研究院歷史語言研究所從90年代初期就開始了這項工作,他們先收集上古漢語的語料,然后擴展到中古漢語和近代漢語。90年代中后期逐步開始上古漢語語料和近代漢語的標注,在該院信息研究所和計算中心的協助下進行標注技術和檢索技術的開發。根據是否經過分詞處理和詞性標注,臺灣中央研究院的古漢語語料庫和近代漢語語料庫可以分成兩類:生語料庫和標記語料庫。目前生語料庫收集的語料已涵蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)的大部分重要文獻資料,并己陸續開放使用。在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注工作,也逐步提供網上檢索。2001年底,開放了近代漢語標記語料庫WWW版供各界使用,首先提供查詢的文獻是《紅樓夢》及《三遂平妖傳》。在查詢方面,除了常用的功能以外,還可以在顯示詞項及詞類的同時給出例句的出處,便于歷史語法的研究者使用。

多年來中國社會科學院語言研究所也一直在致力于文獻資料的建設,搜集整理了近代漢語書面語語料150萬字,中古近代漢語語料約1千萬字,部分語料已作了標注。目前已經完成了一個小型語料庫,包括:敦煌變文集、祖堂集、三朝北盟匯編、碧巖錄、朱子語類、劉知遠諸宮調、西廂記諸宮調、元刊全相平話五種、元典章 刑部、老乞大諺解、樸通事諺解、孝經直解、魯齋遺書、經筵講義等十余種文獻,成為漢語史和語言學理論研究的重要資源。此外,語言研究所的先秦專書電子文檔有4部文獻,共約120萬字,并且已由古漢語學者逐篇逐句標注了語法信息。

上海師范大學、浙江師范大學、四川大學等學校也依據各自漢語史研究的方向,建立了歷史文獻語料庫。四川大學的中古漢語語料庫有1億字的中古漢語語料和有關中古漢語研究的資料。浙江師范大學的楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫,已用于“前四史”語言研究和唐宋詩詞語詞研究。

目前歷史文獻語料庫建設的特點是依托學科建設和研究方向,廣泛收集資料,注重校勘精審。隨著漢語史研究和語料庫應用的發展,資源共享和語料加工將得到越來越多的重視。歷史文獻資源共享,首先要避免語料的重復收集,還要采用國際通用的標準處理語料文本,使語料能夠準確、方便地交換和使用。語料加工則是充分發掘語料應用價值的基礎工作,從收集歷史文獻的電子文檔,到建成一個具有必要的語言學標記信息、合理的邏輯結構和方便的檢索功能的語料庫,語料的加工是不可或缺的一步。

(八)比較語料庫

為了研究漢語在不同地區的使用情況,香港城市大學建立了LIVAC共時語料庫(Linguistic Variation in Chinese Speech Communities)。語料來自香港、臺灣、北京、上海、澳門及新加坡六地有代表性的中文報紙,以及電子媒介上的新聞報道。自1995年7月開始,每四天一次,收集這六個地區的對等書面語文本,每次約兩萬字。內容包括新聞、特寫、評論等文章。到2003年上半年,已收集了1億1千多萬字、超過56萬個詞條。計劃收集到2005年6月,囊括新舊世紀交接點前后各五年各地華語社區有代表性的重要語言數據,供漢語的各種共時比較研究使用。

在語料的組織和加工方面,這個語料庫用計算機自動分詞,再經人工校對分類,可以依字、詞、句為基礎進行檢索,提供字、詞配搭、分布等數據,有統計功能。語言學家能通過這個語料庫考察上述六地出現的新詞、詞義有所發展或轉移的舊詞、以及有地方特色的詞語,還可以對具體字或詞的頻率作統計比較,對字詞的差別作計量分析。對研究華人社區的文化、社會、語言差異也有作用。這個語料庫的一部分已經在網上提供服務。

(九)少數民族語言語料庫

新疆大學從2002年起開始建設現代維吾爾語語料庫系統,計劃包括5個部分:語料庫、電子語法信息詞典、規則庫、統計信息庫和檢索統計軟件包。其中語料庫部分又分成生語料庫(經初步整理的原始語料)和加工語料庫(經過標注和校對的語料)。目前已有生語料800萬詞。另外,新疆大學也正在以新聞領域的維漢-漢維機器翻譯為目標,建設雙語平行語料庫。內蒙古大學的中世紀蒙古文語料庫收集了《元朝秘史》、《黃金史》、《回鶻蒙古文文獻集》等歷史文獻。他們還建立了500萬詞的現代蒙古語語料庫,研究了蒙古文附加成分的自動切分、復合詞的自動識別和語料的詞性標注,獲得了詞頻統計、音節統計、詞類統計、附加成分統計等數據。西北民族大學建立了1億3千萬字節的大型藏文語料庫,用于藏文詞匯頻度和通用度的統計。中國社會科學院民族學與人類學研究所建立了500萬藏語字符的藏語語料庫,進行詞語切分和標注的研究。新疆師范大學也建立了200萬詞的維吾爾語語料庫。

與漢語語料庫相比,少數民族語料庫的建設還需要解決一些特殊的問題,譬如拼音文字轉寫的標準和規范,詞語分類體系及其標記集等。

到2003年,已建和在建的各種文本語料庫還有很多(包括書面語語料庫和以文本形式表示的口語語料庫),以上提到的只是有代表性的一部分。與文本語料庫相對的,是語音語料庫。語音語料庫不僅記錄語圖、聲學參數等語音學數據,還有句法、韻律等各種語言學信息標記和副語言學信息標記,可以在語音識別與合成系統中用來建立語音模型,用于語音研究、語音工程開發和漢語普通話教學等領域。語音技術是當前信息技術和通訊領域里最具潛力的發展方向之一,語音語料庫在科研和工程上有很高的使用價值。關于語音語料庫的詳細情況,請見“語音學和言語工程研究綜述”。

三 語料庫的加工、管理和規范

(一)語料的加工

一個計算機語料庫的功能主要與三個因素有關,一是語料庫的規模,二是語料的分布,三是語料的加工程度。規模的大小關系到統計數據是否可靠,語料的分布涉及統計結果的適用范圍,語料加工的深度則決定這個語料庫能為使用者提供什么樣的語言學信息。

加工語料主要指文本格式處理和文本描述兩項工作,前者是對采集的語料文本進行整理,轉成統一的電子文本格式,例如數據庫格式、XML文本格式等。后者是描述每一篇語料樣本的屬性或特征,包括篇頭描述和篇體描述。篇頭描述說明整篇語料樣本的屬性,例如語體、內容所屬的領域、作者、寫作時間、來源出處等等,篇體描述是在文本里添加各種語言學屬性標記,對于漢語書面語語料庫來說,常見的是詞語切分標記、詞性標記、專有名詞標記,還有某些語法特征如短語標記、子句標記,或語義信息標記,等等。對漢語書面語語料的加工一般是從詞語切分、詞性標注,到語法、語義屬性標注,按順序進行。標注的信息逐步增多,語料加工的深度也就逐漸增加。人們通常把沒有篇體描述信息的語料叫做生語料。對漢語的生語料只能以字為單位進行檢索和統計。經過詞語切分處理的語料,就能以詞為單位進行檢索、統計和定量分析。如果還作了詞性標記,那么可以獲得的語言學信息就更多了。語料的標注如果由人來做,當然能夠保證準確性,但是人工標注對處理大規模的語料顯然不夠現實。所以幾乎每一個大規模語料庫的加工都需要借助自動化的手段,詞語自動切分、詞性自動標注等就成為備受關注的語料加工技術。

自動分詞是我國最早開始研究的漢語信息處理技術之一。語料庫的建設開始以后,自動分詞技術在語料加工中又得到了應用和發展。自動分詞和詞性自動標注一般都需要一個詞典,作為分詞和詞性標注的基礎。這個詞典與常用的語文詞典相比,收錄的詞目不大一樣,包括了語言學家認可的詞,以及一些比詞小的單位(如語素字、詞綴等)和一些比詞大的單位(如成語、習語、簡稱略語等)。詞典中也包括詞類信息和其他語法信息。目前的自動分詞技術是基于字符串匹配原理的,有正向最大匹配、逆向最大匹配等基本算法。在切分過程中會出現歧義現象,如何處理歧義是自動分詞研究的重點之一,在這方面投入的研究也最多,先后提出了“短語結構法”、“專家系統法”、“隱馬爾科夫模型”、“串頻統計和詞匹配”等辯識歧義的方法。識別未登錄詞是自動分詞研究的第二個重點。未登錄詞指沒有被分詞底表收錄的詞語,包括人名、地名、機構名等專有名詞和新出現的詞語。對未登錄詞的識別一般以基于語料庫的統計語言模型方法為主。

詞性自動標注通常與自動分詞同時進行,根據帶有詞類信息的分詞詞典,給切分出來的詞語標上初始的詞類標記。對于兼類詞,必須在句子里判斷類別。因此需要分析兼類詞語在上下文中的分布特點和語法功能,并用形式化的方式表達出來,作為詞性標注系統排除兼類的規則。近年來,已經有幾個自動分詞和詞性自動標注系統投入了應用,其中北京大學用自己研制的系統為《人民日報標注語料庫》做分詞和詞性標注的初加工,北京語言大學的自動分詞系統也成為其《面向語言教學研究的漢語語料檢索系統》中的關鍵技術。此外,經過十幾年的研究和實踐,2001年發布了收錄9萬多詞語的《信息處理用現代漢語分詞詞表》和《現代漢語詞類及標記集規范》。對于1993年制定的國家標準《信息處理用現代漢語分詞規范》的可操作性問題,也進行了積極的討論和實驗,提出了有效的解決方法。關于自動分詞和詞性自動標注的詳細情況,請見“計算語言學和自然語言信息處理研究綜述”。

經過分詞的語料,除了標注詞性以外,還可以進一步標注其他語言學屬性,譬如韻律、語調、短語結構、句法結構、語義關系等等。句子的語法結構需要有形式化的方式來表達,大多數語料庫或者采用短語結構樹,或者采用依存語法樹的方式,這樣標注過的語料庫就成為短語樹庫或句法樹庫。一般情況下,在詞性標注的基礎上再作進一步的語法標注加工,多以人工為主,也有關于自動短語定界和句法信息自動標注的研究和實驗。目前已有的漢語短語庫、句法樹庫規模都不大,至多百萬詞級。

在雙語語料庫的建設中,除了上述語料加工項目以外,還有一項不可缺少的語料加工任務:雙語語料對齊。語料對齊分為段落、句子、子句、短語和詞語幾個不同的層次。如果考慮用計算機程序做自動對齊,不同的層次要解決的問題各不相同。每種語言的段落都有可識別的標志,因此段落的對齊最容易實現,句子的對齊在印歐語言之間比它們和漢語之間要容易,詞語的對齊需要借助詞典,句子內的各種結構要自動對齊則是最難的。目前雙語自動對齊技術的研究主要是針對句子和句子內的結構,采用的方法有基于長度的、基于詞典的,或者是這兩種方法的混合策略。

(二)語料庫管理系統

經過科學選材和標注、具有適當規模的語料庫,還應該有一個功能齊備的管理系統,包括數據維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標注、文本分割、合并、語料對齊、標記處理等)、用戶服務功能(查詢、檢索、統計、打印等)。其中數據維護部分主要涉及漢字字符處理、文本處理、文件管理等計算機程序設計技術。語料自動加工部分的主要內容是自動分詞、各種語言學屬性的標注技術,已經在前面專門介紹過了。這里主要談談面向用戶的語料檢索、統計和分析技術。

語料檢索是一種全文檢索技術,但是也有自己的特點,僅用普通的全文檢索技術還不能滿足語料檢索的需要。這是因為,全文信息檢索關心的是檢索目標的意義,不是檢索目標的語言表述形式。而面向語言研究的語料檢索則特別注重語言的表述形式,它既需要按照字、字串和詞檢索,也需要把詞語的語言學屬性作為檢索的目標和約束條件,還要求把檢索的結果或目標的出處按照研究的需要排序、輸出。除此之外,還要有字頻、詞頻和特定語言形式出現頻率的統計功能。

對漢語生語料的檢索和統計是以字或字串為單位進行的。這一類檢索系統主要以單字索引和字符串匹配為關鍵技術,由于把詞語當作字串來檢索,所以檢索結果中經常出現“非詞”的問題。例如要查找“出警”,檢索結果中除了“迅速出警”、“拒絕出警”、“出警次數”等實例以外,“發出警告”、“放出警犬”等也混在其中。為了解決這些問題,常常需要為字符串匹配的檢索表達式另外設置限制條件。這些限制條件大多是個性的,只能排除一部分“非詞”的實例。要想從根本上解決這個問題,就必須對語料作詞語切分。經過詞語切分處理的熟語料,能以詞為單位進行檢索、統計和定量分析。但是熟語料庫的加工代價很高,而且對于語料的詞語切分和詞性標注,目前還沒有既成熟又便于操作的規范,所以近年來,面向生語料庫的檢索技術一直在廣泛應用,并且在用戶功能方面不斷發展。譬如,可以對用戶給出的任何生語料快速生成索引;可以使用具有復合邏輯關系的檢索表達式;可以按照漢字、拼音、筆畫對檢索結果的上下文自動排序;可以提供檢出實例的來源、出處;可以按字頻統計的數據排序;檢索結果和統計結果既可以按文本形式輸出,也可以按數據庫形式輸出;還可以通過網絡支持多用戶遠程檢索。

對于經過詞語切分處理和詞性標注的熟語料庫,除了所有生語料的檢索功能以外,語料檢索系統還可以把詞語或詞性作為檢索的關鍵字或限制條件,得到關于這些語言學屬性的檢索和統計結果,并按各種排序和輸出形式的提供給用戶。語言學屬性來自語言學家對漢語的研究,研究過程中有各種觀點和認識,從詞的定義到詞類的確定,一直還沒有統一的意見。另一方面,人們檢索語料時的目的也各不相同,有的關心詞匯問題,有的關心語法現象,還有的目標是漢語信息處理的應用問題。因此對于熟語料庫檢索來說,一個好的檢索系統應該能夠包容各種不同的語言學觀點,可以用于不同的檢索目的。

為了做到這一點,通常采用的辦法是,把用于語料庫自動分詞的底表和附著于底表的詞性、構詞等屬性都看作語言學屬性表,使這個屬性表與檢索系統的程序相互獨立,檢索系統只把屬性標記作為抽象的字符串處理,而把建立屬性表的工作交給用戶。以北京語言大學的《面向語言教學研究的漢語語料檢索系統》為例,它的自動分詞詞表、詞屬性集和每個詞的屬性標記都由用戶提供,提供的方式是把詞目和它的屬性標記登記在數據庫里。檢索系統使用用戶提供的這個屬性表對生語料自動分詞,并生成索引,供給用戶檢索。檢索系統對屬性表沒有任何限制,規模可大可小,表中的詞目也可以跟通常認為的詞沒有關系,屬性可以是語法的,也可以是構詞的、語義的、語音的,等等。這樣用戶就能根據自己的需要檢索和研究各種字串在語料中的表現。

把語料加工技術集成在檢索系統里面,是語料庫檢索系統的另一個特點。語料加工技術一般指詞語自動切分和詞性自動標注。在北京語言大學的語料檢索系統中,未登錄詞的自動識別技術比較有特點。它可以識別各種數字串、中西人名、中西地名、機構名、后綴短語等,并為它們建立索引,供用戶檢索和統計。

(三)語料庫的規范問題

語料庫的規范問題主要是對語料加工而言的。漢語語料庫首先遇到的規范問題是詞語切分。我國90年代初發布了國家標準《信息處理用現代漢語分詞規范》(標準號為GB/T13715-92)。這個規范基本上采用《暫擬漢語教學語法系統》中的觀點,把詞定義為“最小的獨立運用的語言單位”。針對漢語語素、詞和詞組界限不夠清晰的問題,還特別提出了“分詞單位”的概念。把“分詞單位”定義成“漢語信息處理使用的具有確定的語義或語法功能的基本單位”,并且用“結合緊密、使用穩定”的原則作為判斷分詞單位的標準。這樣做的目的是避免關于如何界定詞的爭論。但是“結合緊密、使用穩定”的原則缺少可操作性,對于自動分詞研究中的具體問題常常難有定論。于是就有了根據規范制定一個詞表,用“規范+詞表”的辦法指導分詞的建議。這樣在90年代中期和末期,分別提出了收詞43570條的《信息處理用現代漢語常用詞表》和收詞9萬多條的《信息處理用現代漢語分詞詞表》。其中后者是在8億字的大規模語料庫支持下,采用“串頻”、“互信息”、“相關度”等計算統計方法,依據定量的數據分析結果辨識“分詞單位”的。與此同時,語言學家也參與了制定這個詞表的工作,他們提出的各種語言學規則,從定性分析的角度與統計數據相互作用,最后經過人工審定,確定了92843個詞目,其中一級常用詞56606個,二級常用詞36237個,成為目前許多自動分詞系統使用的詞表。

90年代中期,臺灣的計算語言學會也提出了一個《資訊處理用中文分詞規范》。這個規范有三條基本原則,一是分詞單位必須符合語言學理論的要求;二是在信息處理上切實可行;三是能夠確保真實文本處理的一致性。它把分詞規范分成信、達、雅三個不同的等級,“信”級是基本資料交換的標準,“達”級是機器翻譯、情報檢索等自然語言處理的標準,“雅”級則是分詞的最好結果。這樣可以根據不同的應用目的做難易程度不同的分詞處理。

詞語切分以后,下一個規范問題就是詞性標注。經過十多年的詞性標注研究和實踐,教育部語言文字應用研究所于2001年提出了《信息處理用現代漢語詞類標記集規范》。這個規范吸收了語言學家的研究成果,也兼顧了已有的各個用于語言信息處理的詞類系統,制定了標記現代漢語書面語詞類的符號集,使各種漢語信息處理應用系統能夠盡量使用統一的詞類標記,有助于信息交換和資源共享。

標注短語和句子結構是語料庫進一步深加工的內容,雖然目前尚處于起步階段,但已經在標注的同時考慮了規范的問題。清華大學提出的《漢語句子的句法樹標注規范》,主要包括句法標記集的內容描述、句法樹的劃分規定、歧義結構的處理、結構分析的方向性等問題。上海師范大學根據自己制定的《漢語文本短語結構人工標注規范》,對100萬字的1997年《讀者文摘》進行了分詞、詞性標注和人工標注短語的試驗。哈爾濱工業大學采用包含23個短語符號的標記集合,開發了一個8000個句子的漢語樹庫。清華大學還建立了一個基于語義依存關系的語料庫,也涉及到標注體系的選擇和標注關系集的確定。這些工作規模都不大,在規范方面還處于各自為政的狀態。隨著語料的進一步深入加工,統一規范將成為不可避免的問題。

北京大學的《人民日報》標注語料庫是目前規模最大的漢語基本標注語料庫。在它的開發過程中,各種加工規范起了關鍵的作用。在這些加工規范中,有詞語的切分規范,主要規定把句子的漢字串形式切分為詞語序列的原則;有現代漢語詞類及標記集規范,規定切分出來的詞語、短語、標點符號的類別和標識符號;有切分和標注相結合的規范,規定語素構成合成詞的方式(重疊、附加和復合);有標注規范,規定詞性標注與詞庫的關系,主要解決如何在上下文環境里確定兼類詞的詞性;還有收詞7萬余條的詞庫《現代漢語語法信息詞典》。加工大規模的語料是一項浩大的語言工程。語料標注的準確性和一致性需要靠完善、合理的詞庫和嚴謹、實用的加工規范來保證。《人民日報》標注語料庫的加工規范和《現代漢語語法信息詞典》是語言學家和信息處理專家合作,在漢語語法研究的理論和方法指導下,根據漢語信息處理的實際需要制定和開發的。在標注大規模語料的實踐中,又得到了驗證和完善。

除了語料加工以外,語料庫還應該在語料的采集和存儲格式上有所規范。對于平衡語料庫來說,采集規范主要是為了保證語料的平衡性,而類別分布和時間分布是語料平衡的兩大要素。每個語料庫都要對語料進行分類,分類的原則各不相同。有的根據內容涉及的主題分類,有的根據語體分類。在眾多平衡語料庫當中,臺灣中央研究院的現代漢語平衡語料庫的分類標準很值得注意。這個語料庫的研制者認為,用傳統的文體單一特征來界定平衡語料庫不足以反映影響整個語言全貌的內在因素。因此他們采用的是多重分類原則:把所有語料都標上五個不同特征的值:(1)文類(2)文體(3)語式(4)主題(5)媒體。利用以主題為主的五個特征的多重分類來進行語料庫的平衡。這樣做還使研究者能夠任選其中幾個特征的組合,定義自己的次語料庫(sub-corpora),也可以在次語料庫間作比較研究。另外,多重分類原則也有利于以后平衡語料庫的更新。語料存儲格式的規范一般指采用統一的編碼規范為電子文本作標記,目前可擴充置標語言XML被廣泛地用作語料庫標注的元語言,存儲格式的標準化有助于語料的交換和共享。

四 語料庫在語言研究中的的應用

在語言研究中,語料庫方法是一種經驗的方法,它能提供大量的自然語言材料,有助于研究者根據語言實際得出客觀的結論,這種結論同時也是可觀測和可驗證的。在計算機技術的支持下,語料庫方法對語言研究的許多領域產生了越來越多的影響。各種為不同目的而建立的語料庫可以應用在詞匯、語法、語義、語用、語體研究,社會語言學研究,口語研究,詞典編纂,語言教學以及自然語言處理、人工智能、機器翻譯、言語識別與合成等領域。我國在語料庫的應用上還處于起步階段,在計算語言學和語言信息處理領域,語料庫主要用來為統計語言模型提供語言特征信息和概率數據,在語言研究的其他領域,多使用語料的檢索和頻率統計結果。

語料庫與自然語言信息處理有著相輔相成的關系,大規模的語料庫是用統計語言模型方法處理自然語言的基礎資源。然而統計語言模型本身并不關心其建模對象的語言學信息,它關心的只是一串符號的同現概率。譬如N元語法模型,它只關心句子中各種單元(比如字、詞、短語等)近距離連接關系的概率分布,而對于許多復雜的語言現象,它就無能為力了。在統計語言建模技術最先得到成功應用的自動語音識別領域,語料庫的開發和建設受到格外的重視,標注語料庫成為不可缺少的系統資源,就是因為,要想改進N元語法的建模技術,必須利用語料庫引入更多的語言特征信息和統計語言數據。同樣,在書面語語言信息處理領域里,語料庫提供的語言知識也越來越多地用在統計語言模型方法中。除了詞語自動切分、詞性自動標注、雙語語料對齊等語料加工技術以外,人們還在語料庫的支持下,建立有關語法、語義的語言知識庫,開發信息抽取系統、信息檢索系統、文本分類和過濾系統,并且把基于統計或實例的分析技術集成到機器翻譯系統里面。

近年來在語料庫的支持下,從信息處理的角度研究漢語詞匯、語法和語義問題的報告也日漸增多。這些研究包括:根據逐詞索引作漢語詞義的調查;對詞語搭配進行計量分析;利用量詞--名詞的搭配數據研究漢語名詞分類問題;進行現代漢語句型的統計和研究;做短語自動識別(例如基本名詞短語、動賓結構)和自動句法分析的試驗;研究在句子里為詞語排除歧義的算法;分析和統計漢語詞語重疊結構的深層結構類型及產生方式;等等。

對于詞匯學、語法學、語言理論、歷史語言學等研究來說,語料庫的作用目前大多還是通過語料檢索和頻率統計,幫助人們觀察和把握語言事實,分析和研究語言的規律。語料庫方法的發展會使這種僅起輔助作用的手段逐步變成必備的應用資源和工具。利用語料庫,人們可以把指定的語法現象加以量化,并且檢測和驗證語言理論、規則或假設。

在少數民族語言和方言調查研究方面,比較有代表性的工作是“藏緬語語料庫及比較研究的計量描寫”。它建立了我國境內藏緬語族五大語支82個語言點16萬詞條的詞匯語音數據庫,對藏語方言的音節、音位、聲母、韻母、聲詞、詞素、構詞能力和語音結構等10余項特征作了分布和對比分析。對藏語15個方言點作了語音對應關系和音系對比關系的量化描述,并且在這個基礎上做出具有歷時和共時比較研究意義的相關分析,得出了語言分類的相關矩陣和聚類分析圖表。

在應用語言學領域,詞典編纂和語言教學同是語料庫的最大受益者。目前已有多部詞典在編纂或修訂過程中,不同程度地使用語料庫或電子文檔收集詞語數據,用于收詞、釋義、例句、屬性標注等。南京大學近年來開發了NULEXID語料庫暨雙語詞典編纂系統,涉及英漢兩種語言,在《新時代英漢大詞典》的編纂過程中起了重要作用。從詞典編纂的整體情況看,我們還缺少充分的語料資源和有效的分析工具,很多有意義的事情還做不了。譬如,分析語料中顯現的詞語搭配現象,利用語料庫進行詞語意義辨析,在動態的語料庫中輔助提取新詞語,等等。把語料庫用于語言教學的一個例子是上海交通大學的JDEST英語語料庫,利用這個語料庫,通過語料比較、統計、篩選等方法為中國大學英語教學提供通用詞匯和技術詞匯的應用信息,為確定大學英語教學大綱的詞表提供了可靠的量化依據。這個語料庫也在英語語言研究中發揮了作用,支持基于語料庫的英語語法的頻率特征、語料庫驅動的詞語搭配等項研究。2003年,中國學習者英語語料庫由上海外語教育出版社正式發行。這個語料庫是一個100多萬詞的書面英語語料庫,涵蓋我國中學生、大學英語4級和6級、英語專業低年級和高年級的學習內容,并對所有的語料作了語法標注和言語失誤標注。根據這個語料庫得到了詞頻排列表、拼寫失誤表、詞目表、詞頻分布表、語法標注頻數表、言語失誤表等,還把這些數據與一些英語本族語語料庫(如BROWN,LOB,FROWN,FLOB)進行了某些比較。這個語料庫為詞典編纂、教材編寫和語言測試提供了必要的資源。目前上海交通大學正在建設大學英語學習者口語英語語料庫。

在幾年來語料庫建設和應用的基礎上,2003年國家“973”計劃開始支持中文語言資源聯盟(Chinese Linguistic Data Consortium,簡稱ChineseLDC)的建立。ChineseLDC是吸收國內高等院校、科研機構和公司參加的開放式語言資源聯盟。其目的是建成能代表當今中文信息處理水平的、通用的中文語言信息知識庫。ChineseLDC將建設和收集中文信息處理所需要的各種語言資源,包括詞典、語料庫、數據、工具等。在建立和收集語言資源的基礎上,分發資源,促成統一的標準和規范,推薦給用戶,并且針對中文信息處理領域的關鍵技術建立評測機制,為中文信息處理的基礎研究和應用開發提供支持。

幾年來在計算語言學和語言信息處理領域的學術會議上,語料庫的建設和應用一直是重要論題之一。討論的重點集中在基于語料庫的語言分析方法,以及語料的標注、管理和規范等問題上。語言學家更多關心的是語料庫的規劃和建設,語料庫方法在語言研究和教學中的應用。近年來語言學界也召開有關語料庫的專門學術會議,譬如2001年由中國社會科學院語言研究所主辦、在清華大學召開的語料庫語言學與計算語言學研究與實踐研討會(主要討論了語料庫的建設和應用、語言信息處理等問題);2003年由上海交通大學等單位主辦、在上海交通大學召開的語料庫語言學國際研討會(會議主題是語料庫研究與外語教學)。

第五篇:語料庫研究綜述

語料庫研究與應用綜述

目錄 一概述

二中國語料庫建設的基本情況 三語料庫的加工、管理和規范 四語料庫在語言研究中的的應用 五參考文獻

語料庫研究與應用綜述

一概述

語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體。經過科學選材和標注、具有適當規模的語料庫能夠反映和記錄語言的實際使用情況。人們通過語料庫觀察和把握語言事實,分析和研究語言系統的規律。語料庫已經成為語言學理論研究、應用研究和語言工程不可缺少的基礎資源。

語料庫有多種類型,確定類型的主要依據是它的研究目的和用途,這一點往往能夠體現在語料采集的原則和方式上。有人曾經把語料庫分成四種類型:(1)異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料;(2)同質的(Homogeneous):只收集同一類內容的語料;(3)系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一范圍內的語言事實;(4)專用的(Specialized):只收集用于某一特定用途的語料。除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的采集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關系,多用于機器翻譯、雙語詞典編撰等應用領域,后者將表述同樣內容的不同語言文本收集到一起,多用于語言對比研究。

語料庫建設中涉及的主要問題包括:

(1)設計和規劃:主要考慮語料庫的用途、類型、規模、實現手段、質量保證、可擴展性等。

(2)語料的采集:主要考慮語料獲取、數據格式、字符編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。

(3)語料的加工:包括標注項目(詞語單位、詞性、句法、語義、語體、篇章結構等)標記集、標注規范和加工方式。

(4)語料管理系統的建設:包括數據維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標注、文本分割、合并、標記處理等)、用戶功能(查詢、檢索、統計、打印等)。

(5)語料庫的應用:針對語言學理論和應用領域中的各種問題,研究和開發處理語料的算法和軟件工具。

我國語料庫的建設始于80年代,當時的主要目標是漢語詞匯統計研究。進入90年代以后,語料庫方法在自然語言信息處理領域得到了廣泛的應用,建立了各種類型的語料庫,研究的內容涉及語料庫建設中的各個問題。90年代末到新世紀初這幾年是語料庫開發和應用的進一步發展時期,除了語言信息處理和言語工程領域以外,語料庫方法在語言教學、詞典編纂、現代漢語和漢語史研究等方面也得到了越來越多的應用。

語料庫與語言信息處理有著某種天然的聯系。當人們還不了解語料庫方法的時候,在自然語言理解和生成、機器翻譯等研究中,分析語言的主要方法是基于規則的(Rule-based)。對于用規則無法表達或不能涵蓋的語言事實,計算機就很難處理。語料庫出現以后,人們利用它對大規模的自然語言進行調查和統計,建立統計語言模型,研究和應用基于統計的(Statistical-based)語言處理技術,在信息檢索、文本分類、文本過濾、信息抽取等應用方向取得了進展。另一方面,語言信息處理技術的發展也為語料庫的建設提供了支持。從字符編碼、文本輸入和整理,語料的自動分詞和標注,到語料的統計和檢索,自然語言信息處理的研究都為語料的加工提供了關鍵性的技術。

下面先簡要敘述1998年到2003年中國語料庫建設的基本情況,然后介紹語料庫的加工、管理和規范問題,最后談談語料庫方法在語言研究和語言工程等方面的應用。由于以前的《中國語言學年鑒》很少談及語料庫問題,為了盡可能全面地反映我國語料庫研究和應用的情況,必要時會將時間上限向前延伸幾年。

二中國語料庫建設的基本情況

90年代末到新世紀初這幾年投入建設或開始使用的語料庫有數十個之多,不同的應用目的使這些語料庫的類型各不相同,對語料的加工方法也各不相同。下面是其中已開始使用并且具有一定代表性的語料庫。

(一)現代漢語通用語料庫

這是一個由國家語言文字工作委員會主持建立、面向全社會應用需求的大型通用語料庫,從90年代初開始建設,計劃規模7000萬字,主要應用目標是語言文字信息處理、語言文字規范和標準的制定、語言文字的學術研究、語文教育、以及語言文字的社會應用。

這個語料庫收錄的語料以書面語為主、以書面語轉述的口語為輔。語料來源是1919年至今,主要是1977年至今出版的教材、報紙、綜合性刊物、專業刊物和圖書。在設計原則上,講求通用性、描述性、實用性和抽樣的科學性。在語料分類方面,以“門類為主,語體為輔”為原則制定三個大類:

第一類:人文與社會科學類(包括8個次類、30個細類)

1.政法類:哲學政治宗教法律

2.歷史類:歷史考古民族

3.社會類:社會學心理語言文字教育文藝理論新聞民俗

4.經濟類:工業經濟農業經濟政治經濟財貿經濟

5.藝術類:音樂美術舞蹈戲劇

6.文學類:小說散文傳記報告文學科幻口語

7.軍體類:軍事體育

8.生活類

第二類:自然科學類(包括6個次類)

1.數理類

2.生化類

3.天文地理類

4.海洋氣象類

5.農林類

6.醫藥衛生類

第三類:綜合類(包括6個次類,30多個細類)

1.行政公文類:請示報告批復命令指示布告紀要通知等

2.章程法規類:章程條例細則制度公約辦法法律條文等

3.司法文書類:訴訟辯護詞控告信委托書等

4.商業文告類:說明廣告調查報告經濟合同等

5.禮儀辭令類:歡迎詞賀電訃告唁電慰問信祝酒詞等

6.實用文書類:請假條檢討申請書請愿書等 在不同類別、不同來源、不同時期的語言材料中,按照不等密度的思路確定合適的語料選取比例,從共時和歷時兩個角度保證入選語料的平衡性,是這個語料庫的特點。譬如,在語言材料的年限方面,選材比例是:

1919年– 1925年

5%

1926年– 1949年

15%

1950年– 1965年

25%

1966年– 1976年

5%

1977年以后

50%

在語言材料的門類、語體和來源方面,選材比例是:

人文與社會科學類占59.6%。其中各個次類在本大類中的比例是:

政法

12.7%

歷史

8.4%

社會

14.0%

經濟

9.8%

藝術

6.7%

文學

44.9%

軍體

2.3%

生活

1.4%

自然科學類占17.24%。其中各個次類在本大類中的比例是:

數理

17.2%

生化

19.1%

天文地理

14.1%

海洋氣象

9.1%

農林

22.8%

醫藥衛生

17.7%

綜合類占9.36%。其中各個次類在本大類中的比例是:

各類應用文

91.1%

其他

8.9%

報紙類占13.79%。其中各個次類在本大類中的比例是:

全國性報刊

25%

省市報刊

75%

這個語料庫在選材過程中收集和記錄語料的有關描述信息,為每個語料樣本設立了20個描述項目:總號、分類號、樣本名稱、類別、作者、寫作時間、書刊名稱、編著者、出版者、出版日期、期號(版面號)、版次(初版日期)、印冊數、總頁數、開本、選樣方式、樣本起止頁數、樣本字數、樣本總數、繁簡字。用戶可以利用這些語料描述標記根據各自的需要進行各種方式的檢索。語料庫的建庫工作分為兩步,第一步先建立核心語料庫(由7000萬字的語料中篩選出2000萬字語料組成)。到90年代末,完成了2000萬字生語料的收錄工作。從2001年開始,對2000萬字核心語料進行分詞和詞性標注加工。

(二)《人民日報》標注語料庫

《人民日報》標注語料庫由北京大學計算語言學研究所和日本富士通公司合作,從1999年開始,到2002年完成,原始語料取自1998年全年的《人民日報》,共約2700萬字,到2003年又擴充到3500萬字,是我國第一個大型的現代漢語標注語料庫。這個語料庫加工的項目有詞語切分和詞性標注,還有專有名詞(人名、地名、團體機構名稱等)標注、語素子類標注、動詞、形容詞的特殊用法標注和短語型標注。下面是一段語料標注的示例,對于1998年1月1日第5版第1篇文章的第11段:

我國的國有企業改革見成效。位于河南的中國一拖集團有限責任公司面向市場,積極調整產品結構,加快技術改造和新產品研制步伐。圖為東方紅牌履帶拖拉機生產線。(趙鵬攝)

標注后的形式是:

19980101-05-001-011/m 我國/n 的/u 國有/vn企業/n 改革/v 見/v 成效/n。/w 位于/v 河南/ns 的/u [中國/ns 一拖/j 集團/n 有限/a 責任/n 公司/n]nt面向/v 市場/n,/w 積極/ad 調整/v 產品/n 結構/n,/w 加快/v 技術/n 改造/vn和/c 新/a 產品/n 研制/vn步伐/n。/w 圖/n 為/v 東方紅牌/nz履帶/n 拖拉機/n 生產線/n。/w(/w 趙/nr 鵬/nr 攝/Vg)/w

在每一個切分出來的詞和標點符號后面,是該詞語的標記。譬如詞性標記(n,v,a,u,m,w等),專有名詞標記(nr,ns,nz等),語素子類標記(Vg等),動詞和形容詞特殊用法標記(vn,ad)。所有的標記都是以北京大學的《現代漢語語法信息詞典》為基礎詞庫,在一個加工規范的指導下標注的。

利用《人民日報》標注語料庫,人們可以從各個角度考察和分析語言事實,統計各種語言單位出現的頻率,譬如,詞語或詞類的分布、搭配和共現,專有名詞的結構方式、兼類詞在句子中的表現,語素字的使用情況,等等。也可以從語料里提取各種語言單位或語句片段作為研究實例。與僅僅以漢字串的形式表示的“生語料”相比,經過標注的“熟語料”顯然含有更多的語言學特征信息,對漢語詞匯研究、語法研究和漢語信息處理系統來說是更好的語言知識資源。

《人民日報》標注語料庫中一半的語料(1998年上半年)共1300萬字已經通過《人民日報》新聞信息中心公開提供許可使用權。其中一個月的語料(1998年1月)近200萬字在互聯網上公布,供自由下載。

(三)用于語言教學和研究的現代漢語語料庫

建立現代漢語語料庫的主要目的之一是對外漢語教學和現代漢語研究,可以分為書面語語料庫和以文本形式表示的口語語料庫兩類。前者如北京語言大學的漢語中介語語料庫、現代漢語研究語料庫,后者如中國社會科學院語言研究所的北京地區現場即席話語語料庫。

漢語中介語語料庫的建設目標是為對外漢語教學、中介語研究、偏誤分析和漢語本體研究提供資源,因此它的語料來源很有對外漢語教學的特點。作者先在北京和其他省市的9 所高等院校里,從來自96個國家和地區的1635位外國留學生那里收集了成篇成段的漢語作文或練習材料5774篇,共3528988字。再從中抽取了 740人的1731篇語料,共有44218句,1041274字。全部語料都記錄了學生姓名、性別、年齡、國別、是否華裔、第一語言、文化程度、所學主要教材、語料類別、寫作時間、提供者等23項屬性。然后對這104萬字的語料進行詞語切分、詞性標注以及一些專用的語言學特征標注。例如,標出了字、詞、句、篇等不同的層次,對語料的非規范形式(例如:錯字、別字、繁體字、拼音字、非規范詞等)做出索引標記,記錄其對應的規范形式。這個語料庫的管理系統有語篇屬性登錄、文本過濾、文字預處理信息登錄、語料抽樣、斷句、分詞、詞性輔助標注、自動標注以及語料的主題檢索、全文檢索和數據瀏覽等各種功能,分別處理語料庫的建立、管理和維護,以及用戶瀏覽、查詢和檢索等。與人工收集的學生病句卡片資料相比,中介語語料庫能夠更好地反映學生學習漢語的情況,幫助教師更加全面地觀察他們的學習過程,了解影響學習和習得的各種因素。在漢語作為第二語言的教學中,為教材編寫、課堂教學、測試等環節提供依據。

現代漢語研究語料庫的建設目標是為語言學家提供一個研究平臺,由2000萬字的粗語料庫和200萬字經過分詞和詞性標注的精語料庫兩個部分組成。粗語料庫收錄的語料樣本中絕大部分是九十年代的出版物,有《人民日報》1000萬字,《中國新聞》500萬字,各種書籍250萬字,文學作品150萬字,準口語材料(書面形式的對話、獨白)100萬字。精語料庫的200萬字語料樣本是從粗語料庫中按照規定的比例由計算機隨機抽取的,有書面語語料160萬字,準口語語料40萬字,是從語體、題材、體裁三個方面均衡選取的平衡語料庫。為了對這些語料進行詞語切分和詞性標注,作者制定了詞語切分的細則和詞性標記體系的原則,采用了一個含有112個詞類標記的標記集,確定了兼類詞的處理方法。這個語料庫的管理系統具有建庫、檢索、瀏覽、統計、輸出等功能,可以按詞或詞類檢索,統計出詞的頻率、詞類頻率、詞類共現頻率、平均詞長、平均句長等結果。這個語料庫建成以后,很快應用在現代漢語語法、漢語教學和漢語信息處理的研究中,研究內容涉及現代漢語的插入語、漢語句子的主題-主語標注、V+N序列實驗分析、詞性標注中詞語歸類問題、動賓組合的自動獲取與標注,等等。

建設北京地區現場即席話語語料庫的目的是,通過收集大量的現場即席話語語料研究現場即席話語的各種動態機制,以揭示現場即席話語的使用規律。這個語料庫的研究策略和取樣方法很有特點,首先是嚴格區分資源庫和語料庫,資源庫收集符合現場即席話語定義的錄音材料,語料庫收錄按照一定標準從資源庫提取出來的材料;另外在語料采樣前先做摸底性研究,通過研究對現場即席話語的真實情況有所了解,確定取樣域,再定取樣范疇,然后根據取樣范疇去錄現場典型材料,這是一種層次范疇化的取樣方法。這個語料庫目前正在建設之中,已經取得了近600小時的錄音材料和50多小時的錄象材料。

在用于漢語研究的語料庫中,講究選材均衡,注重語料加工,同時也提供公開服務的,當數臺灣中央研究院歷史語言研究所的現代漢語平衡語料庫(簡稱Sinica Corpus)。這個語料庫的規模為500萬個詞,每個句子都依詞斷開,標示詞類標記,并且配備了檢索系統,在網上開放供大家使用。根據自己制定的一套漢語文本屬性特征為語料分類,在不同的類別上盡量均衡地采集語料,是這個語料庫的特點之一。文本屬性用來說明文檔的呈現方式、文章的寫作方式、文章寫作的內容和文檔的來源出處,包括7類,每類下設若干小類:

文類(文檔的呈現方式)

報導、評論、廣告圖文、信函、公告啟事、小說故事寓言、散文、傳記日記、詩歌、語錄、說明手冊、劇本、會話、演講、會議記錄 文體(文章的寫作方式)

記敘、論說、說明、描寫

語式(文檔的呈現方式)

書面語、演講稿、劇本/臺辭、口語談話、會議記錄

主題(文章寫作的內容)

哲學、科學、社會、藝術、生活、文學

媒體報紙、一般雜志、學術期刊、教科書、工具書、學術論著、一般圖書、書信、視聽媒體、其它

作者姓名、性別、國籍、母語

出版出版單位、出版地、出版日期、版次

不同研究目的的語言學者可以自己按語式、文體、媒體和主題的小類選取不同類別的語料,組成“自訂語料庫”,在“自訂語料庫”的范圍內進行語料的檢索和統計。除了通常的按詞語、詞類的檢索和統計以外,這個語料庫的管理系統還提供了一種“進階處理”功能,對檢索出來的數據作進一步處理,對處理的結果還可以再次處理,形成多層的檢索結果。

(四)面向語言信息處理的現代漢語語料庫

90年代中后期,面向語言信息處理的現代漢語語料庫開始建立并投入應用。其中最早開發的是清華大學用于研究和開發漢語自動分詞技術的現代漢語語料庫,經過幾年的積累已達到8億多字生語料。在這個語料庫的支持下,用統計語言模型的方法研究了漢語自動分詞中的理論、算法和技術,編制了總數為9萬多個詞語的《信息處理用現代漢語分詞詞表》。這些研究工作體現了我國漢語自動分詞技術的發展水平,詞表被許多漢語自動分詞系統作為底表使用,是不可缺少的基礎資源。

TH通用語料庫系統是清華大學建立的另一個現代漢語語料庫。這個語料庫有兩個特點,一是語料庫管理系統根據不同的加工深度,分四個等級管理語料。第一級是生語料分庫,有4千余萬字;第二級以上都是加工程度不同的熟語料庫,其中第二級存放經過自動分詞并由人工校對過的初加工語料500余萬字;第三級存放經過詞性標注和人工校對的語料約300萬字;第四級是經過句子成分標注和人工校對的語料。每個分庫又按語料的來源分成一般書籍、報紙、雜志、論文和工具書五類子庫。不同等級的語料可以為不同的應用目標服務。第二個特點是在這個語料庫的支持下,進行了漢語信息處理技術的研究。譬如,采用以謂語為中心的句型成分分析與語料統計相結合的方法,自動分析漢語的句型,提出了一個“漢語句型頻度表”;在漢語文本中自動標注句子成分和句型成分的邊界;根據指定的句型在語料庫里搜尋句子實例,等等。

HuaYu人工標注語料庫是清華大學和北京語言大學合作建立的一個現代漢語平衡語料庫。這個語料庫按文學、新聞、學術、應用文四個大類收錄了200余萬字語料。它的特點是講究加工的深度,除了詞語切分和詞性標注以外,還根據語句中動詞的類型和句子的長度進行“語塊”標注和“句法樹”標注,目的是為建立漢語短語分析或句法分析的語言模型獲取統計數據提供資源。下面分別是語塊標注和句法樹標注的示例。

對句子“自古以來,人類就重視檔案的保存和利用,設置館庫、選派專人進行管理。”進行語塊標注以后得到的是一個無嵌套的線性序列,其中S是主語語塊,P是述語語塊,O是賓語語塊:

[D 自/p 古/t 以來/f,/, [S 人類/n [D 就/d [P 重視/v [O 檔案/n 的/u 保存/vN和/c 利用/vN,/, [P 設置/v [O 館庫/n、/、[P 選派/v [O 專人/n [P 進行/v [O 管理v。

對句子“我哥哥送給我一本很漂亮的書。”進行句法樹標注以后,得到的是一個與樹形結構等價的線性序列:

[ zj-XX [ dj-ZW [ np-DZ我/ rN哥哥/n ] [ vp-PO [ vp-PO [ vp-SB送/v 給/v ] 我/rN ] [ np-DZ [ mp-DZ 一/m 本/qN ] [ np-DZ [ ap-ZZ很/d 漂亮/a ] 的/u 書/n ] ] ] ]。/w ]

(五)用于開發特定語言分析技術的專用語料庫

這類語料庫是針對漢語信息處理技術的需要專門建立的。例如山西大學的專有名詞標注語料庫和分詞與詞性標注語料庫。

分詞與詞性標注語料庫,規模為500萬字,帶有分詞標記、詞性標記和句法標記。標注時依據《信息處理用現代漢語分詞規范》和《信息處理用現代漢語詞類及標記集規范》。在這個語料庫的支持下,開發漢語自動分詞和詞性標注軟件,研究自動分詞和詞性標注的評測技術。為了解決漢語自動分詞中的切分歧義問題,還建立了交集型歧義字段庫和組合型歧義字段庫,專門收集這兩種類型的歧義切分實例。前者有7.8萬字,后者收錄了140多條。并且在分詞和詞性標注語料庫里作了這兩類切分歧義的標注。利用這些語料調查交集型歧義當中的“偽歧義”現象(既切分結果只可能有唯一選擇的那些交集型歧義切分字段),發現這種現象在歧義切分字段中很普遍,可以達到90%以上。

專有名詞標注語料庫用于研究漢語自動分詞中專有名詞的識別算法。其中包括標注了中國地名的語料280萬字,標注了中國人姓名的語料300萬字,標注了西文姓名的語料250萬字,標注了漢語機構名稱的語料50萬字,還有標注了網絡新詞語的語料150萬字。利用這些語料,建立了中國地名用字、用詞庫,姓氏人名庫,姓氏用字頻率表,名字用字頻率表等,用統計語言模型的方法識別專有名詞。

(六)雙語語料庫

基于實例的機器翻譯(Example-based)需要大規模的雙語平行語料庫來支持。語料庫里的源語和目標語實例要按照相同級別的翻譯單位一一對齊。目前已有的雙語平行語料庫主要是漢語和英語的,語料對齊的單位有句子級的、子句級的、短語級的,也有詞匯級的。機器翻譯系統把要翻譯的句子與語料庫里的源語實例進行對比,分析相似程度,找到最適合的源語實例,再參照與它對齊的目標語實例生成譯文。用于這類機器翻譯系統的雙語語料庫必須有一定的規模,用人工做語料對齊的工作顯然很難滿足要求。這就使文本自動對齊成為建立雙語語料庫的關鍵技術。

在目前已有的雙語語料庫中,哈爾濱工業大學的漢英平行語料庫已經直接用來開發英漢雙向機器翻譯系統。這個語料庫有6萬個漢語和英語的句子,使用多級對齊加工技術,分別按照句子、短語結構和詞一一對齊。中國科學院計算技術研究所的漢英雙語語料庫有20萬個句對,也完成了句子一級的對齊,并在網上提供查詢服務。北京大學、中國科學院軟件研究所等單位也建立了按句對齊的漢英雙語語料庫。除此之外,還有以語段或短語為單位收集的漢英雙語語料庫,譬如中國科學院自動化研究所的漢英雙語短語庫,有3~5萬對已對齊的漢語和英語短語。東北大學的英漢雙語語段庫,用來幫助建立電子版的英漢搭配詞典。

(七)面向漢語史研究的語料庫

面向漢語史研究的語料庫建設是從搜集漢語史文獻資料開始的。臺灣中央研究院歷史語言研究所從90年代初期就開始了這項工作,他們先收集上古漢語的語料,然后擴展到中古漢語和近代漢語。90年代中后期逐步開始上古漢語語料和近代漢語的標注,在該院信息研究所和計算中心的協助下進行標注技術和檢索技術的開發。根據是否經過分詞處理和詞性標注,臺灣中央研究院的古漢語語料庫和近代漢語語料庫可以分成兩類:生語料庫和標記語料庫。目前生語料庫收集的語料已涵蓋上古漢語(先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以后)的大部分重要文獻資料,并己陸續開放使用。在標記語料庫方面,上古漢語及近代漢語都已有部分語料完成標注工作,也逐步提供網上檢索。2001年底,開放了近代漢語標記語料庫WWW版供各界使用,首先提供查詢的文獻是《紅樓夢》及《三遂平妖傳》。在查詢方面,除了常用的功能以外,還可以在顯示詞項及詞類的同時給出例句的出處,便于歷史語法的研究者使用。

多年來中國社會科學院語言研究所也一直在致力于文獻資料的建設,搜集整理了近代漢語書面語語料150萬字,中古近代漢語語料約1千萬字,部分語料已作了標注。目前已經完成了一個小型語料庫,包括:敦煌變文集、祖堂集、三朝北盟匯編、碧巖錄、朱子語類、劉知遠諸宮調、西廂記諸宮調、元刊全相平話五種、元典章刑部、老乞大諺解、樸通事諺解、孝經直解、魯齋遺書、經筵講義等十余種文獻,成為漢語史和語言學理論研究的重要資源。此外,語言研究所的先秦專書電子文檔有4部文獻,共約120萬字,并且已由古漢語學者逐篇逐句標注了語法信息。

上海師范大學、浙江師范大學、四川大學等學校也依據各自漢語史研究的方向,建立了歷史文獻語料庫。四川大學的中古漢語語料庫有1億字的中古漢語語料和有關中古漢語研究的資料。浙江師范大學的楚辭語庫、前四史語庫、六朝語庫、太平廣記語庫、唐詩語庫、宋詞語庫,已用于“前四史”語言研究和唐宋詩詞語詞研究。

目前歷史文獻語料庫建設的特點是依托學科建設和研究方向,廣泛收集資料,注重校勘精審。隨著漢語史研究和語料庫應用的發展,資源共享和語料加工將得到越來越多的重視。歷史文獻資源共享,首先要避免語料的重復收集,還要采用國際通用的標準處理語料文本,使語料能夠準確、方便地交換和使用。語料加工則是充分發掘語料應用價值的基礎工作,從收集歷史文獻的電子文檔,到建成一個具有必要的語言學標記信息、合理的邏輯結構和方便的檢索功能的語料庫,語料的加工是不可或缺的一步。

(八)比較語料庫

為了研究漢語在不同地區的使用情況,香港城市大學建立了LIVAC共時語料庫(Linguistic Variation in Chinese Speech Communities)。語料來自香港、臺灣、北京、上海、澳門及新加坡六地有代表性的中文報紙,以及電子媒介上的新聞報道。自1995年7月開始,每四天一次,收集這六個地區的對等書面語文本,每次約兩萬字。內容包括新聞、特寫、評論等文章。到2003年上半年,已收集了1億1千多萬字、超過56萬個詞條。計劃收集到2005年6月,囊括新舊世紀交接點前后各五年各地華語社區有代表性的重要語言數據,供漢語的各種共時比較研究使用。

在語料的組織和加工方面,這個語料庫用計算機自動分詞,再經人工校對分類,可以依字、詞、句為基礎進行檢索,提供字、詞配搭、分布等數據,有統計功能。語言學家能通過這個語料庫考察上述六地出現的新詞、詞義有所發展或轉移的舊詞、以及有地方特色的詞語,還可以對具體字或詞的頻率作統計比較,對字詞的差別作計量分析。對研究華人社區的文化、社會、語言差異也有作用。這個語料庫的一部分已經在網上提供服務。

(九)少數民族語言語料庫

新疆大學從2002年起開始建設現代維吾爾語語料庫系統,計劃包括5個部分:語料庫、電子語法信息詞典、規則庫、統計信息庫和檢索統計軟件包。其中語料庫部分又分成生語料庫(經初步整理的原始語料)和加工語料庫(經過標注和校對的語料)。目前已有生語料800萬詞。另外,新疆大學也正在以新聞領域的維漢-漢維機器翻譯為目標,建設雙語平行語料庫。內蒙古大學的中世紀蒙古文語料庫收集了《元朝秘史》、《黃金史》、《回鶻蒙古文文獻集》等歷史文獻。他們還建立了500萬詞的現代蒙古語語料庫,研究了蒙古文附加成分的自動切分、復合詞的自動識別和語料的詞性標注,獲得了詞頻統計、音節統計、詞類統計、附加成分統計等數據。西北民族大學建立了1億3千萬字節的大型藏文語料庫,用于藏文詞匯頻度和通用度的統計。中國社會科學院民族學與人類學研究所建立了500萬藏語字符的藏語語料庫,進行詞語切分和標注的研究。新疆師范大學也建立了200萬詞的維吾爾語語料庫。

與漢語語料庫相比,少數民族語料庫的建設還需要解決一些特殊的問題,譬如拼音文字轉寫的標準和規范,詞語分類體系及其標記集等。

到2003年,已建和在建的各種文本語料庫還有很多(包括書面語語料庫和以文本形式表示的口語語料庫),以上提到的只是有代表性的一部分。與文本語料庫相對的,是語音語料庫。語音語料庫不僅記錄語圖、聲學參數等語音學數據,還有句法、韻律等各種語言學信息標記和副語言學信息標記,可以在語音識別與合成系統中用來建立語音模型,用于語音研究、語音工程開發和漢語普通話教學等領域。語音技術是當前信息技術和通訊領域里最具潛力的發展方向之一,語音語料庫在科研和工程上有很高的使用價值。關于語音語料庫的詳細情況,請見“語音學和言語工程研究綜述”。

下載國內語料庫建設一覽表word格式文檔
下載國內語料庫建設一覽表.doc
將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
點此處下載文檔

文檔為doc格式


聲明:本文內容由互聯網用戶自發貢獻自行上傳,本網站不擁有所有權,未作人工編輯處理,也不承擔相關法律責任。如果您發現有涉嫌版權的內容,歡迎發送郵件至:645879355@qq.com 進行舉報,并提供相關證據,工作人員會在5個工作日內聯系你,一經查實,本站將立刻刪除涉嫌侵權內容。

相關范文推薦

    工會規范化建設一覽表

    工會規范化建設一覽表 工會委員會成員名單 主席: 副主席: 委員: 經費審查委員會 主任: 勞動爭議調解委員會: 主任: 女職工委員會: 主任: 勞動保護監督檢查委員會 主任: 工會工作指導......

    最新國內鋼廠高爐檢修情況一覽表20130301

    區域 東北 華北地區華東地區華南地區西北地區西南地區華中地區 鋼廠名稱 鞍凌 五礦營口青山鼎信鋼廠太鋼 天鐵 三鋼煉鋼廠 唐山鑫達山東廣富 沙鋼 萊鋼永鋒 陽春新鋼鐵 八鋼......

    語料庫的應用(最終)

    語料庫的應用 語料庫方法廣泛應用于語言學理論研究、軍事等領域。當代語料庫語言學(以語料庫方法為取向的研究語言的分支就被稱為語料庫語言學)已是高歌猛進,日新月異,新的語料......

    國內僅存的著名不收費中學數學期刊一覽表

    國內僅存的10來種著名不收費中學數學期刊一覽表 請數學愛好者珍惜這僅有的10來種不收費的國內數學權威期刊 1、 《 中小學數學(高中、初中版)》 教育部主管 【不收取任何費......

    2017年高等學校接受國內訪問學者培養費標準和住宿情況一覽表

    2017 年高等學校接受國內訪問學者培養費標準和住宿情況一覽表 說明:1.此收費標準僅供參考,具體費用和是否安排住宿以各高校的錄取通知書為準。單位:元/人/學年。 2.訪問學者須......

    雅思寫作語料庫--網絡游戲的利弊

    Some people think playing computer games is bad for children on everything.Others think it has some positive on the way children develop. Discuss both sides and......

    辦理規劃建設業務所需資料一覽表

    一、辦理《建設項目選址意見書》1、申請報告; 2、關于建設項目情況和選址要求的說明和有關圖紙; 3、批準的建設項目建議書或其他上報計劃的文件; 4、大型建設項目、對城市布局......

    佛山市建設工程報建收費一覽表

    佛山市建設工程報建收費一覽表 序號 收費部門 收費項目收費標準收費依據 國家計委、財政部計價部 市規劃局1 禪城分局 城市基礎設施配套 費 交易服務費場地使用費發展散裝水......

主站蜘蛛池模板: 亚洲国产av玩弄放荡人妇| 女人无遮挡裸交性做爰| 国产精品日韩专区第一页| 99精品国产在热久久无码| 亚洲av人人澡人人爽人人夜夜| 精品少妇人妻av无码专区| 人妻熟女一二三区夜夜爱| 久久国产福利一区二区| 色欲av无码一区二区人妻| 人妻少妇久久中文字幕456| 久久精品国产亚洲不av麻豆| 成年美女看的黄网站色戒| 国产av永久无码天堂影院| 亚洲国产精品久久久久婷蜜芽| 美女极度色诱视频国产免费| 日韩一区二区三区射精-百度| 国产成人av乱码在线观看| 粉嫩被粗大进进出出视频| 成人麻豆日韩在无码视频| 亚洲人成网站18禁止一区| 精品久久人人妻人人做精品| 国产精品国产三级欧美二区| 尹人香蕉久久99天天拍欧美p7| 丰满爆乳一区二区三区| 成人精品免费视频在线观看| 成年在线网站免费观看无广告| 国产69精品久久久久999小说| 色欲av永久无码精品无码蜜桃| 欧美深性狂猛ⅹxxx深喉| 国产卡1卡2卡3麻豆精品免费| 亚洲国产精华液网站w| 午夜成午夜成年片在线观看| 大又大粗又爽又黄少妇毛片| 亚洲成亚洲成网| 久久精品亚洲精品无码| 亚洲一区二区三区香蕉| 中文无码字幕中文有码字幕| 国产亚洲精品久久久久久一区二区| 国产欧美一区二区精品久久久| 亚洲 校园 欧美 国产 另类| 99久视频只有精品2019|