什麼是語料庫?

語料庫用正式的语言来说,就是通過一定的理論原則而選擇的自然語言用法的集合,通常包含口語或書面語的用法,並且是以電腦檔案方式儲存。書面形式的語料庫資料來源可以是新聞媒體、文學作品或著是個人書寫作品。口語形式的語料庫則來自錄音帶或錄像帶的敘事、訪問、交談或著其他口語資料,再將其轉換成書面形式。語料庫的大小可以有數萬字至數千萬字不等。較大的語料庫通常是供大型研究計畫所需,例如字典的編纂或著文法書的編寫,但即使區區數萬字的小型口語語料庫也可以對語言教學發揮作用。語料庫建立後,可以用軟件來加以分析並產生詞頻列表,逐字索引以及其他的資料。

如何將語料庫運用在中文教學上?

使用語料庫可以讓語言教師在許多方面獲益。舉例來說,藉由語料庫產生的詞頻列表可以得知在不同文本裡的字詞的頻率。表格一列出口語語料庫(談話)與文字語料庫(新聞報導)的詞頻列表,經由比較可以得知在這兩種不同的語料庫裡詞語頻率的差異。

[表格一:自然語言裡字的頻率]

例如,雖然代名詞你、我、他在談話中常見,這幾個代名詞並未出現在新聞報導中前二十個頻率最高的字中。這類看似简单的發現其實很有意义,可以帮助我们用來設計教材

將一本教科書電子化後,我們可以從中產生詞頻列表並拿來與自然語言語料庫的詞頻列表作比較,如表格二。如果只注意人稱代名詞的出現次數,我們只能確定這本教科書著重在說的方面勝過於寫的方面。實際上這兩個詞語頻率表看起來十分相近,但進一步分析,可發現除了在排序上有所不同,在某些特定的助詞或詞彙上它们也有顯著的差異。這些差異值得作更深入的研究。(例如:助詞 "就" 在自然會話中頻率極高但沒有出現在教科書的列表中;同樣地,指示詞 “這” 和 “那”的頻率在這兩個語料庫裡也有差異。)

[表格二:自然語言裡與教科書裡字的頻率]

逐字检索也稱KWIC (關鍵詞檢索系統)是一個重要的语料库工具,用來研究某一特殊語法結構或著詞彙在真實語料庫裡的實際用途。檢匯結果會列出在語料庫裡包含該搜尋字的所有文句。通常該關鍵字會自成一行而將上下文放置其左右。被搜尋出的句子可依不同標準排列(通常以關鍵字右方的第一個字為標準)以方便閱讀;上下文的範圍也可以按照使用者的需要來作調整。以下用三個简单的例子来說明如何使用此一工具。

範例一:把

許多教科書解釋说,“把”字結構需要一個有定名詞作為宾语(受詞)(例如:他把那個蘋果吃了),卻忽略了許多有不定成分的“把”字結構句子。雖然一些學者指出“把”字結構也可以包含不定宾语(受詞),但他們舉出的例子常常很不自然。真實文本的纂集在此時便極為有用。以關鍵字所作的檢匯結果可以讓使用者輕易找出關於某特定結構的例句用法。以下即為“把”字结构的檢匯結果例子。這些例子是由以新聞文本為主的語料庫裡取得並以關鍵字右方的第一個字為整理依據,從這些例子可看出“把”+ 不定宾语(受詞)的用法頗為常見。

範例一:其實

從以下檢匯結果的列表可看出“其實”作為詞組連接詞(在子句內並連接子句內的詞語)和作为篇章連接詞(放在主要子句外,用來連接大篇幅的篇章)這兩種用法的差異。從檢匯結果可以很容易地看出: 在篇章連接詞的用法裡,通常在關鍵字前或後會有標點符號,显示出该用法的独立性。相反,作为詞組的連接詞通常嵌入在子句中。

範例三:看看

第三組檢匯結果列表顯示疊詞“看看”的不同用法:跟多数语法书所说不同,重叠既可以表示引導注意力 (“看看”),表示持續密集的動作 (“拿到太陽底下再看看”),也可以表示比较隨意轻松的動作("看看表")。

由於電腦可快速搜尋語料庫,我們可在極短時間內取得大量真實語言用法的例子。這意味著可節省許多分析語言及準備教材的寶貴時間。除此以外,語言教師還可藉教學之便從學生寫出或說出的語言來建立語言學習者的語料, and藉由各種語料庫分析技巧來分析此一語料庫能發現典型的學習錯誤。簡而言之,語料庫是一個豐富待探索的資源;不只是老師和研究人員可從中獲益, 同時學生也可提高學習慾望。現今學生通常都有足夠的電腦技巧,應多加鼓勵透過他們使用語料庫資源來提升自我學習能力及研究能力。一個關於使用語料庫好處最有力的例子是Tim John’s的數據驅動學習網站(Data Driven Learning, DDL)網站。儘管這些例子大多為英語,類似的方法也可以輕易應用在中文上(請見其他資源部分)

現今有哪些中文語料庫可供中文教師使用?

現在網際網路上有不少免費中文語料庫,下面我们给出部份例子。

中國大陸

北京語言文化大學 (Beijing Language and Culture University Institute of Language Information Processing) 有一書面資料的語料庫,該資料庫來源有人民日報、前現代及後現代的短篇文章或小說、百科全書及其他類型的書面文本。有兩個不同的检索方法:一個是以“字”為主的搜尋,另一個是以“字詞”為主的搜尋,可連結到此一語料庫:
URL:http://202.112.195.8:8089/ccir_login?input=*

北京大學現代漢語語料庫為另一資源:
URL: http://ccl.pku.edu.cn/ccl%5Fcorpus/xiandaihanyu/

由中国国家语委开发的另一個線上漢語語料庫:
URL: http://219.238.40.213:8080/

台灣

中央研究院的現代漢語平衡語料庫,搜集許多台灣報紙文章。這個語料庫可以依詞性(POS)搜尋以及疊詞搜尋。
URL: http://www.sinica.edu.tw/ftms-bin/kiwi.sh

中央研究院另有全球華語文數位教學資源中心。这个网址提供字詞頻率表以及可依文法和語意搜尋的閱讀資料。
URL: http://elearning.ling.sinica.edu.tw/

其他地方

由Tony McEnery和Richard Xiao在Lancaster大學所建立的華語文學習者語料庫(The Lancaster Corpus of Mandarin Chinese; LCMC)。LCMC為一平衡語料庫,主要資料來源為中國大陸。涵蓋的主題有新聞報導、評論、宗教文章、技術性文件、貿易及休閒嗜好類文章、常識、傳記類文章、散文、小說以及其他。這個語料庫是以Freiburg-LOB Corpus of British English (FLOB)為對照的中文語料庫。可在網路上依詞性(POS)作搜尋。
URL: http://bowland-files.lancs.ac.uk/corplang/cgi-bin/conc.pl

華語地區共時語料庫

LIVAC 語料庫(香港城市大學語言資訊科學研究中心共時語料庫),是從香港、台灣、北京、上海、澳門和新加坡等地具代表性的報紙及電子媒體蒐集資料。LIVAC提供檢匯結果列表和字頻分析。由於這個語料庫持續更新,可以從中看出語法隨著時間的演變(在該語料庫設定的時間範圍內)。
URL: http://www.rcl.cityu.edu.hk/english/livac

多語語料庫:含中文及其他語言

香港的虛擬語言中心(Virtual Language Centre)有線上的平行語料庫,包含中文、英文、日文和法文,可用來作翻譯研究及比較分析。

Babel漢英平行語料庫有327篇英文文章及其中文翻譯。這個語料庫有544,095字 (253,633個英文字和287,462個詞次)。
URL: http://bowland-files.lancs.ac.uk/corplang/babel/babel.htm

有哪些免費的軟件可作語料庫工具?

除了許多商業軟件可用來準備和/或分析中文語料庫,網絡上也有一些免費軟件可供下載,其中有一些十分實用。

由Erik Peterson研發的DimSum Chinese Language Tool是一個以Java為主的程式,可作斷詞(word segmentation)、英文注釋、字詞列表、漢字與拼音轉換。
可以在Windows, MacOS和Linux等作業系統執行。
URL: http://www.mandarintools.com/dimsum.html

由Chris Greavies研發的ConcApp是以Widows作業系統為基礎的免費軟體,可執行檢匯結果功能 (關鍵字在文中) 、連用語(collocation)及字詞頻率分析。
URL: http://www.edict.com.hk/PUB/concapp/

由Laurence Anthony研發的AntConc,可在Windows和Linux上執行,其功能有檢匯結果、連用語、N-連詞和關鍵字分析。可用在多種語言文本。
URL: http://www.antlab.sci.waseda.ac.jp/software.html

Conc是一個在Macintosh執行的檢匯功能程序。由美國國際語言暑期學院(SIL International) 該程序可從他們的網站下載。
URL: http://www.sil.org/computing/conc/

其他資源

還有許多與 “語料庫語言學” 、 “語料庫” 和 “華語文語言暨語言學”有關的網站、書籍和文章。這裡是其中一小部分:

網站:

Corpus4U.Org 是個討論中英語料庫語言學及其應用的網路論壇。這個以中國大陸為主的網站在2006年五月時已有超過2500位的註冊使用者。
URL: http://www.corpus4u.org

Marjorie K.M. Chan的ChinaLinks有許多關於華語語言學的資訊
URL: http://chinalinks.osu.edu

Hongyin Tao的語料庫語言學教學網站 (Corpus Linguistics Course Web Page)有關於以東亞語言為主的語料庫的簡短介紹
URL: http://www.bol.ucla.edu/~ht37/teach/222/222_info.html

Tianwei Xie的線上學習中文網頁(Chinese On-line)提供許多鏈結到華語教學網站。
URL: http://www.csulb.edu/~txie/on-line.htm

Tim John的虛擬資料驅動學習圖書館 (Virtual DDL Library) 有許多富啟發性的(非華語)的例子。
URL: http://web.bham.ac.uk/johnstf/ddl_lib.htm

參考書籍:

Concordance in the Classroom : A Resource Book for Teachers by Chris Tribble and Glyn Jones (Houston: Athelstan, 1997) 對於想在課堂使用電子文本的教師提供了許多概念,雖然這本書是以英文為主。

Corpus Linguistic by Douglas Biber, Susan Conrad, and Randi Reppen (Cambridge: CUP Press, 1998)是一本語料庫語言學的入門讀本。

語料庫語言學by Huang Changning和 Li Juanzi (Beijing: Commercial Press, 2002) 是另一本語料庫語言學的入門讀本。

文章:

Carter, Ronald and Michael McCarthy (1995). Grammar and the Spoken Language. Applied Linguistic, 16(2), 141-158.

Chan, Marjorie K.M. (2002). Concordancers and concordances: Tools for Chinese language teaching and research. Journal of the Chinese Language Teachers Association, (37)2, pp. 1-58

Chen, Jinh and Hongyin Tao (2004). A usage-based study of preposed verbal quantification structures in Chinese. Journal of the Chinese Langauge and Computing, 14 (2), 125-137, 2004. [Special Issue: Corpora, Language Use, and Grammar. Edited by Hongyin Tao]

McCarthy, Michael and Ronald Carter (2001) "Size isn’t everything: Spoken English, corpus and the classroom." TESOL Quartely, 35, 337-340

McCarthy, Michael and A. O’Keeffe (2004). Research in the teaching of speaking. Annual Review of Applied Linguistics, 24, 26-43

McEnery, A., Z. Xiao & Y.Tono (2005). Corpus-based Language Studies: An advanced resource book. London: Routledge.

Ming, Tao & Hongyin Tao (forthcoming). Developing a Chinese Heritage Language Corpus: Issues and a Preliminary Report. University of California, Los Angeles, Asian Languages and Cultures Department.

Sun, Maosong (1998) Notes on qujue and laiyuan). ngguo Yuwen (Chinese Language), 1998:6.

Tao, Hongyin (2000). Adverbs of Absolute Time and Assertiveness in Vernacular Chinese: A Corpus-Based Study. Journal of the Chinese Language Teachers Association , 3, 53-73.

Tao, Hongyin (2002). The Semantics and Pragmatics of Relative Clause Constructions in Mandarin Narrative Discourse. Contemporary Research in Modern Chinese, Japan. 2002, Vol. 4, 47-57.

Tao, Hongyin (2004). Fundamentals in Spoken Discourse Analysis, Yuyan Kexue (Linguistic Sciences). 3, 50-67.

Tao, Hongyin (2005) The Gap between natural speech and spoken Chinese teaching material: Toward a discourse approach to pedagogy. Journal of the Chinese Language Teachers Association. 40,1-24.

Xiao, Zhonghua & Anthongy McEnery (2004). Aspect in Mandarin Chinese: A corpus-based study. Amsterdam: John Benjamins.

Xiao, Zhonghua & Anthongy McEnery (2006). Collocation, semantic prosody and near synonym: A cross-linguistic perspective. Applied Linguistics, 27(1), 103-129

Wang, Lixun (2001). Exploring parallel concordancing in English and Chinese, Language Learning and Technology, 5, 174-184

NonDiscrimination Statement | Affirmative Action | Privacy Policy | Copyright Policy

© 2002-2012 CALPER and The Pennsylvania State University. All Rights Reserved.
 
The Pennsylvania State University CALPER South Asia Language Resource Center Center for Languages of the Central Asian Region National Capital Language Resource Center Center for Advanced Language Proficiency Education and Research National East Asian Languages Resource Center Center for Language Education and Research National African Language Resource Center National K-12 Foreign Language Resource Center Center for Advanced Research on Language Acquisition National Foreign Language Resource Center Center for Educational Resources in Culture, Language and Literacy Language Acquisition Resource Center National Heritage Language Resource Center National Middle East Language Resource Center Center for Applied Second Language Studies