什麽是语料库?

用正式的语言来说,语料库就是通过一定的理论原则而选择,通常包含口语或书面语的用法,并且以电脑档案方式储存的自然语言用法的集合。书面形式的语料库资料来源可以是新闻媒体、文学作品或者个人书写作品。口语形式的语料库则来自录音带或录像带的叙事、访问、交谈或者其他口语资料,再将其转换成书面形式。语料库的大小可以有数万字至数千万字不等。较大的语料库通常是供大型研究计划所需,例如字典的编纂或著文法书的编写,但即使区区数万字的小型口语语料库也可以对语言教学发挥作用。语料库建立后,可以用软件来加以分析并产生词频列表,逐字索引以及其他的资料。

如何将语料库运用在中文教学上?

使用语料库可以让语言教师在许多方面获益。举例来说,经由语料库产生的词频列表可以得知在不同文本里的字词的频率。表格一列出口语语料库(谈话)与文字语料库(新闻报导)的词频列表,经由比较可以得知在这两种不同的语料库里词语频率的差异。

[表格一:自然语言里字的频率]

例如,虽然代名词你、我、他在谈话中常见,这几个代名词并未出现在新闻报导中前二十个频率最高的字中。这类看似简单的发现其实很有意义,可以帮助我们用来设计教材

将一本教科书电子化后,我们可以从中产生词频列表并拿来与自然语言语料库的词频列表作比较,如表格二。如果只注意人称代名词的出现次数,我们只能确定这本教科书着重在说的方面胜过于写的方面。实际上这两个词语频率表看起来十分相近,但进一步分析,可发现除了在排序上有所不同,在某些特定的助词或词汇上它们也有显著的差异。这些差异值得作更深入的研究。(例如:助词 "就" 在自然会话中频率极高但没有出现在教科书的列表中;同样地,指示词 “这” 和 “那”的频率在这两个语料库里也有差异。)

[表格二:自然语言里与教科书里字的频率]

逐字检索也称KWIC (关键词检索系统)是一个重要的语料库工具,用来研究某一特殊语法结构或者词汇在真实语料库里的实际用途。检汇结果会列出在语料库里包含该搜寻字的所有文句。通常该关键字会自成一行而将上下文放置其左右。被搜寻出的句子可依不同标準排列(通常以关键字右方的第一个字为标准)以方便阅读;上下文的范围也可以按照使用者的需要来作调整。以下用三个简单的例子来说明如何使用此一工具。

范例一:把

许多教科书解释说,“把”字结构需要一个有定名词作为宾语(受词)(例如:他把那个苹果吃了),却忽略了许多有不定成分的“把”字结构句子。虽然一些学者指出“把”字结构也可以包含不定宾语(受词),但他们举出的例子常常很不自然。真实文本的纂集在此时便极为有用。以关键字所作的检汇结果可以让使用者轻易找出关于某特定结构的例句用法。以下即为“把”字结构的检汇结果例子。这些例子是由以新闻文本为主的语料库里取得并以关键字右方的第一个字为整理依据,从这些例子可看出“把”+ 不定宾语(受词)的用法颇为常见。

范例二:其实

从以下检汇结果的列表可看出“其实”作为词组连接词(在子句内并连接子句内的词语)和作为篇章连接词(放在主要子句外,用来连接大篇幅的篇章)这两种用法的差异。从检汇结果可以很容易地看出: 在篇章连接词的用法里,通常在关键字前或后会有标点符号,显示出该用法的独立性。相反,作为词组的连接词通常嵌入在子句中。

范例三:看看

第三组检汇结果列表显示叠词“看看”的不同用法:跟多数语法书所说不同,重叠既可以表示引导注意力 (“看看”),表示持续密集的动作 (“拿到太阳底下再看看”),也可以表示比较随意轻松的动作("看看表")。

由于电脑可快速搜寻语料库,我们可在极短时间内取得大量真实语言用法的例子。这意味着可节省许多分析语言及准备教材的宝贵时间。除此以外,语言教师还可借教学之便从学生写出或说出的语言来建立语言学习者的语料, 并借由各种语料库分析技巧来分析此一语料库能发现典型的学习错误。简而言之,语料库是一个丰富待探索的资源;不只是老师和研究人员可从中获益, 同时学生也可提高学习欲望。现今学生通常都有足够的电脑技巧,应多加鼓励通过他们使用语料库资源来提升自我学习能力及研究能力。一个关于使用语料库好处最有力的例子是Tim John’s的数据驱动学习网站(Data Driven Learning, DDL)网站。尽管这些例子大多为英语,类似的方法也可以轻易应用在中文上(请见其他资源部分)

现今有哪些中文语料库可供中文教师使用?

现在网际网路上有不少免费中文语料库,下面我们给出部份例子。

中国大陆

北京语言文化大学 (Beijing Language and Culture University Institute of Language Information Processing) 有一书面资料的语料库,该资料库来源有人民日报、前现代及后现代的短篇文章或小说、百科全书及其他类型的书面文本。有两个不同的检索方法:一个是以“字”为主的搜寻,另一个是以“字词”为主的搜寻,可连结到此一语料库:
URL:http://202.112.195.8:8089/ccir_login?input=*

北京大学现代汉语语料库为另一资源:
URL: http://ccl.pku.edu.cn/ccl%5Fcorpus/xiandaihanyu/

由中国国家语委开发的另一个线上汉语语料库:
URL: http://219.238.40.213:8080/

台湾

中央研究院的现代汉语平衡语料库,搜集许多台湾报纸文章。这个语料库可以依词性(POS)搜寻以及叠词搜寻。
URL: http://www.sinica.edu.tw/ftms-bin/kiwi.sh

中央研究院另有全球华语文数位教学资源中心。这个网址提供字词频率表以及可依文法和语意搜寻的阅读资料。
URL: http://elearning.ling.sinica.edu.tw/

其他地方

由Tony McEnery和Richard Xiao在Lancaster大学所建立的华语文学习者语料库(The Lancaster Corpus of Mandarin Chinese; LCMC)。LCMC为一平衡语料库,主要资料来源为中国大陆。涵盖的主题有新闻报导、评论、宗教文章、技术性文件、贸易及休闲嗜好类文章、常识、传记类文章、散文、小说以及其他。这个语料库是以Freiburg-LOB Corpus of British English (FLOB)为对照的中文语料库。可在网路上依词性(POS)作搜寻。
URL: http://bowland-files.lancs.ac.uk/corplang/cgi-bin/conc.pl

华语地区共时语料库

LIVAC 语料库(香港城市大学语言资讯科学研究中心共时语料库),是从香港、台湾、北京、上海、澳门和新加坡等地具代表性的报纸及电子媒体搜集的资料。LIVAC提供检汇结果列表和字频分析。由于这个语料库持续更新,可以从中看出语法随着时间的演变(在该语料库设定的时间范围内)。
URL: http://www.rcl.cityu.edu.hk/english/livac

多语语料库:含中文及其他语言

香港的虚拟语言中心(Virtual Language Centre)有线上的平行语料库,包含中文、英文、日文和法文,可用来作翻译研究及比较分析。

Babel汉英平行语料库有327篇英文文章及其中文翻译。这个语料库有544,095字 (253,633个英文字和287,462个词次)。
URL: http://bowland-files.lancs.ac.uk/corplang/babel/babel.htm

有哪些免费的软件可作语料库工具?

除了许多商业软件可用来准备和/或分析中文语料库,网络上也有一些免费软件可供下载,其中有一些十分实用。

由Erik Peterson研发的DimSum Chinese Language Tool是一个以Java为主的程式,可作断词(word segmentation)、英文注释、字词列表、汉字与拼音转换。
可以在Windows, MacOS和Linux等作业系统执行。
URL: http://www.mandarintools.com/dimsum.html

由Chris Greavies研发的ConcApp是以Widows作业系统为基础的免费软体,可执行检汇结果功能 (关键字在文中) 、连用语(collocation)及字词频率分析。
URL: http://www.edict.com.hk/PUB/concapp/

由Laurence Anthony研发的AntConc,可在Windows和Linux上执行,其功能有检汇结果、连用语、N-连词和关键字分析。可用在多种语言文本。
URL: http://www.antlab.sci.waseda.ac.jp/software.html

Conc是一个在Macintosh执行的检汇功能程序。由美国国际语言暑期学院(SIL International) 该程序可从他们的网站下载。
URL: http://www.sil.org/computing/conc/

其他资源

还有许多与 “语料库语言学” 、 “语料库” 和 “华语文语言暨语言学”有关的网站、书籍和文章。这里是其中一小部分:

网站:

Corpus4U.Org 是个讨论中英语料库语言学及其应用的网络论坛。这个以中国大陆为主的网站在2006年五月时已有超过2500位的注册使用者。
URL: http://www.corpus4u.org

Marjorie K.M. Chan的ChinaLinks有许多关于华语语言学的资讯
URL: http://chinalinks.osu.edu

Hongyin Tao的语料库语言学教学网站 (Corpus Linguistics Course Web Page)有关于以东亚语言为主的语料库的简短介绍
URL: http://www.bol.ucla.edu/~ht37/teach/222/222_info.html

Tianwei Xie的线上学习中文网页(Chinese On-line)提供许多链结到华语教学网站。
URL: http://www.csulb.edu/~txie/on-line.htm

Tim John的虚拟资料驱动学习图书馆 (Virtual DDL Library) 有许多富启发性的(非华语)的例子。
URL: http://web.bham.ac.uk/johnstf/ddl_lib.htm

参考书籍:

Concordance in the Classroom : A Resource Book for Teachers by Chris Tribble and Glyn Jones (Houston: Athelstan, 1997) 对於想在课堂使用电子文本的教师提供了许多概念,虽然这本书是以英文为主。

Corpus Linguistic by Douglas Biber, Susan Conrad, and Randi Reppen (Cambridge: CUP Press, 1998)是一本语料库语言学的入门读本。

语料库语言学by Huang Changning和 Li Juanzi (Beijing: Commercial Press, 2002) 是另一本语料库语言学的入门读本。

文章:

Carter, Ronald and Michael McCarthy (1995). Grammar and the Spoken Language. Applied Linguistic, 16(2), 141-158.

Chan, Marjorie K.M. (2002). Concordancers and concordances: Tools for Chinese language teaching and research. Journal of the Chinese Language Teachers Association, (37)2, pp. 1-58

Chen, Jinh and Hongyin Tao (2004). A usage-based study of preposed verbal quantification structures in Chinese. Journal of the Chinese Langauge and Computing, 14 (2), 125-137, 2004. [Special Issue: Corpora, Language Use, and Grammar. Edited by Hongyin Tao]

McCarthy, Michael and Ronald Carter (2001) "Size isn’t everything: Spoken English, corpus and the classroom." TESOL Quartely, 35, 337-340

McCarthy, Michael and A. O’Keeffe (2004). Research in the teaching of speaking. Annual Review of Applied Linguistics, 24, 26-43

McEnery, A., Z. Xiao & Y.Tono (2005). Corpus-based Language Studies: An advanced resource book. London: Routledge.

Ming, Tao & Hongyin Tao (forthcoming). Developing a Chinese Heritage Language Corpus: Issues and a Preliminary Report. University of California, Los Angeles, Asian Languages and Cultures Department.

Sun, Maosong (1998) Notes on qujue and laiyuan). ngguo Yuwen (Chinese Language), 1998:6.

Tao, Hongyin (2000). Adverbs of Absolute Time and Assertiveness in Vernacular Chinese: A Corpus-Based Study. Journal of the Chinese Language Teachers Association , 3, 53-73.

Tao, Hongyin (2002). The Semantics and Pragmatics of Relative Clause Constructions in Mandarin Narrative Discourse. Contemporary Research in Modern Chinese, Japan. 2002, Vol. 4, 47-57.

Tao, Hongyin (2004). Fundamentals in Spoken Discourse Analysis, Yuyan Kexue (Linguistic Sciences). 3, 50-67.

Tao, Hongyin (2005) The Gap between natural speech and spoken Chinese teaching material: Toward a discourse approach to pedagogy. Journal of the Chinese Language Teachers Association. 40,1-24.

Xiao, Zhonghua & Anthongy McEnery (2004). Aspect in Mandarin Chinese: A corpus-based study. Amsterdam: John Benjamins.

Xiao, Zhonghua & Anthongy McEnery (2006). Collocation, semantic prosody and near synonym: A cross-linguistic perspective. Applied Linguistics, 27(1), 103-129

Wang, Lixun (2001). Exploring parallel concordancing in English and Chinese, Language Learning and Technology, 5, 174-184

NonDiscrimination Statement | Affirmative Action | Privacy Policy | Copyright Policy

© 2002-2012 CALPER and The Pennsylvania State University. All Rights Reserved.
 
The Pennsylvania State University CALPER South Asia Language Resource Center Center for Languages of the Central Asian Region National Capital Language Resource Center Center for Advanced Language Proficiency Education and Research National East Asian Languages Resource Center Center for Language Education and Research National African Language Resource Center National K-12 Foreign Language Resource Center Center for Advanced Research on Language Acquisition National Foreign Language Resource Center Center for Educational Resources in Culture, Language and Literacy Language Acquisition Resource Center National Heritage Language Resource Center National Middle East Language Resource Center Center for Applied Second Language Studies