首页 >
语料库语言学
✍ dations ◷ 2025-08-07 22:07:28 #语料库语言学
语料库语言学(英语:corpus linguistics)是基于语言运用的实例(即语料库)的语言研究。语料库语言学可以对自然语言进行语法与句法分析,还可以研究它与其他语言的关系。语料库最初由手工完成,而现在主要是由计算机自动完成。语料库语言学家相信,可靠的语言分析需建立在新鲜的语料、自然的语言环境,和最小的实验干扰之上。在语料库语言学中,语料标注的意义众说纷纭,从约翰·辛克莱(John McHardy Sinclair)主张最少量的标注,并允许文本“为自己说话”,到“英语用法调查组”(设在伦敦大学学院)鼓励更多的标注,并认为它是通向更完备和严谨的语言理解的道路。现代语料库语言学的一个里程碑是亨利·库切拉(英语:Henry Kucera)和W.纳尔逊弗朗西斯在1967年出版的《当代美语的计算分析》(Computational Analysis of Present-Day American English)一书。该项工作基于对布朗语料库(英语:Brown Corpus)的分析,布朗语料库是一个精心编制的美国英语语料库,规模约有一百万词次。库切拉和弗朗西斯将这些语料用于各种计算分析,获得了丰富和多样化的成果,该成果结合了语言学、语言教、心理学、统计学、和社会学元素。另一关键出版物是1960年伦道夫·夸克(英语:Randolph Quirk)的《当代英语语法》(Towards a description of English Usage),在这本书中他介绍了“英语用法调查”项目(The Survey of English Usage)。此后不久,波士顿出版商霍顿米夫林邀请库切拉为其新的美国传统英语字典提供百万词次,三线引文的来进行词典编纂。《美国传统英语字典》创新地将规定性元素(应如何使用语言)和描述性元素(语言实际上是如何被使用)结合在了一起。其他出版社纷纷效仿。英国出版商柯林斯COBUILD单语学习词典,就是为非英语母语者学习英语而出版的,它使用了“英语银行”(Bank of English)语料库。“英语用法调查”语料库被用于由夸克等人编著的《综合英语语法》(A Comprehensive Grammar of the English Language)中。布朗语料库也催生了类似的语料库:LOB语料库(Lancaster-Oslo-Bergen Corpus,20世纪60年代英国英语),科尔哈帕(Kolhapur,印度英语),惠灵顿(Wellington,新西兰英语),澳大利亚英语语料库(Australian Corpus of English,澳大利亚英语),皱眉语料库(Frown Corpus,20世纪90年代初,美国英语),以及FLOB语料库(FLOB Corpus,20世纪90年代,英国英语)。其他语料库包括国际英语语料库(International Corpus of English),和英国国家语料库(British National Corpus,收集了1亿词次的口头和书面语料,在20世纪90年代时由出版商、牛津大学、兰卡斯特大学和大英图书馆创建)。至于说到当代的美国英语,现已有了美国国家语料库(英语:American National Corpus),以及可以在线访问的4亿多词次的美国当代英语语料库(英语:Corpus of Contemporary American English,1990年创建)。第一个电脑转录口语语料库,建于1971年蒙特利尔法语项目(Montreal French Project),有一亿词次,这一项目还启发了夏娜·帕普拉克(Shana Poplack)建立了规模更大的渥太华-赫尔地区法语口语语料库(英语:Corpus of spoken French in the Ottawa-Hull area)。语料库除了收集现存语言,也收集古代语言。比如20世纪70年代建立的希伯来文圣经的安徒生福布斯数据库(英语:Andersen-Forbes database of the Hebrew Bible,数据库的每个子句的语法分析都使用了多达七级语构的图表,每一部分都标注了七个方面的信息。古兰经阿拉伯语语料库(英语:Quranic Arabic Corpus)是古典的阿拉伯文《古兰经》的标注语料库。它包含多层次的标注,包括形态分割,词性标注,以及使用依存语法进行的句法分析。语料库语言学已经有了一大批研究方法,这些研究方法都试图找到从数据到理论的解决方案。瓦利斯和尼尔森最先介绍了他们的3A观点(英语:3A perspective):注释(英语:Annotation),抽象(英语:Abstraction)和分析(英语:Analysis)。如今大多数词汇语料库采用词性标注(英语:part-of-speech-tagged)。然而,即使是采用未标注语料的语料库语言学家也无疑会使用一些方法来从句子中隔离出他们感兴趣的词。在这种情况下,注释和抽象在词汇搜素中结合起来了。发布标注语料库的优点是其他用户可以在语料库中进行研究与实验。语言学家与其他相关人士就可以利用语料库来工作了。通过数据共享,语料库语言学家能将语料库视为语言探讨的核心,而不是知识的源泉。
相关
- 牙医师人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学牙医学(法语:Dentisterie; 英语:Dentistr
- 腹水腹水(ascites、hydroperitoneum)是指腹腔内有液体积聚,超过正常量的症状。腹水最常见的病因是肝硬化和其他严重的肝脏疾病,但它的出现也可以是其他重大疾病的征象,如肝癌末期。腹
- 震颤颤抖或震颤(英语:Tremor)是身体部位因不自主肌肉收缩而造成的震动。最常发生在手部;通常是心脉所致,是正常生理现象。不过震颤严重者可能患有疾病。
- 老普林尼盖乌斯·普林尼·塞孔杜斯(拉丁语:Gaius Plinius Secundus,23年-79年8月24日),常称为老普林尼或大普林尼,古罗马作家、博物学者、军人、政治家,以《自然史》(一译《博物志》)一书留名
- 狭窄二尖瓣狭窄是一种较为常见的心瓣膜病。在正常情况下,二尖瓣在左心室舒张时打开,使血液从左心房流入左心室。患有二尖瓣狭窄症的病人二尖瓣在左心室舒张时不能够完全开放,使左心
- 肿瘤科人体解剖学 - 人体生理学 组织学 - 胚胎学 人体寄生虫学 - 免疫学 病理学 - 病理生理学 细胞学 - 营养学 流行病学 - 药理学 - 毒理学肿瘤学(英:Oncology)是一种研究肿瘤(尤其
- 大陆洲,或大洲,指地球上的大块陆地地区,人类将现今的地球分为亚洲(全称亚细亚洲)、欧洲(全称欧罗巴洲)、非洲(全称阿非利加洲)、大洋洲、北美洲(全称北亚美利加洲)、南美洲 (全称南亚美利加
- 克劳狄乌斯·托勒密克劳狄乌斯·托勒密(古希腊语:Κλαύδιος Πτολεμαῖος;拉丁语:Claudius Ptolemaeus,约100年-170年,又译托勒玫或多禄某)是一位学者,同时也是数学家、天文学家、地理学
- 文艺复兴时期文艺复兴是一场大致发生在14世纪至17世纪欧洲的文化运动,在中世纪晚期发源于意大利中部的佛罗伦萨,即意大利文艺复兴,后扩展至欧洲各国。其辞源为意大利语“Rinascimento”,由ri
- 苗瑶语系苗瑶语是苗、瑶、畲等族群所使用的有共同来源的一些语言的总称。学术界对于苗瑶语的语言系属分类有不同看法:华人和中国学者多认为苗瑶语是属于汉藏语系的语族,即苗瑶语族;欧美