语料库是用来干嘛的

语料库指经科学取样和加工的大规模电子文本库,其中存放的是在语言的实际使用中真实出现过的语言材料。

语料库,就是把平常说话的句子以及一些文学作品、报刊杂志和学术文章上出现过的语句段落等等语言材料整理在一起,形成一个集合,以便做科学研究的时候能够从中取材或者得到数据佐证。

我们写文章用词搭配时,就可以通过在语料库中搜索来查看这个词出现的频率及用法搭配等等。现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本的汇集。

语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够在语料采集的原则和方式上有所体现。有人曾经把语料库分成四种类型:

1、异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;

2、同质的(Homogeneous):只收集同一类内容的语料;

3、系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;

4、专用的(Specialized):只收集用于某一特定用途的语料。

语料库的特征

语料库有三点特征

⒈、语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;

⒉、语料库是承载语言知识的基础资源,但并不等于语言知识;

⒊、真实语料需要经过加工(分析和处理),才能成为有用的资源。

语料库的发展经历了前期(计算机发明以前),第一代语料库,第二代语料库,到第三代语料库