您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页一种新型词频统计方法及其在对外汉语教学中的应用

一种新型词频统计方法及其在对外汉语教学中的应用

来源:化拓教育网
1082010・1一种新型词频统计方法及其在对外汉语教学中的应用杨

泉冯志伟

要:在对外汉语教学活动当中,我们需要用到各种形式的词频统计结果。为满足这种需求,本文

在现有词频统计方法的基础上提出了一种快速准确的词频统计方法。我们在词频统计过程中首先引入了可替换的标准词典,另外还专门建立了专有词汇词典,这样不仅可以减少冗余词的出现,提高统计的速度,而且可以更换词典,使统计更加灵活。我们的教学实践证明,该词频统计软件的结果对于对外汉语教学和教材编写都起到了很好的指导作用。

关键词:对外汉语教学

词频统计

分词

最大匹配法

1.引言

汉语国际推广活动的深入发展对对外汉语教材编写和教师教学提出了越来越高的要求。这种国际形势要求对外汉语教师使用更加客观、科学的手段来量化教学元素。比如在对外汉语报刊课教学中如何更加科学、系统地进行词语教学;在教材编写过程中,如何科学地安排不同级别词语的出现频率和顺序;在中介语语料库的建设过程中,如何选取语料,这些都需要用到词频统计的方法。

近年来,语言学界、人工智能领域和情报检索界的学者们,在汉语自动分词方面进行了大量的研究,找到了许多解决汉语分词的方法,归纳起来大概有:最大匹配法、逆向最大匹配法、逐词遍历法、设立切分标志法、最佳匹配法、有穷多层次列举法、二次扫描法、高频优先分词法、基于期望的分词法、联想——回溯法、双向扫描法、邻接约束法、扩充转移网络分词法、语境相关法、全自动词典切词法、基于规则的分词法、多遍扫描联想法、部件词典法、链接表法、最少分词词频选择法、专家系统分词法、基于神经网络的分词方法等。

一个最基础的词频统计算法主要包括以下几个部分:

(1)将被统计文本读入计算机内存,转化成字符串。计算机对于串变量的存储,主要有两种方法:数组表示和指针表示。

(2)汉字的识别与词语匹配。字符的识别是词频统计的前提条件,按照GB2312-80《信息交换用汉字编码字符集—基本集》

表1:GB2312—80区位及其含义

区位1—9区16—55区56—87区

区位代表的含义外文字母及其它图形字符

第一级汉字第二级汉字

数量682个3755个3008个

GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集—基本

集》,标准号为GB2312—80,由国家标准总局发布,1981年5月1日实施,通行于,新加坡等地也使用此编码,此编码又称为国标码。

一种新型词频统计方法及其在对外汉语教学中的应用109

词语匹配是词频统计的另一个重要操作,算法的基本思想是:从主串中的第一个字符起和模式中的字符比较,若相等,则匹配成功,否则继续,依此类推,直至结束。

(3)根据不同的需求,输出打印统计结果。本文结合教学活动中的实际需求,在现有词频统计方法的基础上提出了一种快速准确的词频统计方法。我们在词频统计过程中首先引入了可替换的标准词典,这样不仅可以减少冗余词的出现,而且可以提高统计的速度。我们在标准词典当中适当增加规则,结合新的可回溯算法大大提高了统计的精确度。该词频统计软件的标准词典可以更换,这样可以满足不同的统计需求。另外我们还专门建立了专有词汇词典,专有词汇词典的加入可以辅助我们更加准确地统计文章中的专有词汇。我们的教学实践证明,该词频统计软件的结果对于对外汉语教学和教材编写都起到了很好的指导作用。

2.基于可更换词典的词频统计

为了满足对外汉语教学活动中的各种不同需求,我们提出了一种新的词频统计方法。在该方法中我们首先引入了词典匹配的方法,我们可以以《现代汉语词典》为基础,在被统计文本中仅统计词典中出现的词,这样可以提高统计的速度,并且可以扩大被统计文件的规模。该方法的另外一个优点是可以灵活地更换词典,这在教学活动中尤其重要。例如我们可以将词典换为《汉语水平词汇与汉字等级大纲》

《汉语水平词汇与汉字等级大纲》,北京语言学院出版社1992年版,以下简称《大纲》。

1102010・1while(i<=n)

{if(isLtnChar(p[i])&&isLtnChar(p[i+1])&&isLtnChar(p[i+2])&&isLtnChar

(p[i+3]))

{if(该四字为词)

{i=i+4;continue;}elseif(前三个字为词){i=i+3;continue;}elseif(前两个字为词){i=i+2;continue;}elseif(第一个字为词){i=i+1;continue;}}

elseif(isLtnChar(p[i])&&isLtnChar(p[i+1])&&isLtnChar(p[i+2]))

{if(该三字为词)

{i=i+4;continue;}

elseif(前两个字为词)

{i=i+2;continue;}

elseif(第一个字为词)

{i=i+1;continue;}}

elseif(isLtnChar(p[i])&&isLtnChar(p[i+1]))

{if(该两字为词)

{i=i+2;continue;}

elseif(第一个字为词){i=i+1;continue;}}

elseif(isLtnChar(p[i]))

{if(该字为词){i=i+1;}

Else{i=i+1;}}

说明:第一步中我们把词典首先按照词的字数进行分类,在匹配时不同个数的词分配到不同的词典中进行匹配,这样可以降低匹配的复杂度,从而加快匹配的速度。

第二步中我们要把被统计文本读入到内存当中,受内存容量的,被统计文件的大小有一定要求,因此我们在读取时可以每次读取部分内容到内存,依次进行,这样不会影响统计的结果,并且我们还可以把文件分为几个小文件分别进行统计,最后再汇总即可。

第三步中判断下一个字符是否为汉字时有几种情况:如果一个汉字后面的字符是标点符号或英文字符,那么该字肯定不能和其后面的任何字符组合成词。但如果一个汉字后面

一种新型词频统计方法及其在对外汉语教学中的应用111

的字符是空格,那么它还有可能和后面的汉字构成词语,因此我们在处理时遇到空格应该直接忽略。

在匹配过程中我们使用了最大成词匹配的思想,比如一个四字的成语,它可能被分成两个词,每个词分别含有两个字,如果我们按照从前到后、由少到多的顺序往往得不到该四字的词,而是得到两个二字词。因此,我们采取一次提取四个字的办法,一旦这四个字被证明是词,那么即使内部能够出现两个字或三个字的词,我们也不再进行处理,而只把这四个字做为一个词来处理。

显然该算法遇到四个字以上的词是无法统计的,为了提高统计效率我们可以专门收集四字以上的词做成专有词汇词典进行统计。

下面我们以“用带词典的词频统计方法,能达到事半功倍的效果”一句为例来说明该方法的统计过程。我们首先把这句话转化成字符串S,然后逐步开始判断。

1)前四个字符都是汉字,但是“用带词典”在词典中无匹配;2)前三个字符“用带词”也无匹配;3)前两个字符“用带”无匹配;

4)第一个字符“用”是词,其频数加一,当前位置后移一位;5)取“带词典的”四字得到词“带”,其频数加一,当前位置后移一位;6)取“词典的词”四字得到词“词典”,其频数加一,当前位置后移两位;7)取“的词频统”四字得到词“的”,其频数加一,当前位置后移一位;8)取“词频统计”四字得到词“词频”,其频数加一,当前位置后移两位;9)取“统计方法”四字得到词“统计”,其频数加一,当前位置后移两位;10)取“方法”二字得到词“方法”,其频数加一。由于“方法”后面有标点符号,在判断完该词后,把当前位置移到标点以后。

11)对后面的字符串进行同样的操作可以得到“能”,“达到”,“事半功倍”,“的”,“效果”等词。

以上算法的复杂度并不高,这个统计过程如果所有的字都不能组合成词,每个字作为字首都要进行四次匹配,假设文本长度为n,则总的匹配次数为4n次,但在实际当中字与字组词之后可以大大减少匹配次数。

3.基于规则的可回溯词频统计算法

上述算法能够快速处理大量的数据,得出想要的结果,但是我们发现,它仅能给出可能出现的词的组合,与真实的词频数难免会有一些小的误差。当我们用这些词频统计结果去做一个词表时,这些小的误差对词表不会有太大的影响词;但是如果在教学活动中,我们要统计一本教材或一篇文章中有多少大纲词汇或超纲词汇,这时对词频统计的精度就会有非常高的要求。但是众所周知,现代汉语的书写形式跟西文的书写形式不同,词和词之间没有显性的分隔标记,只有句与句之间有显性的标点符号作为分隔标记,这种字字相连的书写形式给词频统计带来了很大的麻烦。因此对汉语文本进行词频统计,首先就要对一个句子中的词语进行准确地切分,这就是分词。为了更加准确地统计词语出现频率,我们

112

在词频统计算法之中加入了带有规则的分词方法。

2010・1最基本的汉语分词方法有最大匹配分词法和最大概率分词法。最大匹配分词法的过程是,顺序扫描待分词的句子,将句子中候选词按照词长从大到小的顺序依次进行匹配,匹配成功即作为一个词输出。这样就可以使得每次输出词的长度最大。显然我们前面的算法里面就使用了这种思想,只是我们了最大长度为4,这也是频率较高的词的最大长度。但是这个方法有一个最大的缺点是掩盖了歧义切分。

例如,我们用最大匹配法对“要领会文件的精神”这个字符串进行分词,我们用“Wi{i=1,2,…}”表示所有可能得到的分词形式。如果计算机采用正向扫描,得到的结果是“W1:要领/会/文件/精神”;如果采用逆向扫描,则会得到“W2:要/领会/文件/精神”。对于人来说,很容易判断出W2是正确的;对于计算机来说这个选择就很困难了。如果只用正向扫描,根本无法得到W2的切分结果,就是说,用最大匹配法机械地进行分词,不容易发现多种切分可能性,掩盖了分词歧义。

最大概率分词法是从统计角度来寻找解决分词的一种方法。其基本思想是:一个待切分的汉字字符串可能包含多种分词结果,将其中概率最大的那个作为该字符串的分词结果。

例如:“要领会文件精神”可以有如下两种切分方法:

W1:要/领会/文件/精神W2:要领/会/文件/精神

采用最大概率分词法就是计算W1,W2的概率P(W1),P(W2),从中选出一个大的作为分词结果。P(Wi)的最简单的计算方法是假设各个词之间是相互的,以每个候选词的概率乘积来求得P(Wi)即可。其中每个词的概率可以作为一个字段存贮在词典中。显然在实际计算中根据该公式,两种切分中相同词的概率正好相互约分,因此只需要计算不同词的概率来进行比较即可。

我们知道在句子当中词与词之间有着密切的内在联系,如果我们在使用最大概率分词法时把它们看作事件来进行操作,必然会带来很多误差,造成切分错误。如果我们考虑词与词之间的关系,也就是它们的联合概率分布和条件概率分布,那么我们需要更加完备的词典来存贮词与词之间的关系,这显然会使得算法过于复杂。

为了在简单可行的前提下尽量提高词频统计的准确程度,我们提出了下面的正反回溯分词方法。该方法的基本思想是:基于词典分词的词频统计过程不再是顺序组合的过程,而是把一句话看成一个整体来进行分割然后再进行统计的过程。在该算法中,我们每次从第一个字开始一直到标点符号为止,把所有的字计为字符串S。对S分别进行正向最大匹配分词和逆向最大匹配分词,其结果分别计为W1和W2。如果W1=W2,则依此作为分词结果,并进行统计;如果W1W2,那么我们对W1,W2中不同的词分别进行回溯,也就是到我们的统计结果中去看前面是否出现过该词及其频率,并把频率大的词作为我们的候选词。如果所有的词都没有出现,那么我们就要根据最大概率法来进行选择。

下面我们以上句为例来详细说明该过程:(1)对于待分字符串“S=要领会文件精神”,若按照正反最大匹配原则将得到“W1:要/领会/文件/精神”和“W2:要领/会/文件/精神”。

(2)比较W1和W2发现它们不相同,并且其不同在于“要(领)/会”,“要/

一种新型词频统计方法及其在对外汉语教学中的应用(领)会”这个部分,其中“领”为分叉词。

113

(3)到我们统计结果中查找“要领”和“领会”的出现次数,若前面只出现“领会”,则此处划分结果取“领会”。如果两词都出现,则选频率高的作为结果。(4)若两词均未出现,则到词典中比较这两词的概率,P(领会)>P(要领),则取“领会”作为我们的分词结果。

总的来看,词的识别要达到很高的精度,实际上需要许多知识作为基础资源,而一般的方法都是在有限的知识条件下来完成的,真正要做到一个高性能的汉语分词系统,还需要在上述方法的基础上加入更多的知识资源。

4.词频统计软件在对外汉语教学中的应用

词频统计在对外汉语教学的教材编写及教学过程中都起着科学化的指导作用。在对外汉语报刊课的教学当中,各种词汇非常繁杂,怎样才能选择那些最常用、最典型的词语教给学生呢?这就需要对目前各种报纸上出现的海量报刊语料进行词频统计。笔者在《汉语报刊教学理论与方法》

表2:《人民日报》词频统计结果

甲级词

词语总数

占全部词汇总量(24,148)的百分比占报刊词语表词汇总量(12,868)的百分比

2,41710.01%18.78%

乙级词2,0718.58%16.09%

丙级词3,54214.67%27.53%

丁级词4,83820.03%37.60%

参见张和生主编:《汉语报刊教学理论与方法》,北京大学出版社2007年版。

114

说本)

2010・1表3:《感悟汉语》(听说本)词频统计结果

《大纲》甲级词

《大纲》乙级词62039.97%36.66%

《大纲》丙级词27717.86%16.38%

《大纲》丁级词23715.28%14.02%

91.72%《大纲》词总量1551

全部词汇1691

数量

占《大纲》词汇比例占总词汇量比例

41726.%24.66%

出现1691个词,其中《大纲》词汇1551个,占全

部词汇量的91.72%,达到了我们的预期目标。此书的全部词汇中《大纲》甲级词汇417个,占《大纲》词汇的26.%,占全部词汇量的24.66%;《大纲》乙级词汇620个,占《大纲》词汇的39.97%,占全部词汇量的36.66%;《大纲》丙级词汇277个,占《大纲》词汇的17.86%,占全部词汇量的16.38%;《大纲》丁级词汇237个,占《大纲》词汇的15.28%,占全部词汇量的14.02%。超纲词汇共140个,占全部词汇量的8.28%。

《感悟汉语》(听说本)是专门为留学生编写的短期培训教材,授课对象是学习完此系列教材初级和中级课程的高级班学生,因此我们在编书时不仅要照顾到学习高级汉语时各级词汇的构成比例,还要考虑到初级和中级课本中词汇的复现率。其实目前其它对外汉语教材也面临同样的问题,要达到科学合理地分配和复现各级词汇都离不开准确的词频统计结果。《感悟汉语》(听说本)这本书就是按照要求借助词频统计软件几经修改后的结果,在北京师范大学汉语文化学院2008年和2009年暑期教学活动中均得到了师生们的一致认可。

5.余论

事实上,词频统计软件的应用不只在教学和教材编写上,更不仅限于对外汉语教学中,它在信息提取、人工智能、情报检索等各领域都有广泛的应用,而且这些应用也取得了非常丰富的成果。本文主要是针对对外汉语教学中的具体要求设计了词频统计软件,实践证明它在对外汉语教学活动中非常实用,我们今后的工作就是要在进一步完善该方法的基础上,将更多的现代教育技术手段和计算语言方法引入到对外汉语教学中来。

(作者单位:北京师范大学汉语文化学院

教育部语言文字应用研究所)

责任编辑:冯学锋

———————————————

主课文指该书的会话课文,辅课文指该书的听力课文。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务