维普资讯 http://www.cqvip.com 第29卷第2期 2008年4月 河南科技大学学报:自然科学版 Journal of Henan University of Science and Technology:Natural Science V0】.29 No.2 Apr. 2008 文章编号:1672—6871(2008)02—0055—03 基于特征和隐马尔可夫模型的文本信息抽取 常军林 ,吴笑伟 ,吴芬芬 ,刘磊 (1.河南交通职业技术学院,河南郑州450005;2.吉林大学计算机科学与技术学院,吉林长春130012) 摘要:基于文本分块提出一种新的文本信息抽取技术,该技术利用文本的语义特征和结构特征,抽取具有特征 的状态,以此结果为基础,进一步运用改进的隐马尔可夫模型,抽取剩余的无特征状态。对美国CMU大学 CORA搜索引擎研制组提供的数据集中的100篇进行测试,结果显示精确度和召回率比基于单词和传统隐马 尔可夫模型的方法都有所提高,并进一步提高了效率。 关键词:文本分块;特征提取;隐马尔可夫模型 中图分类号:TP39l 文献标识码:A 0 前言 目前的电子资源含有大量的有用信息,但是欠结构化,不能为传统的数据库型查询系统所利用。针 对这一问题,出现了信息抽取技术。信息抽取(Information Extraction)是指从文本中自动抽取相关的或 特定类型的信息。信息抽取包括规则法、统计法以及规则和统计相结合的方法等。 隐马尔可夫模型是一个强有力的随机过程,容易建立,适应性强,因此被研究者应用到了语音识 别…、词性标注、信息抽取 I4 等不同的领域。作者采用特征抽取和HMMs相结合的方法,对HMMs 进行了改进,为文本信息抽取提供了一种精确度和召回率更高的抽取方法。 1 相关技术和工作 1.1 文本分块和特征提取 l‘ 在一篇论文中,引言前的部分称其为论文头部,包括标题、作 者、机构、地址、日期、网址等l5个部分,每一部分称为一个状态。 本文对论文头部进行了研究,提出一种对文本进行分块的技术,并 且基于提高效率的要求,在“abstract”出现之前,对文本进行比较细 致的分块,根据文本的结构,以“,…‘;”换行或三个以上的空格作 为分隔符进行分块,而在“abstract”出现之后,只以换行作为分隔符。 叫 ly 以自动机的形式来表示文本的分块过程,如图1所示: ∑。={英语单词} =,图1 自动机文本分块图 {,,,? (,),{,},[,],I, ,&,space,} ∑,={Tspace’;’c。mma},∑ ={abstractl,∑ :∑。一∑ ,∑ = ,El,S。,S ,S,,S 为 转移状态 space表示空格;Tspace表示三个以上的连续空格;E表示文件结束;\n表示换行 W∈∑。, ∈∑ ,Y∈∑,,z∈∑ ,“∈∑ , ∈∑ 通过分析科学论文头部,很多块中有明显的特征词,足以说明这个块的状态。因此,在分块的同时 结合块中含有的语义特征和结构特征,并针对特殊块采用回退技术和前进技术确定其状态。特征提取 基金项目:吉林省科技发展计划项目(20050527) 作者简介:常军林(1973一),男,河南林州人,讲师 收稿日期:2007—04—10 维普资讯 http://www.cqvip.com
・56・ 河南科技大学学报:自然科学版 的规则表示如下: ①状态集合s: S={title,author,affiliation,address,abstract,note,keyword,pubnum,degree,email,date,phone, web,intro,page} ②结构特征集合sc: 一>A l B l C l…lz 一>n lb lc l…I: year2={90…04},y一>0 l 1 l2 l…l9 month2={1…12} month1={January…December,Jan….Dec.}, yearl:{1990…2004}, day={1…31} ml∈monthl,m2∈month2,yl∈yearl,y2 E year2,d∈day AC={ . ( l ) l( l ) @( .1) lPy l m1 d, 1 l(m1 l m1, 1)l m2/dl y2 l 1一m2一d…} ③语义特征集合TC: TC={Introduction,http,flp,University,Center,College,Lab(S),Laboratory(ies),PAGE, keywords,key words,abstract,for the degree of,…} ④各状态对应的特征提取规则R: R。 。 = . ( l )‘, R。 j。:( l ) @( 1.) R 。={mld,yl l(m1 l m1,) 1 l m2/d/y2 l_m2一d…} Rk。 。fd={keywords,key words,…}R b 。={abstract}… ⑤回退技术:根据规则块b的状态为email时,若前一块的格式为:“( l p)”’,则其状态也为email; ⑥前进技术:根据规则块b的状态为web时,若后一块的格式为:“~( l p)”’,则其状态也为web。 到此,在对文本进行分块的同时依据上面的语义特征和结构特征,运用回退技术和前进技术对文本 进行了第一遍过滤,得出了部分块的状态。 1.2隐马尔可夫模型及改进 建立模型:从训练文本集中统计出来各个状态对应词表m 的大小(1≤i≤N,N是状态的个数,Ⅳ :15)和总词表m(m=m.+m +…+m )的大小;并在文本分块的基础上,统计出来各个状态到其他 Ⅳ个状态的转移个数,以及作为初始状态的个数。依据上面的统计数据,根据下列公式计算隐马尔可夫 模型A:(A,B,盯)的参数值。 初始状态概率分布:叮丁={叮丁。,叮丁2,叮丁 ・・叮丁 } N” 盯: 训练文本中初始状态的总个数 ^ = v’刍” 状态转移概率矩阵:A=n , 。 = 训练文本中状态 转移到所有状态的总次数’;萋 { li蔫 ; 萋 , n ≥0, 刍 ‘N n :・ ’。,( )≥’ ,从状态 观察到单词k的概率分布矩阵 bj(凫): _! 二 — |_ ):——— 丽 —一6 (凫)≥0, N bj(凫):1): 若块b中含有n个单词k ,k ,…,k ,则状态 观察到块b的概率等于这n个单词观察概率的和 b,(k )。 1.3特征提取和隐马尔可夫模型的结合 . 在特征提取的结果上进一步运用隐马尔可夫模型进行剩余状态的抽取,特征提取中状态确定的块, 在隐马尔可夫模型中作为已知的状态使用,其b ( )设定为1,这样既减少了计算b (k)的时间又减少了 因为数据稀疏问题带来的负面影响,同时由于部分状态已确定,在运用Viterbi算法时减少了循环的次 数,大大减少了运行时间,提高了效率。 1.4数据稀疏问题的解决 维普资讯 http://www.cqvip.com 第2期 常军林等:基于特征和隐马尔可夫模型的文本信息抽取 ・57・ 语料库概率统计方法或语料库规模较小导致数据稀疏问题,传统数据稀疏问题的解决方法是使用 Lamplace平滑技术或Listone平滑技术。 Lamplace平滑技术中,样本中未出现的符号的概率=1/(m m)。 从公式中可以看到,分子和状态词表的大小无关,状态词表规模小,对应的数据稀疏概率就大,这样 算出的结果不符合本文中信息抽取的实际情况,例如:假设单词work的概率要用平滑技术解决,则其以 abstract状态出现的概率比以web状态出现的概率小(因为abstract对应的词表比web对应的词表规模 大),而实际上,work不可能以web状态出现而很可能以abstract状态出现。于是,我们在Lamplace平滑 技术的基础上进行了改进: 样本中出现的符号的概率=b (k)一1/(m +m);rrty为状态_『对应词表的大小,m为总词表的大小; 样本中未出现的符号的概率=m /m:l:1/(mj+m)。 初步的测试证明,改进的平滑技术比Lamplace平滑技术更适合文本信息抽取。 2实验结果分析 依据上面所论述的方法,本文对美国CMU大学CORA搜索引擎研制组提供的数据集 进行了测 试,该数据集提供了935篇用HTML语言标记好的计算机科学论文头部,以其中的835篇作为训练数 据,剩余的100篇作为测试数据,并以状态精确度、状态召回率和总正确率作为评测标准。 状态精确度=笙曩善 霉 謦 娄蓑 状态召回率= 瑟 总正确率= 襞 表1 基于词和传统隐马尔可夫模型结果 表2基于分块和新隐马尔可夫模型结果 测试的结果如表2所示。表1是基于词运用传统隐马尔可夫模型所得的结果,其中以400篇作为 训练数据,100篇作为测试数据。分析表中的数据,表2中的召回率和精确度较之表1都有很大提高。 由于title状态没有明显的特征词,所以用此方法召回率并没有达到理想的值,但较之表1还是有很大的 提高;note状态召回率不高的原因是因为在该标记为note状态的块中,可能含有afifliation状态的特征 词或date状态的特征词,以至于在第一次进行文本过滤的时候已经标记为affiliation状态或date状态, 再运用隐马尔可夫模型进行识别,这些状态的值没有改变,因此在下步的工作中会更加严谨的划分状态 和制定特征抽取的规则。 (下转第7O页) 维普资讯 http://www.cqvip.com
・70・ 河南科技大学学报:自然科学版 2008拄 (3)随着垂跨比的增大,结构的变形明显减小,撑杆轴力逐步增大,跨中下弦杆轴力经历了由拉力 转变为压力的变化过程,其他构件随着垂跨比的增加内力持续减小。由于拉索和撑杆的用钢量占总用 钢量的比例小,所以增大垂跨比将有利于降低结构的用钢量。鉴于建筑效果、结构稳定性和使用功能方 面的考虑,建议结构的垂跨比取0.1,大于0.1时结构的位移和构件内力减小幅度变缓,且此时结构的 跨中挠度和支座的水平位移都在较小范围内; (4)随桁架截面高度的增大,结构变形呈线性减小,且不利的支座下弦杆和索的内力均减小,从而 达到提高结构刚度,改善结构受力性能的效果。但考虑到桁架腹杆的用钢量在总用钢量中占不少比例, 如果桁架截面高度太大,势必会使桁架腹杆的用钢量剧增,导致结构的不经济。所以本文认为桁架截面 高度与跨度之比在0.023左右比较合适。 参考文献: [1] 刘永周.张弦立体桁架结构力学性能分析[D].兰州:兰州理工大学,2004. [2] 白正先,刘锡良,李义生.单榀张弦梁结构各因数的影响分析[J].钢结构,2001,16(3):42—46. [3] 陈荣毅,董石麟.大跨度张弦钢桁架的预应力施工[J].空间结构,2003,9(2):6l一63. [4] 陈汉翔,舒宣武.预应力值对张弦梁结构受力性能的影响分析[J].华南理工大学学报:自然科学版,2003,31(5) 79—84. [5] 黄明鑫等.大型张弦梁结构的设计与施工[M].济南:山东科学技术出版社,2005. [6] 赵宪波,叶继红.张弦梁(桁架)结构荷载态受力性能分析[J].空间结构,2005,11(2):9—18. (上接第57页) 对于相同的测试集,文献[6]中测试结果的总正确率为92.9%,本文中结果的总正确率为94.79%, 较之有一定的提高。 3 结束语 针对英文科学论文头部进行了信息抽取,旨在建立一个通用的系统,用户可以设定信息抽取的领域 和文本源,同时制定特征提取规则或者其他方面提取规则,并进一步自动获取隐马尔可夫模型参数,从 而对不同领域进行信息抽取。 参考文献: [1] 孙斌.信息提取技术概述(下)[J].术语标准化与信息技术,2003(1):34—37. [2] Srihari R.A Question Answering System Supported by Information Extraction[c]//Proceedings of ANLP 2000.Seattle, 2000. [3] Freitag D,McCallum A.Information Extraction with HMMs and Shrinkage[c]//Working Notes of the AAAI一99 Workshop on Machine Learning for Information Extraction Orlando,FL,1999,AAAI Press. [4]McCallum A,Freitag D.Maximum Entropy Markov Models ofr Information Extraction and Segmentation[C]//Proceedings of the Seventeenth International Conference on Machine Learning.Stanford,CA,Morgan Kaufmann,2000:591—598. [5] Seymore K,McCallum A,Rosenfeld R.Learning Hidden Markov Model structure for Information Extraction[c]//Working Notes of the AAAIWorkshop on Machine Learning for Information Extraction.AAAI Press.1999:37—42. [6] Rohini K,Srihafi.InfoXtraet:A Customizable Intermediate Level Ifnormation Extraction Engine[C]//Proceedings of HLT/ NAACL 2003 Workshop on Software Engineering and Architecture of Language Technology Systems(SEALTS),2003:52 —59.