您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页基于Adaboost框架下自动编码器提升方法的文本分类

基于Adaboost框架下自动编码器提升方法的文本分类

来源:化拓教育网
ELECTRONICS WORLD·技术交流 基于Adaboost框架下自动编码器提升方法的文本分类 山东科技大学电气与自动化工程学院刘广秀宋单单 【摘要】针对文本分类问题,使用深度学习算法中的自动编码器模型网络建造Adaboost框架下的弱分类器,并且在自动编码器神经网络部分 引入噪声,引入神经元间歇性工作机制,更改不同参数以及层数构造弱分类器。利用神经网络的稀疏性提高分类器的泛化性, ̄Adaboost 框架实现深度学习的集成算法。 【关键词】SAE;Adaboost;文本分类;激励函数 0引夸 大数据时代的到来,网络的普及,信息量呈爆炸性趋势增长,人 们迫切需要一种实用性技术来有效的地组织和管理信息。从大量的信息 中获取有效信息变得尤为重要。文本挖掘、自然语言处理、信息检索等 技术很好地解决了信息过载时代的文本数据管理问题,文本分类技术 作为这些领域的重要基础,在近年来得到了快速发展和广泛关注【1]。文 本分类的方法有很多,典型的有朴素贝叶斯分类器 、BP神经网络分类 器、 丘邻算法(KNN)、支持向量机(SVM)分类器等,这些分类 器在文本分类中均取得了很好的效果。并且在传统分类器的使用上, 有很多学者提出了改进方案,使得分类效果有所提升。比如基于深 度信念网络的文本分类器算法[1。],基于稀疏编码器的文本分类算法【7] 等。深度学习作为一种新兴的多层神经网络降维算法,通过组建含有 多个隐层的神经网络深层模型,对输入的高维数据逐层提取特征,以 发现数据的低维嵌套结构,形成更加抽象有效的高层表示【8】。传统BP 神经网络梯度越来越稀疏,易于收敛于局部最优,有标签的训练数据 类别涵盖不全,且类别比例差别较大,使用深度学习网络很易产生过 拟合问题。根据己有的深度学与boosting结合案例,本文提出AdabOOSt 与编码器深度学习算法相结合算法。结合深度学习网络提取特征良好 的特点,本文提出使用深度学习网络中的SAE网络作为Adaboost ̄架下 的弱分类器,使用不同激励函数等参数变换构造不同的自动编码器网 络,加入Adaboosc框架的思想实现深度学习集成算法。 1 Adaboost算法 Boosting算法是一种把若干个分类器整合为一个分类器的方法, 能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度高的强 学习器,这在直接构造强学习器非常困难的情况下,为学习算法的设计 提供了一种有效的新思路和新方法.作为一种元算法框架,Boosting几 乎可以应用于所有目前流行的机器学习算法以进一步加强原算法的预 测精度,因此应用十分广泛,产生了极大的影响。Boosting方法有许多 不同的变形,更具一般性的AdaBoost形式由ROBERT E.SCHAPIRE和 YORAM SINGER在1999年提出,其核心思想是针对同一个训练集训 练不同的分类器,然后把这些弱分类器集合起来,构成一个更强的最 终分类器【5】。Adaboost的算法流程如下: 第1步:给定一组具有标签的训练数据集: r一 ,Y1),…,(I .,v)】 其中:x。e , er= ,一 。 第2步:初始化训练数据的权值分布。每一个训练样本最开始 时都被赋予相同的权值:1/N。 Dl=(wll1 w12,… ,…,w ), = 1,f=l五…,Ⅳ 第3步:使用弱学习算法,迭代m=l,2,3…M次。 a.使用具有权值分布的全训练集,进行基本元分类器 训练得到 ,或按照权重w1对训练集进行采样后对元分类器 训练得到分类器 。 b.计算 在训练数据集上的分类误差率公式: Ⅳ =P( (I )≠ )=∑ ^t(x )≠ ) 即C朋在训练集上的误差率就是被c删分类错误的样本的权值之和。 C.计算弱分类器c 的权值系数公式: : hI |l- d.更新训练数据集的权值公式: D枷= ÷ I' } …Ⅵ|-哪,…,w ) wl“=—=型cxp(一噶 ^。(I1)),f=1,2,…,N z曩 是规范化因子,使得 1为一个概率分布: z =∑w,,er.p(-a.rl^.(工1)) 第4步:组合各弱分类器得到最终分类器表达式: jf 日(I)=。 ∑ . (I)】 上述式子组成了Adaboost算法的基本步骤。Adaboost算法的自 适应性在于:前一个基本分类器分错的样本会得到加强,加权后的 全体样本再次被用来训练下一个基本分类器。 2降嗓稀疏自动编码器 基本自动编码器的描述如下:自动编码器是运用了反向传播 进行无监督学习的神经网络,学习的目的就是输出信号尽可能复现 输入信号。为了实现这种复现,自动编码器就必须捕捉可以代表输 入数据的最重要的特征,就像主成分分析那样,找到可以代表原 信息的主要成分[4]。基本的自动编码器接收输入向量x,在激活函 数的作用下对其进行线性变化,得到一个编码结果y【3】。本文选取 sigmoid函数作为激活函数,计算公式如下: y= (I)=s(Wx)+b,z=gs )=soy +h’。 o={矿,h)为编码参数,0 = ,hr}为解码参数。其中矿是一个 ,×d的权重矩阵。旷,为 的转置矩阵,b和b r是偏置向量。 稀疏自动编码器是加上一些约束条件得到的新的Deep Learning 方法。在AutoEncoder的基础上加上Ll的Regularityg[ ̄¥0(L1主要是 约束每一层中的节点中大部分都要为0,只有少数不为0),我们就 可以得 ̄lJSparse AutoEncoder法[2】。 SAE损失函数表达式:£札 ); 一 +^ 降噪自动编码器是在自动编码器的基础上,在训练数据中加入 噪声,所以自动编码器必须学习去除这种噪声而获得真正的没有被 噪声污染过的输入[7]。因此,这就迫使编码器去学习输入信号更加 鲁棒性的表达,这也就促使了它的泛化能力比一般编码器强。DA 可以通过梯度下降算法去训练。 3基于Adaboost算法和降嗓稀疏自动编码器的文本分类模型 本文以DsAE(降噪稀疏自动编码器)为弱分类器基本原型嘲,调整 层数以及激励函数种类构造不同条件下的弱分类器,使用NI脓分词系统 提取文本特征,使用TRDF作为词语的权值,根据该权值来选择特征词, 并l 词 唯 崦籀一壁 燕继 图臭咽 所 ………. ^ 螺啪瞳5 矗_哺雌l l 输入文本特征 i -q^忙-自I嚏3^E曩矗_·2 l—_. It法迭 体输出损人伤 样本敬据预处理卜 --4^悱-由 童 ^E—矗—·, 代运葺 程度强 ’ 测嚣 : — ^幛-e埔嚏^^|-删·k l-—· 图1基于Adaboost算法和SAE网络的人体损伤程度预测流程 (下转第197页) 电-]-tmlll·195· 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务