(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 1087268 A(43)申请公布日 2018.11.06
(21)申请号 201810281663.3(22)申请日 2018.04.02
(71)申请人 华南理工大学
地址 5100 广东省广州市天河区五山路
381号(72)发明人 梅登华 戴立武
(74)专利代理机构 广州市华学知识产权代理有
限公司 44245
代理人 李斌(51)Int.Cl.
G06K 9/62(2006.01)G06F 17/30(2006.01)
权利要求书2页 说明书4页 附图3页
(54)发明名称
一种基于深度学习的图文多模态情感识别方法
(57)摘要
本发明公开了一种基于深度学习的图文多模态情感识别方法,包括如下步骤:(1)数据采集,利用Python Scrapy框架构建社交媒体网络爬虫,采集图文数据;(2)数据预处理,对数据采集步骤采集的中文文本和媒体进行预处理;(3)图文标注,用于对处理后的图文媒体进行标注;(4)图片特征提取,训练出cnn提取图片特征;(5)文本向量化,运用word2vec训练词向量;(6)模型训练,将标注后的图文媒体通过lstm神经网络模型进行训练。本发明构建一种多模态的情感分析模型,旨在充分利用当今媒体信息的特点,通过结合图片信息,更加充分的进行情感识别,提高了情感识别效果。
CN 1087268 ACN 1087268 A
权 利 要 求 书
1/2页
1.一种基于深度学习的图文多模态情感识别方法,其特征在于,所述的图文多模态情感识别方法包括:
数据采集步骤,从多媒体数据源采集图文数据;图文预处理步骤,预处理采集到的原始图文数据中的中文文本和媒体;图文标注步骤,对处理后的图文媒体进行情感正负类标记;图片特征提取步骤,通过训练得出的cnn卷积神经网络提取图片特征:文本向量化步骤,将训练文本转化为向量,提供给多模态情感识别模型进行模型训练;模型训练步骤,将标注后的图文媒训练用于多模态情感分析的lstm神经网络模型。2.根据权利要求1所述的一种基于深度学习的图文多模态情感识别方法,其特征在于,所述的数据采集步骤中利用Python Scrapy框架构建社交媒体网络爬虫采集多媒体数据源中的图文数据。
3.根据权利要求1所述的一种基于深度学习的图文多模态情感识别方法,其特征在于,所述的图文标注步骤中运用自动标注与人工标注结合,使用现有的开源文本情感分析方法进行数据情感分析,对情感极性较明显的数据进行自动标注,其他情感极性并不明显的进行人工标注。
4.根据权利要求1所述的一种基于深度学习的图文多模态情感识别方法,其特征在于,所述的图片特征提取步骤中采用公开数据与采集的数据进行训练,构建cnn卷积神经网络,抽取图片特征,然后采用cnn卷积神经网络训练单纯的标注情感的图片,提取情感特征,采用keras搭建此cnn卷积神经网络。
5.根据权利要求4所述的一种基于深度学习的图文多模态情感识别方法,其特征在于,所述的cnn卷积神经网络包括如下九层:
第一层是第一卷积层,图片初始大小为100×100×3像素大小的图像,该图像为三通道的RGB图像,采用大小为3×3像素的32个过滤器,步长为1,激活函数设置为ReLU函数;
第二层是第一池化层,采用最大池MaxPooling2D,poolsize为(2,2);第三层是第二卷积层,采用大小为3×3像素的32个过滤器,激活函数设置为ReLU函数;第四层是第二池化层,采用最大池MaxPooling2D,poolsize为(2,2);第五层是dropout层,rate设为0.5,防止过拟合;第六层是第一flatten层,实现的输入一维化;第七层是第一全连接层,输入上一神经网络层的输出展开后的向量,输出400维的向量,激活函数设置为ReLU函数;
第八层是第二全连接层,输入是400维的输入向量,此层为两个神经元,即输出二维数据,激活函数设置为ReLU函数;
第九层是Softmax分类层,通过Softmax分类器产生分类结果。
6.根据权利要求1所述的一种基于深度学习的图文多模态情感识别方法,其特征在于,所述的文本向量化步骤中利用word2vec训练词向量,输出词向量维度设置为400,其训练数据由公开的语料与采集到的语料一同作为训练样本。
7.根据权利要求1所述的一种基于深度学习的图文多模态情感识别方法,其特征在于,所述的模型训练步骤中采用设计的lstm网络结构训练图文多模态数据集,在lstm神经网络模型之前,需要通过embedding层忽略掉填充的0向量,所述的lstm网络结构的初始时间步
2
CN 1087268 A
权 利 要 求 书
2/2页
的输入为图像特征向量,采用的激活函数为ReLU函数,最后一层连接Softmax分类器进行二分类。
3
CN 1087268 A
说 明 书
一种基于深度学习的图文多模态情感识别方法
1/4页
技术领域
[0001]本发明涉及自然语言处理技术领域,具体涉及一种基于深度学习的图文多模态情感识别方法。
背景技术
[0002]情感分析(SA)又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。情感分析可应用于电子商务,品牌声誉管理、舆情分析等众多领域。随着微博类社会媒体的广泛应用,用户讨论自己使用的产品和服务,或表达自己的政治和宗教观点,微博网站已经成为人们评论与情感信息的宝贵来源。现在对此类数据做情感分析已经受到研究者的广泛关注。[0003]目前为止,大部分微博情感分析研究都只关注于如何对文本信息进行分析,但是微博等媒体用户情感表达方式正逐渐转变,从以往的文本为主到现在的图文结合,基于文本信息的情感分析方法已经不足以很好的获取微博消息的情感极性。
[0004]情感计算的方法主要基于词典/规则的方法以及基于统计学习/深度学习的方法,本发明通过基于深度学习的方法进行情感分析,利用CNN模型对图片进行特征表示,抽取情感关联特征,利用word embending技术训练词向量,最后利用lstm网络进行情感的分析计算。多模态情感分析模型挖掘以及学习图像与文本在情感表示方面的特点,进而描述图像与文本的复杂关系,提高情感识别的准确率。发明内容
[0005]本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于深度学习的图文多模态情感识别方法,该方法更多考量了文本的情感特征,结合图片特征进行情感识别,利用CNN卷积神经网络抽取图片特征,与文本向量一起作为情感分析模型的输入,用此方法结合图文情感特征,输出图文的情感正负类别。
[0006]本发明的目的可以通过采取如下技术方案达到:[0007]一种基于深度学习的图文多模态情感识别方法,所述的图文多模态情感识别方法包括:
[0008]数据采集步骤,从多媒体数据源采集图文数据;[0009]图文预处理步骤,预处理采集到的原始图文数据中的中文文本和媒体;[0010]图文标注步骤,对处理后的图文媒体进行情感正负类标记;[0011]图片特征提取步骤,通过训练得出的cnn卷积神经网络提取图片特征:[0012]文本向量化步骤,将训练文本转化为向量,提供给多模态情感识别模型进行模型训练;
[0013]模型训练步骤,将标注后的图文媒训练用于多模态情感分析的lstm神经网络模型。
[0014]进一步地,所述的数据采集步骤中利用Python Scrapy框架构建社交媒体网络爬
4
CN 1087268 A
说 明 书
2/4页
虫采集多媒体数据源中的图文数据。[0015]进一步地,所述的图文标注步骤中运用自动标注与人工标注结合,使用现有的开源文本情感分析方法进行数据情感分析,对情感极性较明显的数据进行自动标注,其他情感极性并不明显的进行人工标注。[0016]进一步地,所述的图片特征提取步骤中采用公开数据与采集的数据进行训练,构建cnn卷积神经网络,抽取图片特征,然后采用cnn卷积神经网络训练单纯的标注情感的图片,提取情感特征,采用keras搭建此cnn卷积神经网络。[0017]进一步地,所述的cnn卷积神经网络包括如下九层:[0018]第一层是第一卷积层,图片初始大小为100×100×3像素大小的图像,该图像为三通道的RGB图像,采用大小为3×3像素的32个过滤器,步长为1,激活函数设置为ReLU函数;[0019]第二层是第一池化层,采用最大池MaxPooling2D,poolsize为(2,2);[0020]第三层是第二卷积层,采用大小为3×3像素的32个过滤器,激活函数设置为ReLU函数;
[0021]第四层是第二池化层,采用最大池MaxPooling2D,poolsize为(2,2);[0022]第五层是dropout层,rate设为0.5,防止过拟合;[0023]第六层是第一flatten层,实现的输入一维化;[0024]第七层是第一全连接层,输入上一神经网络层的输出展开后的向量,输出400维的向量,激活函数设置为ReLU函数;[0025]第八层是第二全连接层,输入是400维的输入向量,此层为两个神经元,即输出二维数据,激活函数设置为ReLU函数;[0026]第九层是Softmax分类层,通过Softmax分类器产生分类结果。[0027]进一步地,所述的文本向量化步骤中利用word2vec训练词向量,输出词向量维度设置为400,其训练数据由公开的语料与采集到的语料一同作为训练样本。[0028]进一步地,所述的模型训练步骤中采用设计的lstm网络结构训练图文多模态数据集,在lstm神经网络模型之前,需要通过embedding层忽略掉填充的0向量,所述的lstm网络结构的初始时间步的输入为图像特征向量,采用的激活函数为ReLU函数,最后一层连接Softmax分类器进行二分类。
[0029]本发明相对于现有技术具有如下的优点及效果:[0030]1)自动标注与人工标注相结合,提高了标注的效率,也保证了标注数据集的质量。[0031]2)用训练后的卷积神经网络cnn提取图像情感特征向量,充分利用cnn在图像处理上的优势,能充分提取到图像特征。
[0032]3)用带图像特征的数据进行情感分析,在纯文本的基础上加入图片特征,充分挖掘现今多媒体的特点。
附图说明
[0033]图1是本发明公开的基于深度学习的图文多模态情感识别方法的流程示意图;[0034]图2是本发明中使用的爬虫方法逻辑图;[0035]图3是本发明中使用的cnn模型结构图;
[0036]图4是本发明中使用的用于情感识别的lstm模型图;
5
CN 1087268 A[0037]
说 明 书
3/4页
图5是本发明中所建立的多模态情感识别模型图。
具体实施方式
[0038]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。[0039]实施例
[0040]根据附图1所示的基于深度学习的图文多模态情感识别方法的流程示意图,本发明主要包括以下几个步骤:[0041]数据采集步骤,用于从微博等多媒体数据源采集图文数据;[0042]在数据采集步骤中,具体方案为使用python2.7版本下爬虫框架Scrapy,Scrapy使用了Twisted异步网络库来处理网络通讯。如附图2中的数据采集方法逻辑图,本爬虫用控制器管理爬虫的各步骤,用字典数据结构管理待爬取的url,对于持久化器,直接以文本和图片方式存储于文件中。解析器采用的是Scrapy的查询语法,Scrapy内部支持更简单的查询语法,帮助在html中查询我们需要的标签和标签内容以及标签属性。[0043]图文预处理步骤,用于处理采集到的原始图文数据;[0044]在图文预处理步骤中,本发明额外下载部分网络公开的图像情感分析数据(如iaps数据集),本实施例直接下载了网络上分享的数据(其中积极图片250张,消极图片250张),并将微博下载的图片压缩成相同格式,本实施例采用的压缩方法是基于PIL的Image步骤所提供的函数resize()等。对于文本的处理,主要是对于emoji和超链接的处理,本实施例具体方法是将emoj替换为其简单的中文文本如(笑哭,尴尬等),将超链接删除仅仅表示为中文“链接”。
[0045]图文标注步骤,用于标注预处理后的数据;[0046]在图文标注步骤中,详细的做法是,将处理后的文本数据通过snownlp开源工具进行分词,情感分析,对满足一定特征的文本,进行标注,比如本实施例对于情感极性小于0.3或大于0.7的数据进行自动标注,对其他图文进行人工标注。最后将训练集和测试集分别去80%和20%的数据,所采用的函数为train_test_split,test_size为0.2。[0047]图片特征提取步骤,用于通过cnn卷积神经网络提取图片特征;[0048]在图片特征提取步骤中,本发明采用如图3所示的cnn卷积神经网络,本发明的实施例共九层网络,为卷积层、最大池化层、激活层、dropout层、全连接层、flatten层和Softmax分类层按照图3连接,即将倒数第二个全连接层的输出作为图片情感特征。通过下载的数据集与自己标注的训练数据集训练模型,得到本特征提取的cnn网络。[0049]文本向量化步骤,用于将训练文本转化为向量,提供给情感识别模型进行模型训练;
[0050]在文本向量化步骤中采用的是word2vec tool,本实施例采用采集到的文本数据以及网络公开的微博语料库训练词向量,并设置输出词向量的的维度size与前面的cnn卷积神经网络的特征维度一致,设置为400。具体过程是首先利用分词工具进行分词,如jieba分词,得到分词语料corpsw2v.txt然后import word2vec,使用其中的word2vec函数进行分
6
CN 1087268 A
说 明 书
4/4页
词并将结果保存。最后将数据集中的文本表示成词向量保存,并合并cnn网络模型输出的图片情感特征向量,用于训练lstm网络。[0051]其中,图片特征提取步骤与文本向量化步骤可并行处理。[0052]模型训练步骤,用于训练用于多模态情感分析的lstm模型。[0053]本方法中的lstm模型,如图4所示,通过训练有监督的带有图片情感特征向量的文本,构建多模态的情感识别模型,在lstm网络之前,使用嵌入层嵌入层Embedding过滤掉0向量的时间步,因为输入的句子长度不一,通过pad_sequences处理成了相同长度,此实施例子选用了softmax激活函数分类(当然也可以采用sigmoid函数),本模型输出图文媒体的正负类特征。这里损失函数用交叉熵损失函数categorical_crossentropy,优化方法用Adam。通过调整其他超参数的值,得到较好模型后保存,用于对未知数据的情感分析,以及测试等。
[0054]图5即为本方法所建立的多模态情感识别模型,应用过程中,将图片通过cnn网络提取特征与文本向量作为输入到lstm网络进行情感识别。在具体应用工程中,需按本发明的步骤对图文进行预处理,以及进行分词,向量化等操作,然后输入到模型中识别情感极性。测试过程中,可通过准确率,召回率,F1值等参数评判模型能力。[0055]综上所述,针对现今微博、微信朋友圈等媒体中图文媒体的特点,本方法重点通过cnn提取图像特征,结合图像特征进行情感识别,在单文本的基础上更好的利用了当今富媒体的特点,以此让情感分析模型更加充分的挖掘数据特征,提高情感分类的效果。[0056]上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
7
CN 1087268 A
说 明 书 附 图
1/3页
图1
图2
8
CN 1087268 A
说 明 书 附 图
2/3页
图3
图4
9
CN 1087268 A
说 明 书 附 图
3/3页
图5
10