您好,欢迎来到化拓教育网。
搜索
您的当前位置:首页网易云音乐评论抓取实验(2)朴素贝叶斯入门:通过概率对评论情绪分

网易云音乐评论抓取实验(2)朴素贝叶斯入门:通过概率对评论情绪分

来源:化拓教育网
实验效果
输入了三个评论,判断其属于两首歌的概率从而确定归属。(两首歌分别是 和 )

想法由来

把评论爬到之后首先想的就是先做个词云看看这首歌的评论大致是什么画风,比如《权御天下》

权御天下
(呃…这个大哭是emoji里面的笑哭的表情,大家不要误会了) 就是这个表情

好几个大大的 笑哭 拍到脸上,就知道评论区应该比较欢乐啦~
也就是说,欢乐的歌曲里面出现体现欢乐情绪的评论会更多一些,悲伤的同理。如果从里面随机选评论出来,我们能知道这个评论属于哪首歌吗?

双笙《达拉崩吧》 双笙 《我的一个道姑朋友》

这篇文章的例子是以同一个歌手的两首不同风格的歌作为样本,如果样本是两个不同音乐情绪的专辑,那么是不是就可以根据评论分出一首歌是快乐还是忧伤呢?

朴素贝叶斯

贝叶斯公式
Ci(Class)代表第i个分类,向量w(words)代表一句话中的词语,含义为:
出现向量w(w1,w2,w3,…)组成的一句话的前提下,
它属于类别*i*的概率=在类别*i*中出现这句话的概率*任一句子属于类别*i*的概率/出现这句话的概率
而我们需要比较p(c0|w) p(c1|w)谁更大,所以可以忽略这个相同的分母p(w),代码中我设定两类均使用2000条评论作为样本,所以p(c)也相等可以忽略啦。

“喂喂喂,你快别bb了,你说的啥啊,看不懂!!!”

咳咳…我也一看到公式就发懵…那就直观点说。来看看我们是如何区分的吧,如果看到“哈哈哈哈哈哈”什么的,那就是第一首没跑了;“道姑”“道长”什么的,那就会是第二首啦。也就是特定词汇两首歌中出现的概率不同。
后续就抄一抄书了。

“朴素”的含义

代码实现

上面提到,我们只需搞定p(w|c)就行了,也就是在各个分类下各个词出现的概率,统计各个词出现的次数,再除以一共有多少个词就好啦!……嗯,我真想给自己一巴掌,说的真轻松呢。

统计出现了哪些词

把所有的评论的词语都扔到集合里,就是所有用到的词了!但是我们为了便于统计出现的次数,还是得用有序的列表啊。大概就是这样一种表示方法:

使用向量表示句子
所以代码的开头是这样的,用来提取爬虫数据,转换为词语,并构造出总的词语列表出来:
import jieba
from numpy import array
from numpy import log
import numpy
import copy
class nativebayes:
    def load(self,songtype):
        with open('%s_comment_train.txt'%str(songtype),encoding='utf-8') as f:
            comments=f.readlines()
        comments_list=[]
        for i in comments:
           comments_list .append(jieba.lcut(i))
        return comments_list

    #将所有出现过的词语转为列表

    def createwordslist(self,comments_list):
        wordsset=set([])
        for words in comments_list:
            wordsset=wordsset|set(words)
        #转换为有序列表
        return list(wordsset)

统计出现的概率

一张图说明如何操作

计算示意图

把每个评论的向量加起来就是出现次数了,再除以总的字数就是每个词语出现的概率了啦。
首先是转换为向量表示

    def words2vec(self,wordslist,comment):
        returnVec=[0]*len(wordslist)
        #在之前已经被切分好了
        for word in comment:
            if word in wordslist:
                #将评论中出现的词在Vector中标记
                returnVec[wordslist.index(word)]=1
        return returnVec

这里是以是否出现作为特征,为词集模型(set-of-words),如果再细一点,以出现次数作为特征的话,则为词袋模型(bag-of-words)。我想评论里可能存在“啊啊啊啊二狗二狗二狗!!!我爱你我!爱!你!”这种重复就没什么意思,所以就用的词集模型。
然后是计算概率

    #计算p(c1),p(w|c1)
    def trainNB(self,trainMatrix):
        #因为均统计1000条评论,所以概率相等
        p_class=0.5
        #Class中词语的总数 即一个wordslist的长度
        numwords=len(trainMatrix[0])
        words_statics=numpy.ones(numwords)
        words_totalnum=0.0
        for wordslist in trainMatrix:
            #将各个词出现的次数累加
            words_statics+=wordslist
            #统计评论中总的词数
            words_totalnum+=sum(wordslist)
            p_vect=log(words_statics/words_totalnum)
        return p_class,p_vect

注意!注意!这里为什么出现log呢?先看看如果不加log运行过程中p和总词列表是怎样的吧。

词语与对应概率
各个词出现的概率p很小,如果统计的文本(上面的图片仅仅是抓了50条评论得出的结果)特别大的话,最终的乘积p用float64储存也会约等于0,即乘积过小,约等于0。
所以书上的解决方式是把乘积转为求和,即取个对数,反正是比较大小嘛,取对数不会影响。
还有一个地方!为什么统计的变量初始化是words_statics=numpy.ones(numwords),都要从1开始呢?
这是因为对种类0来说,种类1的词不一定会出现(比如种类1中有个人发了个啥无关痛痒的“特朗普”),所以样本采集之后,P(特朗普|c0)=0,然后我来测试一条新的评论,恰好出现了这个词,就会导致种类0的最终乘积为0,从而仅仅因为一个词导致其最后判定为种类1,有失公允。所以可以把所有词出现次数初始化为1,也不会影响最终结果的裁定。

测试

针对两首歌各写一个评论,再写一个无法分类的评论,来看看测试效果吧:

if __name__=='__main__':
    bayestest=nativebayes()
    totalcomments=[]
    #这里用append 是因为totalcomment[0] [1]分别为两种评论,均为列表
    totalcomments.append(bayestest.load(0))
    totalcomments.append(bayestest.load(1))
    totalcomments_a=copy.deepcopy(totalcomments[0])
    #这里用extend是因为totalcomments_a全为评论
    totalcomments_a.extend(totalcomments[1])
    wordslist=bayestest.createwordslist(totalcomments_a)
    p=[0,0]
    p_wv=[[],[]]
    for i in range(0,2):
        wordslist_matrix=[]
        for comment in totalcomments[i]:
            #将每个评论转换为词组出现的向量形式,并加入总的矩阵中用做统计
            wordslist_matrix.append(bayestest.words2vec(wordslist,comment))
        p[i],p_wv[i]=bayestest.trainNB(array(wordslist_matrix))
        # print(p_wv[i])
    test_commentV_0=bayestest.words2vec(wordslist,jieba.lcut('哈哈哈笑死我了'))
    test_commentV_1=bayestest.words2vec(wordslist,jieba.lcut('剑三的歌!很喜欢的故事!'))
    test_commentV_2=bayestest.words2vec(wordslist,jieba.lcut('双笙的歌真好听!'))
    bayestest.getP(test_commentV_0,p_wv[0],p_wv[1])
    bayestest.getP(test_commentV_1,p_wv[0],p_wv[1])
    bayestest.getP(test_commentV_2,p_wv[0],p_wv[1])

相比于模棱两可的第三条双笙的歌真好听来说,第一条评论哈哈哈笑死我了明显P0>P1,属于第一首歌的情绪风格;第二条针对歌曲来源的评论剑三的歌!很喜欢的故事!P1>P0,属于第二首歌的情绪风格。
咩哈哈哈!表现还挺好的呢!

总结

Copyright © 2019- huatuo9.cn 版权所有 赣ICP备2023008801号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务