一、需求分析

1.项目背景:

在我国电子商务飞快发展的背景下,基本上所有的电子商务网站都支持消费者对产品的相关内容(商品、服务、卖家)等进行打分和发表评论。例如:C2C 网站允许客户对卖家的服务打分和发表评论。客户可以通过网络进行沟通和交流,在网络平台上发布大量的留言和评论,这已经成为互联网的一种流行形式,而这种形势必然给互联网带来海量的信息。对于卖家来说,可以从评论信息中获取客户的实际需求,以改善产品品质,提高自身的竞争力。另一方面,对于一些未知体验产品,客户可以通过网络来获取产品信息,特别是对一些未知的体验产品,客户为了降低自身的风险更加倾向于得到其他客户的意见和看法,这些评论对潜在的买家而言无疑是一笔财富,并以此作为决策的重要依据。对于客户来说,可以借鉴别人的购买历史以及评论信息,更好的辅助自己制定购买决策。
    因此,通过利用数据挖掘技术针对客户的大量评论进行分析,可以挖掘出这些信息的特征,而得到的这些信息有利于生产商改进自身产品和改善相关的服务,提高商家的核心竞争力。

2.项目介绍

在21世纪人工智能大数据时代,网上购物已经成为大众生活的重要组成部分。人们在电商平台上浏览商品并购物,产生了海量的用户行为数据,用户对商品的评论数据对商家具有重要的意义。利用好这些碎片化、非结构化的数据,将有利于企业在电商平台上的持续发展,同时,对这部分数据进行分析,依据评论数据来优化现有产品也是大数据在企业经营中的实际应用。

本项目将主要针对用户在电商平台上留下的评论数据,对其进行分词、词性标注和去除停用词等文本预处理。基于预处理后的数据进行情感分析,并使用LDA主题模型提取评论关键信息,以了解用户的需求、意见、购买原因及产品的优缺点等,最终提出改善产品的建议,使企业得经营越来越好。

图1.项目流程图

3.挖掘目标

本文主要是对京东商城上的华为手机评论数据进行文本挖掘分析,根据提供的数据需实现以下目标:

1)对华为荣耀50手机的评论进行情感分析。

2)从评论文本中挖掘用户的需求、意见、购买原因及产品的优缺点。

3)根据模型结果给出改善产品的建议。

4.分析流程

评论数据情感分析流程,主要步骤如下:

1)利用爬虫(爬虫程序可以是自己撰写的Python爬虫或者八爪鱼等爬虫程序)对华为手机荣耀50的评论进行爬取。

2)利用爬取的华为手机荣耀50的评论数据,对评论文本数据进行数据清洗、分词、停用词过滤等操作。

3)对预处理后的数据进行情感分析,将评论文本数据按照情感倾向分为正面评论数据(好评)和负面评论数据(差评)。

4)分别对正、负面评论数据进行LDA主题分析,从对应的结果分析文本评论数据中有价值的内容。

二、数据收集

1.手机品牌的选择

目前,我国国产的手机品牌有很多,根据中关村在线的手机排行榜可知,国产品牌 华为位居第三,品牌综合评分为 98.6分,品牌占有率为 15.8%,具体见下图中关村在线手机品牌排行榜。

图2.中关村收集手机排行榜

2.数据采集

本文需要使用的数据包括京东商城华为手机官方旗舰店的买家评论的基本属性,买家名,买家级别、评价星级、评论内容、评论时间等。首先,根据选定的研究对象,熟悉相关的背景知识,利用网络爬虫软件对待定数据进行抓取,然后,对分散的数据按照一定的规则或者格式合并,接下来,对不符合条件的数据进行数据清洗,清除错误,冗余和数据噪音,以此保障数据质量。本文使用研究数据抓取的工具是“python”。

在京东华为手机官方旗舰店上以“华为”为关键词进行搜索,按照月销量从高到低排名,发现 华为荣耀50 排名第三,故选择华为手机各个型号累计评论数据作为基础,同时,考虑到有追加评论的买家评论具有更高的信息含量和可靠性,从众筛选含有追加评论的买家在线评论进行买家在线评论数据挖掘,其中,买家在线评论数据包括初次评论时间、初次评论内容、追加评论内容等,采集时间为 2021121日。

三、数据预处理

1.数据去重

一些电商平台为了避免一些客户长时间不进行评论,往往会设置一道程序,如果用户超过规定的时间仍然没有做出评论,系统就会自动替客户做出评论,这类数据显然没有任何分析价值。

由语言的特点可知,在大多数情况下,不同购买者之间的有价值的评论是不会出现完全重复的,如果不同购物者的评论完全重复,那么这些评论一般都是毫无意义的。显然这种评论中只有最早的评论才有意义(即只有第一条有作用)。

有的部分评论相似程度极高,可是在某些词语的运用上存在差异。此类评论即可归为重复评论,若是删除文字相近评论,则会出现误删的情况。由于相近的评论也存在不少有用的信息,去除这类评论显然不合适。因此,为了存留更多的有用语料,本节针对完全重复的语料下手,仅删除完全重复部分,以确保保留有用的文本评论信息。关键代码如下:

华为荣耀50的评论共9018条,经过文本去重,共删除重复评论118条,剩余评论8900条。

2.类型转换

把评分转换为pos、neg:评分为1、2、 3转换为neg;评分为4、5转换为pos。关键代码如下:

3.数据清洗

通过人工观察数据发现,评论中夹杂着许多数字与字母,对于本项目的挖掘目标而言,这类数据本身并没有实质性帮助。另外,由于该评论文本数据主要是围绕华为手机荣耀50进行评价的,其中“京东”“ 手机”“ 荣耀”“ 华为手机”,”荣耀手机”等词出现的频数很大,但是对分析目标并没有什么作用,因此可以在分词之前将这些词去除,对数据进行清洗。

四、评论分词

1.分词、词性标注、去除停用词

(1)对评论数据进行分词

分词是文本信息处理的基础环节,是将一个单词序列切分成单个单词的过程。准确地分词可以极大地提高计算机对文本信息的识别和理解能力。相反,不准确的分词将会产生大量的噪声,严重干扰计算机的识别理解能力,并对这些信息的后续处理工作产生较大的影响。

中文以字为基本书写单位,词与词之间没有明显的区分标记。中文分词的任务就是把中文的序列切分成有意义的词,即添加合适的词串使得所形成的词串反映句子的本意,中文分词项目如表所示。

表 中文分词例子

操作

内容

输入

我爱重庆酸辣粉和老火锅

输出

我 爱 重庆 酸辣粉 和 老 火锅

中文分词的关键问题为切分歧义的消解和未登录词的识别。中文分词存在切分歧义问题,如“当结合成分子时”这个句子可以有以下切分方法:“当/结合/成分/子时”“当/结合/成/分子/时”“当/结/合成/分子/时”“当/结/合成分/子时”等。未登录词是指词典中没有登录过的人名、地名、机构名、译名及新词语等。当采用匹配的办法来切分词语时,由于词典中没有登录这些词,会引起自动切分词语的困难。常见的未登陆词有命名实体,如“张三”“北京”“联想集团”“酒井法子”等;专业术语,如“贝叶斯算法”“模态”“万维网”;新词语,如“卡拉OK”“美刀”“啃老族”等。

分词最常用的工作包,jieba分词是Python写成的一个分词开源库,专门用于中文分词,其有3条基本原理,即实现所采用技术。

①基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)。jieba分词自带了一个叫作dict.txt的词典,里面有2万多条词,包含了词条出现的次数(这个次数是作者自己基于人民日报语料等资源训练得出来的)和词性。Trie树是有名的前缀树,若一个词语的前面几个字一样,表示该词语具有相同的前缀,可以使用Trie树来存储,Trie树存储方式具有查找速度快的优势。后一句的“生成句子中汉字所有可能成词情况所构成的有向无环图”意思是给定一个待切分的句子,生成一个有向无环图。例如:{0:[1,2,3]} 这样一个简单的DAG, 就是表示0位置开始, 在1,2,3位置都是词, 就是说0~1, 0~2,0~3这三个起始位置之间的字符, 在dict.txt中是词语。

②采用动态规划查找最大概率路径,找出基于词频的最大切分组合。先查找待分词句子中已经切分好的词语,再查找该词语出现的频率,然后根据动态规划查找最大概率路径的方法,对句子从右往左反向计算最大概率(反向是因为汉语句子的重心经常落在右边,从右往左计算,正确率要高于从左往右计算,这个类似于逆向最大匹配),最后得到最大概率的切分组合。“有意见分歧”切分生成的有向无环图

图3.动态规划图

③对于未登录词,采用HMM模型,使用了Viterbi算法,将中文词汇按照BEMS 4个状态来标记。其中B代表begin,表示开始位置;E代表end,表示结束位置;M代表middle,表示中间位置;S代表single,表示单独成词的位置。HMM模型采用(B,E,M,S)这4种状态来标记中文词语,比如北京可以标注为BE,即北/B京/E,表示北是开始位置,京是结束位置,中华民族可以标注为BMME,就是开始、中间、中间和结束。

(2)去除停用词

通常意义上说,停用词大致可分为以下两类:

一类是使用十分广泛,甚至过于频繁的一些单词。比如,英文的“is”“I”“what”,中文的“我”“它”等,这些词几乎在每个文档上都会出现,查询这样的词无法保证搜索引擎能够给出真正相关的搜索结果,因此无法通过缩小搜索范围来提高搜索结果的准确性,同时还会降低搜索的效率。因此,在搜索的时候,Google和百度等搜索引擎会忽略特定的常用词,如果使用了太多的停用词,则有可能无法得到精确的结果,甚至可能得到大量毫不相关的搜索结果。

另一类是文本中出现频率很高,但实际意义不大的词。这一类词主要包括了语气助词、副词、介词、连词等,它们自身通常并无明确意义,只有将其放入一个完整的句子中才有一定作用。常见的有“的”“在”“和”“接着”等,例如“我是你最好的朋友”,这句话中的“是”“的”就是两个停用词。

经过分词后,评论由一个字符串的形式变为多个由文字或词语组成的字符串的形式,可判断评论中词语是否为停用词。根据上述停用词的定义整理出停用词库,并根据停用词库去除评论中的停用词,关键代码如下:

2.提取含名词的评论

由于本项目的目标是对产品特征的优缺点进行分析,类似“不错,很好的产品”“很不错,继续支持”等评论虽然表达了对产品的情感倾向,但是实际上无法根据这些评论提取出哪些产品特征是用户满意的。评论中只有出现明确的名词,如机构团体及其他专有名词时,才有意义,因此需要对分词后的词语进行词性标注。之后再根据词性将含有名词类的评论提取出来。jieba关于词典词性标记,采用ICTCLAS的标记方法。ICTCLAS汉语词性标注集如表所示。

表ICTCLAS汉语词性标注集

图4.汉语词性标注集

根据得出的词性,提取评论中词性含有“n”的评论,关键代码如下:

3.绘制词云查看分词效果

进行数据处理后,可绘制词云查看分词效果,词云会将文本中出现频率较高的“关键词”予以视觉上的突出。首先需要对词语进行词频统计,将词频按照降序排序,选择前100个词,使用wordcloud模块中的WordCloud绘制词云,查看分词效果,代码如下:

可以看出,对评论数据进行预处理后,分词效果较为符合预期。其中“速度”“外观”“拍照”“效果”“屏幕”等词出现频率较高,因此可以初步判断用户对产品的这几个方面比较重视。

六、评论数据情感倾向分析

情感倾向也称为情感极性。在某商品评论中,可以理解为用户对该商品表达自身观点所持的态度是支持、反对还是中立,即通常所指的正面情感、负面情感、中性情感。由于本项目主要是对产品的优缺点进行分析,因此只要确定用户评论信息中的情感倾向方向分析即可,不需要分析每一评论的情感程度。

1.匹配情感词

对评论情感倾向进行分析首先要对情感词进行匹配,主要采用词典匹配的方法,本项目使用的情感词表是知网发布的“情感分析用词语集(beta版)”,主要使用“中文正面评价”词表、“中文负面评价”“中文正面情感”“中文负面情感”词表等。将“中文正面评价”“中文正面情感”两个词表合并,并给每个词语赋予初始权重1,作为本项目的正面评论情感词表。将“中文负面评价”“中文负面情感”两个词表合并,并给每个词语赋予初始权重-1,作为本项目的负面评论情感词表。

一般基于词表的情感分析方法,分析的效果往往与情感词表内的词语有较强的相关性,如果情感词表内的词语足够全面,并且词语符合该项目场景下所表达的情感,那么情感分析的效果会更好。针对本项目场景,需要在知网提供的词表基础上进行优化,例如“好评”“超值”“差评”“五分”等词只有在网络购物评论上出现,就可以根据词语的情感倾向添加至对应的情感词表内。将“满意”“好评”“很快”“还好”“还行”“超值”“给力”“支持”“超好”“感谢”“太棒了”“厉害”“挺舒服”“辛苦”“完美”“喜欢”“值得”“省心”等词添加进正面情感词表。将“差评”“贵”“高”“漏水”等词加入负面情感词表。

读入正负面评论情感词表,正面词语赋予初始权重1,负面词语赋予初始权重-1。使用merge函数按照词语情感词表与分词结果进行匹配,代码如下:

2.修正情感倾向

情感倾向修正主要根据情感词前面两个位置的词语是否存在否定词而去判断情感值的正确与否,由于汉语中存在多重否定现象,即当否定词出现奇数次时,表示否定意思;当否定词出现偶数次时,表示肯定意思。按照汉语习惯,搜索每个情感词前两个词语,若出现奇数否定词,则调整为相反的情感极性。

本项目使用的否定词表共有19个否定词,分别为:不、没、无、非、莫、弗、毋、未、否、别、無、休、不是、不能、不可、没有、不用、不要、从没、不太。

读入否定词表,对情感值的方向进行修正。计算每条评论的情感得分,将评论分为正面评论和负面评论,并计算情感分析的准确率,关键代码如下:

使用wordcloud包下的WordCloud函数分别对正面评论和负面评论绘制词云,以查看情感分析效果,关键代码如下:

                     图5.正面情感词词云

                     图6.负面情感词词云

正面情感评论词云可知,“不错”“速度”“喜欢”等正面情感词出现的频数较高,并且没有掺杂负面情感词语,可以看出情感分析能较好地将正面情感评论抽取出来。

由负面情感评论词云可知,“贵” “不好”等负面情感词出现的频数较高,可以看出情感分析能较好地将负面情感评论抽取出来。

为了进一步查看情感分析效果,假定用户在评论时不存在“选了好评的标签,而写了差评内容”的情况,比较原评论的评论类型与情感分析得出的评论类型,绘制情感倾向分析混淆矩阵:

预测

neg

pos

all

实际

neg

15

17

32

pos

404

3754

4158

all

419

3771

4190

图7.预测值比对

通过比较原评论的评论类型与情感分析得出的评论类型,基于词表的情感分析的准确率达到了89.97%,证明通过词表的情感分析去判断某文本的情感程度是有效的。

七、LDA模型进行主题分析

1.LDA主题模型概念介绍

①主题模型介绍

主题模型在自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。判断两个文档相似性的传统方法是通过查看两个文档共同出现的单词的多少,如TF(词频)、TF-IDF(词频—逆向文档频率)等,这种方法没有考虑文字背后的语义关联,例如,两个文档共同出现的单词很少甚至没有,但两个文档是相似的,因此在判断文档相似性时,需要使用主题模型进行语义分析并判断文档相似性。

如果一篇文档有多个主题,则一些特定的可代表不同主题的词语就会反复出现,此时,运用主题模型,能够发现文本中使用词语的规律,并且把规律相似的文本联系到一起,以寻求非结构化的文本集中的有用信息。例如,在华为手机荣耀50的商品评论文本数据中,代表电华为手机荣耀50特征的词语如“速度”“外观”“拍照”等会频繁地出现在评论中,运用主题模型,把华为手机荣耀50代表性特征相关的情感描述性词语与对应特征的词语联系起来,从而深入了解用户对华为手机荣耀50的关注点及用户对于某一特征的情感倾向。

②LDA主题模型

2.寻找最优主题数

3.评价主题分析结果

根据主题数寻优结果,使用Python的Gensim模块对正面评论数据和负面评论数据分别构建LDA主题模型,设置主题数为3,经过LDA主题分析后,每个主题下生成10个最有可能出现的词语以及相应的概率,关键代码如下:

华为手机荣耀50正面评价潜在主题

Topic1

Topic2

Topic3

喜欢

不错

速度

拍照

满意

外观

运行

漂亮

很快

手感

支持

效果

清晰

颜色

屏幕

收到

音效

好看

外形

超级

像素

流畅

真的

充电

值得

待机时间

特别

特色

反映了华为手机荣耀50正面评价文本中的潜在主题,主题1中的高频特征词,关注点主要是拍照、外形、运行等,主要反映华为手机荣耀50拍照清晰、外形线条设计不错等;主题2中的高频特征词,即关注点主要是颜色、音效等,主要反映华为手机荣耀50的在颜色设计上能满足用户的需求等;主题3中的高频特征词,即速度很快、外观好看等,主要反映京东华为手机荣耀50发货速度快、产品质量高。

华为手机荣耀50负面评价潜在主题

Topic1

Topic2

Topic3

拍照

手感

像素

真的

不好

运行

做工

流畅

轻薄

感觉

特别

外观

值得

颜值

效果

充电

收到

待机时间

漂亮

不错

速度

灵敏

相机

拍摄

刚刚

足够

出色

心水

反映了华为手机荣耀50负面评价文本中的潜在主题,主题1中的高频特征词主要关注点在运行速度、待机时间、拍照这几方面,说明可能存在部分手机质检不严格导致的残次品按正品发货了等问题;主题2中的高频特征词主要与做工、屏幕灵敏这几方面有关,主要反映该产品华为手机荣耀50做工可能存在一定问题、屏幕不够灵敏等问题;主题3中的高频特征词主要与手机外观有关,主要反映的是华为手机荣耀50外观设计还不能完全满足大众需求等问题等。

、实际应用

综合以上对主题及其中的高频特征词的分析得出,华为手机荣耀50有拍照清晰、颜色设计、快递速度快等优势。相对而言,用户对华为手机荣耀50的抱怨点主要体现在运行速度及屏幕灵敏度操作差等方面。

因此,用户的购买原因可以总结为以下几个方面:华为手机荣耀50拍照清晰、性价比高。

根据对华为手机荣耀50的用户评价情况进行LDA主题模型分析,对华为手机荣耀50提出以下如下建议:

在保持华为手机荣耀50使用方便、拍照清晰等优点的基础上,提高华为手机荣耀50的运行速度和质检的质量,从整体上提升华为手机荣耀50的整体质量。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐