编辑: 过于眷恋 2019-07-04

6 的评论,据此制 定股则 2,如果评论中含字符串个数小于

6 的,则删除该评论. c.再次对抓取的评论进行分析发现,无意义信息中还包含只有字母或字母个数较多的以及 符号或数字过多的评论,因此设定规则 3,如果一条评论中字母的总数/这条评论的长度大 于1/2,或者一条评论中数字的总数/这条评论的长度大于 1/2,则认为该条评论是垃圾评 论,删除该评论. d.由于存在网络延时或者用户重复评论等原因出现的重复评论也是垃圾评论,则据此制定 规则,在上下两行数据中若连续两行数据都相等,则删除其中一行数据. e. 数据预处理后,特征明显的垃圾评论基本被删除,剩下的评论中还包含的垃圾评论为单 纯多次宣泄自己感情的语句,也认为此为垃圾评论,使用 R 语言对所有评论进行切割,并 统计切割出的词的数量,若评 论中正负面评论词 的数量/评论中所有评论词的数量 大于 1/3,则认为该评论也是垃圾评论,予以删除. 至此,水军、随意发表的评论和默认评论都被删除,垃圾评论基本处理完毕. 2.2.3 使用 R 语言进行切词. 在R语言中,有一个中文分词效果较好的 jiebaR 包,将题目给出的 excel 文件导成 csv 文件后使用 jiebaR 进行切词,以热水器为例,将给出的五大电商平台的评论数据全部进行切词处........

下载(注:源文件不在本站服务器,都将跳转到源网站下载)
备用下载
发帖评论
相关话题
发布一个新话题