利用采集器 采集的平台( 基于词典的主题提取Snownlp情感分析可视化(图) )
优采云 发布时间: 2021-09-27 04:09利用采集器 采集的平台(
基于词典的主题提取Snownlp情感分析可视化(图)
)
饿了么选星平台的UGC分析包括实时数据采集和预处理。基于字典主题抽取的Snownlp情感分析的可视化程序结构为:
UGC_Analysis.py 使用 Tkinter 技术进行 GUI 设计。它属于主文件。它调度spider.py网络爬虫程序和picturing.py数据可视化程序。它的作用是解构Spider.py文件采集,然后将评论文本的情感计算发送到picturing.py进行可视化处理,然后将处理后的统计图发送到主文件进行展示。对于来自spider.py采集的结构化数据,如用户评分等结构化数据发送到picturn.py进行统计绘制,然后发送到主文件进行展示。本软件是在互联网行业飞速发展的背景下产生的。随着网购平台、在线旅游平台等在线服务平台用户数据呈现数量的增加,平台上也会产生大量的UGC(User Generated Content)用户。内容,例如产品评论、用户提交的照片、用户评分等。UGC 本身收录对本服务或产品的意见。对此,挖掘意见可以帮助平台上的服务商进行必要的业务调整。平台对UGC的展示可以帮助消费者提高对商品或服务的认知度,但大量的UGC在用户评分和评价中表现出不一致的特征。为了防止误导潜在消费者,平台还需要根据需要对UGC进行处理和展示,以展示平台本身和所售商品的质量。所以,从平台的角度,本软件使用tkinter制作操作界面,使用matplotlib绘制统计图,
本软件的特点
改造了网络爬虫,使用fake_useragent加入随机轮换模拟浏览器header来确保爬虫的稳定和高效爬取。
利用Snownlp作为评论情感分析的库,直接在输出框输出情感值。
利用词典的方式找出主题,便于实时对评论进行筛选。