基于主题爬虫与文本分类的微博资讯智能生成策略研究
优采云 发布时间: 2020-08-11 13:57【摘要】:随着联通互联网的快速发展,中国手机网民数目早已赶超PC,各种手机应用层出不穷,其中手机微博早已成为使用率增速最快的手机应用。越来越多的人们使用微博进行交流互动,尤其是在面向垂直细分领域的专业微博中,用户有强烈的获取权威资讯信息的需求。但是,传统的微博欠缺良好的信息查询与推送功能,难以满足不同人群的信息获取须要。因此,根据不同行业主题,利用微博平台将互联网上丰富的行业资讯信息进行手动采集推送,具有重要的理论研究和实际应用价值。在基于主题爬虫与文本分类的微博资讯智能生成策略中,利用主题爬虫技术和文本分类技术将互联网上丰富的行业信息按主题进行采集分类并通过手机微博客户端向特定用户群体提供资讯查询和推送服务。首先,在针对主题信息的采集中提出了一种面向特定领域的主题式爬取策略,通过对开源爬虫框架Heritrix进行主题模块的扩充,使爬虫只抓取与特定主题相关的最新行业信息。其次,在网页数据处理过程中通过改进文本分类算法,设计了一种英文网页文本分类器,对抓取的网页按行业主题进行手动细分类并提取数据生成有价值资讯信息。然后,通过手机微博平台将分类的信息通过设定的不同微博频道或则智能帐号进行动态展示与发布。最后,以农业主题为例将基于主题爬虫与文本分类的微博资讯智能生成策略应用在广东手机农业微博中进行农务资讯的生成与推送。在广东手机农业微博中实现农业微博资讯的智能生成,并对微博资讯生成策略进行了相关的功能和性能测试。实验结果表明:这种微博资讯生成策略才能及时获取最新行业相关资讯,进行详尽确切的信息分类并提供便捷的查询与推送服务。其中主题爬虫抓取的主题准确率达到87%以上,网页文本分类器的整体评估指数达到85%左右。