网站自动采集系统(Web信息作为舆情信息的主要载体,因此,有深远的战略意义)

优采云 发布时间: 2022-01-26 18:17

  网站自动采集系统(Web信息作为舆情信息的主要载体,因此,有深远的战略意义)

  【摘要】 舆论作为群众对社会特定事件的意见和态度的集合,在政府维护社会稳定、了解社会问题、提高政府公信力等方面发挥着积极作用。同时,舆论对于公司准确及时掌握客户对公司产品和服务的意见和建议,提高产品和服务质量,增强公司综合竞争力具有深远的战略意义。Web2.0的兴起为Web舆论信息自动化采集带来了重大的发展机遇,也给采集的技术带来了新的挑战。网络信息是舆论信息的主要载体,所以解决这类信息的采集问题更为紧迫。从现有研究成果来看,网络舆情采集需要解决海量数据挖掘、数据实时分析、数据分析准确性等问题。本文首先总结了*敏*感*词*现有Web信息抽取技术的研究现状,然后对现有研究成果进行了详细分析。结合实际项目的需要,提出了自己的网络舆情信息采集的方法。主要研究内容如下: 1.研究现有资料采集模型和采集算法,比较分析它们的功能、优缺点。采集模型主要包括理解模型,对象模型和视觉模型,采集算法包括本体算法、马尔科夫算法等,总结比较全面。2.研究并提出可视化信息采集模板生成技术,转换用户操作行为(包括点击下一页的超链接或按钮、点击网页上的元素、下拉列表、等)放入采集模板,降低了制作模板的难度,提高了制作模板的效率。3.实现了基于DOM树和行块分布函数的网页文本提取子系统,应用了xpath、正则表达式等相关技术,采用统计和规则相结合的方法解决了系统的通用性。问题。4.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线