智能采集组合文章(Web的组织格式主要以HTML页面和VSM网页分类模块)

优采云 发布时间: 2022-01-03 10:24

  智能采集组合文章(Web的组织格式主要以HTML页面和VSM网页分类模块)

  [摘要]:随着全球经济一体化进程的加快和我国加入WTO,市场竞争环境发生了翻天覆地的变化。企业决策者不再可能依靠直觉和本能来做出商业决策。为了做出正确的决策,往往需要对竞争对手进行分析,及时了解他们的情况。因此,一个完整的竞争情报采集系统变得必不可少。随着互联网的飞速发展,网络为人们储存了大量的知识,成为一个巨大的全球知识库。从网络上获取信息已经成为人们获取知识的主要方式。与此同时,越来越多的公司建立了网站。通过有效地采集公司网站,可以了解竞争对手并向其学习。 Web 的组织格式主要基于 HTML 页面的半结构化形式。网页的结构、自由无序的超链接,以及网页内容的海量、多样性和动态变化,使人们在使用时遇到了一些无法回避的困难。为了解决这些问题,本课题采用基于主题的信息采集分类资源管理平台。介绍了系统平台的结构和各部分的功能。重点介绍网页采集模块和VSM网页分类模块。为了实现这两个模块,本文介绍了Bot网页抓取和HTMLParser网页解析等技术。网页的标题、Meta标签的内容和父网页上指向该网页的锚文本,将这些信息存储在相应的位置,并根据这些信息使用VSM方法对网页进行分类。为下一步开发企业竞争情报采集系统奠定基础。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线