信息采集系统/网络数据采集案例解析

优采云 发布时间: 2020-08-26 14:46

  信息采集系统/网络数据采集案例解析

  如何把搜索引擎的数据储存以及再加工再利用、如何根据我须要的数组给抽取下来、如何不局限百度微软上面的数据。如何自定义收录网站更新频度。随着网路的迅速发展,万维网成为大量信息的载体,如何有效地提取并借助这种信息成为一个巨大的挑战。我们从信息短缺的时代一下子走到了信息极大丰富昨天。在明天,困扰我们的问题不是信息很少,而是太多,多得使你无从区分,无从选择。因此,提供一个才能手动在互联网上抓取挖掘数据,并手动分拣、分析的工具有特别重要的意义。

  通用搜索引擎其实帮了我们不少忙,但怎样把搜索引擎的数据储存以及再加工再利用、如何根据我须要的数组给抽取下来、如何不局限百度微软上面的数据。如何自定义收录网站更新频度。日前警犬信息采集系统挺好为中国电信完成具以上特征的任务。

  第一部分:项目需求:

  要求对11市级城市的9大行业(医疗、汽车、餐饮、购物、教育、娱乐休闲、住宿、日常服务、旅游)根据行业的不同,按照不同的数组智能抽取企业网站的相关数组的数据,对所抽取的数据作只能的去重处理,同一个企业的数据做真假分辨,用程序来效验数据,最后构建呼叫中心,人工确认数据的有效性构建呼叫中心,人工确认数据的有效性。

  第二部份:数据处理解决方案:

  

  数据分布状态

  项目执行流程:

  

  1. 定向抽取结构化数据:从多个平台(阿里巴巴、慧聪网、口碑网、爱帮网、58同城分类等平台)上抽取数据,以最大限度确保数据的数目。

  军犬信息采集系统流程图:

  

  2. 定向的结构化信息抽取,针对不同的平台,制定不同的采集规则,以准确地将结构化数据存入对应的数据库中的数组。

  3. 信息采集任务保障:

  

  确保采集任务

  4. 对于没有的企业结构化数据,通用spider 漫游来访问企业网站,抽取信息正文。

  5. 构建词库:在数据抽取后,利用现有的数据构建行业词库和特点词库,并且在剖析其它网页时手动建立词库。

  

  词库的构建与建立

  6. 智能提取:采用动词技术,对非结构化数据进行智能抽取。

  

  数据处理及校准

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线