如何在前ForeSpider中进行,取值与清洗方式的区别

优采云 发布时间: 2021-08-23 22:38

  如何在前ForeSpider中进行,取值与清洗方式的区别

  小编今天给大家带来的教程是:如何进行ForeSpider的预嗅探、字段的取值和清理。主要内容包括:自动取值字段、两种取值方法、字段清理方法。具体内容如下:

  一、哪些字段是自动取的?

  当字段设置为以下采集内容时,系统会自动为该字段赋值。

  1.网页地址:自动采集网页的URL地址。

  2.Webpage Title:采集网页的标题。即网页的内容。

  3.网页中的文字:采集整个页面中的所有可见文字。

  网页内容:采集网页的所有文字,包括html标签等,即整个页面的源码。

  5.网页创建时间:文档创建时间或网页发布时间。

  6.Webpage update time:文档或网页更新的时间。

  7.网页获取时间:ForeSpider采集网页的时间。

  8.当前系统时间:data采集放入数据库的时间。

  9.文档数据大小:采集对象质量大小[单位:字节]。

  10.document name:采集对象的文件名,如.html、.doc。

  11.document后缀:文档的文件名后缀,如html、pdf等

  12.Document view width:文档的宽度【如果是图片数据,图片的宽度】。

  13.document view height:文档的高度【如果是图片数据,图片的高度】。

  14.Document level:当前数据页被分页时,自动从入口页获取跳转级数。

  15.Channel ID:采集当前频道的ID。

  16.频道名称:采集当前频道的名称。

  二、值法

  1.标准定位

  (1)标准定位意义

  通过在内置浏览器上定位具有所需数据的区域,设置该字段的值。大多数情况下,选择“标准定位”。

  (2)定位方法

  ①选择:按住Ctrl点击页面上对应的数据区。

  ②扩大选区:按住Shift,再次点击页面对应区域。

  ③确认选择:点击“确认选择”按钮,使选择生效。

  标准定位

  

  2.特征定位

  (1)特征定位的意义

  当所需数据在不同网页上的位置不固定,且数据前后有特征文本时,标准定位容易错位,需要特征定位。

  例如:对于字符串“作者:*”,采集作者姓名,使用“作者:”作为特征定位。

  (2)特征定位的操作方法

  ①选择:按Ctrl点击页面上需要数据的区域。

  ②识别特征:点击“识别特征”,出现红框,再次点击,红框移动到特征串时确认。

  ③ 点击“确认选择”按钮,使选择生效。

  (3)特征定位类型

  特征定位分为四种方式:

  ①部分关键词

  当页面数据前面有特定的关键词,并且每页的表格内容、行顺序、行数不同时,标准的定位方法就会混乱。 采集表单后面的数据可以根据header的特性来判断。与全文关键词的不同之处在于部分关键词仅在所选区域采集附近。

  ②全文关键词

  根据选择的特征关键词,整页采集特征关键词前后对应的数据,如果关键词有多个特征,以第一个为准。如果你想要多个采集,你可以设置多个值。 >>查看多值配置方法

  ③ 大文本

  选择大文本区域后,自动识别每页大文本,比标准定位更准确。

  ④ 特殊标签

  采集 页面上只出现一次的特殊标签,如标题标签。

  三、现场清理方法

  在采集data之前,通过使用字段处理,软件可以按照一定的过滤方式自动清理字段的字符串数据。不需要的字符串可以通过系统内置或者脚本方式提前清理。

  现场处理

  

  场地清理方法如下:

  

  字段处理脚本是在字段处理中选择“脚本处理”后,通过脚本进一步清理需要的数据。具体配置方法需要参考脚本文档。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线