如何在前ForeSpider中进行,取值与清洗方式的区别
优采云 发布时间: 2021-08-23 22:38如何在前ForeSpider中进行,取值与清洗方式的区别
小编今天给大家带来的教程是:如何进行ForeSpider的预嗅探、字段的取值和清理。主要内容包括:自动取值字段、两种取值方法、字段清理方法。具体内容如下:
一、哪些字段是自动取的?
当字段设置为以下采集内容时,系统会自动为该字段赋值。
1.网页地址:自动采集网页的URL地址。
2.Webpage Title:采集网页的标题。即网页的内容。
3.网页中的文字:采集整个页面中的所有可见文字。
网页内容:采集网页的所有文字,包括html标签等,即整个页面的源码。
5.网页创建时间:文档创建时间或网页发布时间。
6.Webpage update time:文档或网页更新的时间。
7.网页获取时间:ForeSpider采集网页的时间。
8.当前系统时间:data采集放入数据库的时间。
9.文档数据大小:采集对象质量大小[单位:字节]。
10.document name:采集对象的文件名,如.html、.doc。
11.document后缀:文档的文件名后缀,如html、pdf等
12.Document view width:文档的宽度【如果是图片数据,图片的宽度】。
13.document view height:文档的高度【如果是图片数据,图片的高度】。
14.Document level:当前数据页被分页时,自动从入口页获取跳转级数。
15.Channel ID:采集当前频道的ID。
16.频道名称:采集当前频道的名称。
二、值法
1.标准定位
(1)标准定位意义
通过在内置浏览器上定位具有所需数据的区域,设置该字段的值。大多数情况下,选择“标准定位”。
(2)定位方法
①选择:按住Ctrl点击页面上对应的数据区。
②扩大选区:按住Shift,再次点击页面对应区域。
③确认选择:点击“确认选择”按钮,使选择生效。
标准定位
2.特征定位
(1)特征定位的意义
当所需数据在不同网页上的位置不固定,且数据前后有特征文本时,标准定位容易错位,需要特征定位。
例如:对于字符串“作者:*”,采集作者姓名,使用“作者:”作为特征定位。
(2)特征定位的操作方法
①选择:按Ctrl点击页面上需要数据的区域。
②识别特征:点击“识别特征”,出现红框,再次点击,红框移动到特征串时确认。
③ 点击“确认选择”按钮,使选择生效。
(3)特征定位类型
特征定位分为四种方式:
①部分关键词
当页面数据前面有特定的关键词,并且每页的表格内容、行顺序、行数不同时,标准的定位方法就会混乱。 采集表单后面的数据可以根据header的特性来判断。与全文关键词的不同之处在于部分关键词仅在所选区域采集附近。
②全文关键词
根据选择的特征关键词,整页采集特征关键词前后对应的数据,如果关键词有多个特征,以第一个为准。如果你想要多个采集,你可以设置多个值。 >>查看多值配置方法
③ 大文本
选择大文本区域后,自动识别每页大文本,比标准定位更准确。
④ 特殊标签
采集 页面上只出现一次的特殊标签,如标题标签。
三、现场清理方法
在采集data之前,通过使用字段处理,软件可以按照一定的过滤方式自动清理字段的字符串数据。不需要的字符串可以通过系统内置或者脚本方式提前清理。
现场处理
场地清理方法如下:
字段处理脚本是在字段处理中选择“脚本处理”后,通过脚本进一步清理需要的数据。具体配置方法需要参考脚本文档。