如何在前ForeSpider中进行，取值与清洗方式的区别

优采云发布时间: 2021-08-23 22:38

　　小编今天给大家带来的教程是：如何进行ForeSpider的预嗅探、字段的取值和清理。主要内容包括：自动取值字段、两种取值方法、字段清理方法。具体内容如下：

　　一、哪些字段是自动取的？

　　当字段设置为以下采集内容时，系统会自动为该字段赋值。

　　1.网页地址：自动采集网页的URL地址。

　　2.Webpage Title：采集网页的标题。即网页的内容。

　　3.网页中的文字：采集整个页面中的所有可见文字。

　　网页内容：采集网页的所有文字，包括html标签等，即整个页面的源码。

　　5.网页创建时间：文档创建时间或网页发布时间。

　　6.Webpage update time：文档或网页更新的时间。

　　7.网页获取时间：ForeSpider采集网页的时间。

　　8.当前系统时间：data采集放入数据库的时间。

　　9.文档数据大小：采集对象质量大小[单位：字节]。

　　10.document name：采集对象的文件名，如.html、.doc。

　　11.document后缀：文档的文件名后缀，如html、pdf等

　　12.Document view width：文档的宽度【如果是图片数据，图片的宽度】。

　　13.document view height：文档的高度【如果是图片数据，图片的高度】。

　　14.Document level：当前数据页被分页时，自动从入口页获取跳转级数。

　　15.Channel ID：采集当前频道的ID。

　　16.频道名称：采集当前频道的名称。

　　二、值法

　　1.标准定位

　　(1）标准定位意义

　　通过在内置浏览器上定位具有所需数据的区域，设置该字段的值。大多数情况下，选择“标准定位”。

　　(2）定位方法

　　①选择：按住Ctrl点击页面上对应的数据区。

　　②扩大选区：按住Shift，再次点击页面对应区域。

　　③确认选择：点击“确认选择”按钮，使选择生效。

　　标准定位

　　2.特征定位

　　(1）特征定位的意义

　　当所需数据在不同网页上的位置不固定，且数据前后有特征文本时，标准定位容易错位，需要特征定位。

　　例如：对于字符串“作者：*”，采集作者姓名，使用“作者：”作为特征定位。

　　(2）特征定位的操作方法

　　①选择：按Ctrl点击页面上需要数据的区域。

　　②识别特征：点击“识别特征”，出现红框，再次点击，红框移动到特征串时确认。

　　③ 点击“确认选择”按钮，使选择生效。

　　(3）特征定位类型

　　特征定位分为四种方式：

　　①部分关键词

　　当页面数据前面有特定的关键词，并且每页的表格内容、行顺序、行数不同时，标准的定位方法就会混乱。采集表单后面的数据可以根据header的特性来判断。与全文关键词的不同之处在于部分关键词仅在所选区域采集附近。

　　②全文关键词

　　根据选择的特征关键词，整页采集特征关键词前后对应的数据，如果关键词有多个特征，以第一个为准。如果你想要多个采集，你可以设置多个值。 >>查看多值配置方法

　　③ 大文本

　　选择大文本区域后，自动识别每页大文本，比标准定位更准确。

　　④ 特殊标签

　　采集页面上只出现一次的特殊标签，如标题标签。

　　三、现场清理方法

　　在采集data之前，通过使用字段处理，软件可以按照一定的过滤方式自动清理字段的字符串数据。不需要的字符串可以通过系统内置或者脚本方式提前清理。

　　现场处理

　　场地清理方法如下：

　　字段处理脚本是在字段处理中选择“脚本处理”后，通过脚本进一步清理需要的数据。具体配置方法需要参考脚本文档。

0

2021-08-23

关键词自动采集生成内容系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何在前ForeSpider中进行，取值与清洗方式的区别

0 个评论

发起人