解读：这里不是指网址列表页的分页数，而是采集内容时内容页的分页数。

优采云发布时间: 2020-12-15 10:21

　　解释：这并不是指URL列表页面的页数，而是当使用采集的内容时内容页面的页数。

　　系统全局设置

　　a。同时运行的最大任务数

　　可以同时运行的任务数（站点下的任务）。默认设置为3，这意味着可以同时运行三个任务。每个任务可以设置为采集个不同的站点以发布到不同的站点。

　　b。默认采集最大页数

　　这里不是指URL列表页面的页数，而是采集内容时的内容页面的页数。

　　c。请求超时并放弃（秒）

　　请求网页30秒（默认设置为30秒）时，如果请求失败，请放弃请求该网页并开始请求下一个网页。提取URL和提取内容均有效。

　　d。保存辅助URL时过滤重复的URL

　　从URL列表页面提取内容页面地址时，如果提取重复的内容页面地址，则可以选择过滤掉重复的内容页面地址。

　　e。是否忽略大小写

　　您可以在采集内容标签的正则表达式中选择是否忽略大小写。

　　f。任务完成后退出运行界面

　　每个任务采集都有一个进度为采集的任务窗口。默认情况下，完成任务采集后，采集窗口仍显示在软件界面中。您可以选择在任务采集完成后自动关闭任务采集的进度窗口。

　　g任务正在运行，并停止播放声音提示

　　您可以选择是否在任务采集完成后播放声音提示。

　　任务采集发布

　　a。循环采集时用于合并内容的间隔符

　　在采集的内容页面中，当使用循环采集时，您可以根据需要设置循环采集和数据之间的分隔符。例如，在采集个论坛帖子中，您可以对每个回复的内容使用循环采集。这些答复的内容由循环采集获得。可以在此处设置回复和回复之间的分隔符。

　　b。另存为TXT文件时删除HTML标签

　　您可以选择在发布数据并将数据保存到本地TXT文本时是否删除数据中的HTML标签。

　　c。模拟客户浏览/搜索引擎爬网（发布时未启用此配置）

　　采集器默认情况下使用用户的本地浏览器访问采集时，可以模拟百度蜘蛛，谷歌蜘蛛和雅虎蜘蛛。

　　d。本机浏览器用户代理

　　这可以获取本地浏览器的User-Agent，或设置其他User-Agent。

　　e。自动转换为拼音选项

　　将中文从采集设置为拼音时所扮演的角色。默认设置是整个单词的拼音，也可以设置为仅获取第一个字母。全字符拼音是为了将每个汉字完全转换成拼音；将每个汉字转换成拼音后，仅获取第一个字母就是保留拼音的第一个字母。

　　f。拼音大小写选项

　　将汉字从采集转换为拼音时，可以将拼音的首字母设置为大写，全部大写和小写。

　　g拼音最大长度

　　是拼音字母的数量。当拼音字母的数量超过设置的数量时，多余的单词将被切断。

　　h。连续重复采集个后，跳过采集网址

　　采集器在采集和网站相关内容中运行任务时，首先获取内容页面的地址（称为：选择URL），然后将获取的地址保存到任务站点的数据库中（任务所在的站点），当所有内容页面地址均已获取后，它将开始根据内容页面地址逐个采集内容。运行任务时，必须首先采集内容页面地址。当采集到达某个地址并发现采集器在站点数据库中具有该地址时，它将检测到该地址已经存在（默认设置是检测重复的地址，也可以设置为不检测）。 k2]发现已经存在10个连续的采集地址（默认设置为10，您可以根据需要对其进行修改），它将停止采集内容页面地址开始采集内容步骤。

　　i。中文URL服务器编码设置

　　采集器使用采集 URL时，可以先编码URL，然后再进入采集 URL。您可以选择多种编码方法。通常，当网站收录汉字时，有些人需要以某种方式对网站进行编码采集。

　　j。对于不符合标签内容收录条件的商品

　　在采集的内容中，可以设置采集的数据是否满足条件，例如，它必须收录某个单词，并且不能收录某个单词。当不满足设置条件时，可以选择是直接删除不合格数据还是将其设置为未采集状态。

0

2020-12-15

采集内容插入词库

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解读：这里不是指网址列表页的分页数，而是采集内容时内容页的分页数。

0 个评论

发起人

AI时代内容工厂

解读：这里不是指网址列表页的分页数，而是采集内容时内容页的分页数。

0 个评论

发起人

相关问题