无需规则自动采集(软件功能设置劫持代码的特征(图)5次访问)
优采云 发布时间: 2021-09-05 13:06无需规则自动采集(软件功能设置劫持代码的特征(图)5次访问)
无人值守免费自动采集器是一款可以自动采集信息的软件。该软件也可称为ET,无需人工操作。本软件24小时内自动完成采集工作,可长时间运行。甚至以年为单位。此外,这款软件不需要繁琐的安装步骤。它支持查看采集 目录和采集 的文章。一般的操作流程是建立计划->配置采集规则从目标获取信息->配置中间规则->不规则配置和发送,给你的网站添加信息->开始自动工作,操作简单,只需按照软件的提示即可完成。本软件目前支持windows xp简体中文版、windows 2000简体中文版、windows 2003简体中文版、windows vista简体中文版;对于其他语言环境下的windows系统,部分可以使用,用户可以自行尝试,开发者不提供相应技术支持,用户自行选择下载。
软件功能
设置劫持特征码
很多地区的电信宽带用户在上网时会被强制访问信息,将访问信息替换为一些代码,使得用户只能通过代码中的框架查看原本想访问的网页,通常用于显示电信 这种行为称为劫持浏览器。出现这种情况时,ET采集的源代码只能得到劫持代码,而不是采集的网页源代码。通过设置这些劫持代码的特征字符串,ET将尝试突破劫持访问真正的网页源代码,最多可重试5次访问网站。
设置用户代理
网站通过userAgent来判断当前用户使用的是什么浏览器,并根据该浏览器能支持的情况提供相应的功能。当浏览器访问一个网页时,它通常会发送一个识别字符串来告诉网站它是什么浏览器软件。我们访问网站的部分会限制UserAgent。我们可以在基本设置中修改UserAgent,或者点击'Get Native UserAgent'按钮获取本机IE默认UserAgent。
自动工作
选择要执行的工作计划后,点击主窗口左下角的自动按钮,开始全自动工作。从现在开始,用户可以扔掉鼠标键盘,抛开网站更新的疲惫,和朋友一起旅行,网站内容自有ET会默默为你采集更新。
处理文章
当文章列表区有文章需要处理时,点击主窗口左下角的'处理文章'按钮,将文章列表区的第一项进行处理被处理文章 执行采集动作,在文章列表区双击一个文章项,文章就会执行采集动作,不管这个文章已处理。
工作记录
本栏目记录了ET每一步的工作过程和状态,包括目录采集和文章处理两部分。通过工作记录,我们可以了解采集执行是否正确完成或者发生了什么问题:当出现问题时,用户可以根据提示等反馈内容快速准确地找到故障原因并解决在信息栏中。
采集源代码
此栏显示采集的文章列表页、文章页、文章分页等在执行过程中的源码。本专栏的源码可以方便的测试和提供规则。定制的基础。
分析数据
该栏显示了文章处理过程中每个数据项的信息,从解析的原创代码,到排序后的代码,再到URL修正后的代码。用户可以通过查看此栏了解设置数据项分析规则是否准确,整理组规则是否完整,最终信息是否符合自己的要求。例如:当工作记录栏提示错误“正字符数大于或小于发布设置”时,我们可以查看该列中的“正文”数据项,看看是大于还是小于比release设置的原因是正常的还是因为collation group没有设置好。调整每个设置。
发送代码
本栏显示ET发送到publishing网站的数据,包括文章check部分和文章release部分;用户可以通过本专栏通过一系列的分析和排序操作来了解,最后发布到网站 提交的数据用于检查你的采集rule数据项和发布规则的参数设置是否正确完整.
返回信息
本栏目显示ET在向publishing网站发送数据后对网站的反馈,包括文章check反馈和文章post反馈;通过查看本专栏,我们可以清楚地了解采集的过程中出现问题的大部分原因。当某些接口返回错误信息时,该信息可能是HTML代码。不熟悉 HTML 代码的用户很难阅读。点击WEB浏览按钮,可以在操作系统的默认浏览器中方便地查看。
步骤标记
点击[Step]按钮将标记插入规则或用标记替换选定的字符串。标签代码是一个可选项目,代表一个在 URL 中定期变化的数字字符串; [step]标签可以在自动列表URL规则中使用,可以多次使用
子循环标签
点击【Sub-loop】按钮,将标记插入规则或用标记替换选中的字符串。标记码是可选的,表示URL中定期变化的数字串; [Step]标记每一步,[Sub-loop]标记一个循环,即嵌套循环;当自动列表规则中只有一个时使用[sub-loop]标签,相当于[step]标签; [sub-loop] 标签在自动列表 URL 规则中只能使用一次。
软件功能
本软件无第三方恶意插件、病毒木马等对计算机有害的信息
支持无人值守,自动采集操作
自动运行时间长,采集work可24小时不间断进行。
本软件具有良好的稳定性和性能,无特殊情况不会掉线。
下载文件和下载文章速度快
支持伪原创功能,可以把别人的东西变成自己的东西
支持采集任何信息入软件
支持导出或导入信息
安装方法
这个软件不需要安装。找到下载的压缩包并解压,然后双击“优采云采集器3.exe”应用程序进入软件界面。
如何使用
来自采集thumbnail列表
1、在系统导航栏中找到采集配置功能,点击进入相关界面,然后在选择列表中进行设置。
2、 找到列表分析规则后,点击页面地址,然后选择缩略图。添加完成后,会得到如图所示的代码。
3、然后在【缩略图数据项】中设置其相关参数。请注意,当[缩略图数据项]中采集规则为空时,数据项的值为[缩略图标记]采集Result的值。
4、将鼠标滑动到页面底部,因为我们采集到缩略图通常是图片地址,所以在文件选项中勾选[as file URL]。
5、点击要下载的文件,在启用下载前勾选选项框。
6、最后,必须使用发布配置的发布项窗口中的数据项标记来指定网站的缩略图参数的值才能生效。
7、ET3 支持多层列表。如果在多层列表中使用[缩略图标记],则最后一次使用[缩略图标记]的采集结果将作为[缩略图数据项]的值。
常见问题
ET3多层列表中同名标签的使用
在ET3新增的多层列表中,每个列表页面的列表分析规则具有相同的名称,可以称为“文章title”、“缩略图”、“附加信息”等标签,那么每个列表页之间的同名标签是什么关系,如何使用。
一、Tags 在同一个列表页面
与单列表页面一样,通过页面列表分析得到的[页面地址]和[附加信息]可以在URL合成中调用。
二、不同列表页上的同名标签
1、[文章title]
从多个listing页面获取的[文章Title]将去除首尾空白字符后从上到下合并,并以空格分隔。
合并后的内容将作为“列表数据-文章title”,显示在采集目录下,可用于数据排序。
如果数据项中没有设置“title”数据项的采集规则,将作为“title”数据项的值。
2、[缩略图]
如果有多个列表页使用了[thumbnail]标签,则只有上次获取的[thumbnail]有效。
将用作“列表数据-缩略图”,可用于数据排序。
如果没有为“Thumbnail”数据项设置采集规则,它将被用作“Thumbnail”数据项的值。
3、[附加信息]
【附加信息】共有三个标签,用法相同。
如果在多个列表页面上使用了[附加信息]]标签,则只有上次获得的[附加信息]]有效。
将用作“列表数据-附加信息”,可用于数据排序。
从3.1.7版本开始,如果列表分析规则中没有使用[附加信息]标签,而在URL合成中使用了[附加信息]标签,那么标签会调用上层列表页面中同名的[附加信息]标签的值是上层列表页面上最后一个有效的同名标签的值。
为什么不能在发布配置的检查URL中调用数据项
发布配置的查看地址栏只有一个[文章title]按钮,其他数据项的值这里不能调用。
由于ET在使用校验URL进行文章重复校验时没有执行数据项的采集,自然无法调用数据项的值。这是一种提高效率和节省时间的设计。
如果所有的数据项采集都完成了再进行文章重复检查,那么当文章重复时,之前的所有工作都将无用,造成很大的浪费。
当用户有多个数据项值参与需要进行重复校验时,可以在发布接口文件中添加文章duplicate校验功能,将校验URL留空而不使用校验URL进行文章重复检查。