集搜客网页抓取软件(DS打数机操作界面“配置”菜单:打数机有智能判断能力 )
优采云 发布时间: 2022-03-10 03:16集搜客网页抓取软件(DS打数机操作界面“配置”菜单:打数机有智能判断能力
)
DS 打印机操作界面 DS 打印机由菜单栏、操作窗口、浏览器窗口、状态面板和日志五个部分组成,如图 1 所示。下面将详细介绍各个部分的功能。
图 1:DS 计数器操作界面
菜单栏
菜单栏:包括文件、配置、高级和帮助四个部分,如图2所示,通过这些菜单,您可以更好地控制和优化DS打印机的操作,下面将分别进行说明。
图 2:DS 计数器的菜单栏
文档
第一次运行最好设置好爬虫名称和存储路径,以便以后检查爬虫的运行情况和查找数据文件。
Tips:如果使用采集功能,同时运行多个窗口一起爬取,几天后会生成多个子目录。Windows下,文件名加上目录名不能超过250个字母(大约),否则爬取结果不会被保存。随着子目录数量的增加,这个限制会逐渐接近。然后定期修改存储路径,使爬取结果文件存在于新目录中。
配置
为了提高捕获效率和可靠性,可以根据网络环境、计算机配置级别和目标网站的速度来配置DS计数器的运行参数,如图3所示。
图 3:DS 乘数“配置”菜单
温馨提示:电脑具有智能判断能力。它在超时期限到期之前不会开始抓取网页内容,而是使用一系列智能判断标志。一旦找到条件,爬取过程将立即开始。因此,没有必要设置超时时间。顾虑太多,等到网络异常或者爬取规则不合适的时候超时。
滚动速度(scrollWindowRatio):正整数或负整数,-1与1相同,表示没有速度变化。1 表示速度增加。假设N>1,那么每个滚动屏幕会延迟1/N秒;假设 Ncrontab 调度器控制 采集 任务,一个更好的参数组合是 scrollMorePages = 5scrollWindowRatio = -2 滚动次数 (scrollMorePages ):额外的滚动次数,默认值为 0,表示不滚动。滚动功能用于获取 AJAX 网页上的数据,这些数据最初不会从服务器下载,直到用户滚动浏览器屏幕并在窗口中显示数据。请注意,这个数字并不代表确切的滚动次数,因为程序会根据网页长度的变化自动调整滚动次数。这个数字可以看成是额外滚动的次数,也就是为了保证抓取到最完整的数据,滚动的次数就足够了。次数之上的附加次数。常用值:3 到 5。详细用法见如何自动滚动捕获 AJAX网站 数据
提示:勾选“Timer Triggered”后,有时网页未完全显示时会被抓取。这时候可能会漏掉内容。那么,一般的使用原则是:先不要设置这个选项,只有觉得有必要才设置。
先进的
这些高级功能只在一些特殊场景下使用,通常保持默认设置。
帮助
在使用Jisouke网络爬虫时,遇到不懂的问题,点击帮助菜单,总能找到你想要的答案。
操作窗口
操作窗口由搜索窗口和快捷菜单组成。在这里,您可以搜索主题名称、启动主题的爬取任务、管理主题的线程以及添加爬取 URL。总之,这是管理抓取任务的主窗口,如图 4 所示。
图 4:DS 计数器操作窗口
搜索窗口
搜索窗口用于搜索主题。通过搜索框输入主题名称。如果忘记了主题名称,可以使用通配符*进行模糊搜索,搜索结果将显示在列表中,包括主题名称、样本页、单项搜索、集体搜索4项信息。在,
温馨提示:DS电脑只有一个窗口,带有菜单栏和操作窗口,称为管理窗口;而简化版的DS电脑窗口可以有多个窗口,但没有菜单栏和操作窗口,仅用于采集数据。例如,采集窗口是简单抓取数据的窗口的简化版本。
提示:DS 计数器最多允许 20 个采集窗口。这是因为主题列表最多可以显示20个主题名称,所以总共可以激活20个采集窗口,每个主题的采集窗口都有一个固定的数量。,与列表中的主题编号一一对应。如果已经运行了 20 个采集窗口,还需要重新运行新主题的采集窗口,那么 DS 计数器会根据主题列表中新主题的序号,使用对应编号的采集窗口,以便使用先前运行的。话题被强行停止。因此,在运行采集窗口时,应注意主题序号与采集窗口编号的对应关系,以减少强制停止的情况。
快捷菜单
在搜索窗口上单击鼠标右键,会弹出一个快捷菜单,其中包括“抓取网页”、“浏览主题”、“统计潜在客户”、“管理潜在客户”和“调度”五个快捷操作。
提示:激活所有线索是有限制的。一批只能激活10000条线索。如果您需要激活的数量超过此数量,请与我们联系。或者使用计数器重新抓取这些 URL 并生成潜在客户。
浏览器窗口
这是所见即所得的重要特征。在爬取过程中,该窗口显示原创网页内容。通过观察这个窗口,很容易判断爬取过程是否正常,例如是否被目标网站阻塞。需要验证码。在很多情况下,人机交互也可以用于*敏*感*词*捕捉。比如输入验证码后,抓包过程可以再次自动运行;又如,手动输入查询条件后,计数器会自动执行内容抓取。
温馨提示:DS打印机支持自动输入验证码功能,连接打码平台即可处理各类验证码。请参阅“自动登录验证码识别”。
状态面板
用于描述采集任务运行状态的接口,包括任务的主题名、开始时间、线程数、剩余线程数、服务器连接数。服务器连接正常时,状态栏显示为
,显示为连接错误
,如果您遇到连接错误,您可以联系我们。
图 5:DS 乘数的状态面板
提示:线索数右边的字母表示具体的运行状态,在采集数据的过程中会快速闪烁。当您怀疑运行状态异常时,请告诉我们计数器停止状态的字母(企业QQ:),我们帮您诊断问题。
日志
在爬取过程中,如果遇到一些特殊事件,会显示在窗口下方的日志窗口中。每个事件中收录的信息包括时间、级别、线程号、处理器名称和消息内容。所有事件分为4个级别,分别代表:调试、提示、警告和错误。数字范围从 1 到 4。数字越大,严重性越高。
如果爬取失败,可以记下线索编号,进入MS柜台,使用菜单“工具”->“加载规则”->“按线索编号”将目标页面和爬取规则加载到同时工作。在舞台上,使用爬取规则检查目标页面是否合适,如果不合适,可以修改爬取规则。
如有疑问,您可以或