采集采集器(安装要求配置插件添加采集规则计划任务管理本插件)
优采云 发布时间: 2022-03-28 01:13采集采集器(安装要求配置插件添加采集规则计划任务管理本插件)
安装需要配置插件添加采集规则定时任务同义词管理该插件适用于php5.x版本。安装新插件 “安装新插件”提供新插件的安装和数据导入。进入“Install New Plugin”,可以看到已经上传到source/plugin/目录下但还没有安装的插件,点击插件右侧的“Install”链接安装插件。安装后,返回插件列表启用插件。配置插件在后台插件菜单设置中进行配置。采集器下面一一介绍管理界面。标题栏:默认是浏览机器人 添加机器人:和之前一样。导入机器人:先看导出的规则文件:就是横线下面的一大串字母,复制到配置文件内容框。允许导入不同的版本。如果没有,将检测插件的版本。通常,您可以选择“是”。导入后,将其采集器的采集时间设置为当前时间,默认显示在列表首位,方便进一步编辑。目前兼容SS7.5版本的采集规则,可以在官网搜索,也可以到采集器专页查找或提问。现在回到浏览机器人界面。进一步介绍:采集器左边的选择框只对底部批量操作有效。单击 采集 的名称 会进入采集器未导入文章的界面。【指南】自动导入【图片】图片并下载到本地【重新】允许重复标题【监控】监控重复URL右侧的选择操作作为单独操作采集器。开始采集:点击开始采集编辑配置:编辑采集器规则复制配置:将当前规则复制到新的机器人配置中,非常方便好用。
导出配置:请右键选择目标另存为。易于备份和共享您的机器人。查看结果:查看当前机器人未自动导入的文章。导出文章:将文章 列表导出到文本文件: 清除文章:清除当前未导入的采集器 或已导入但未删除的临时文章。删除机器:删除后无法恢复,会提示进一步确认。批量操作:选择左侧要操作的采集器,选择一个操作,点击提交,开始批量操作。非常方便。底部是页码:如果页数很大,会出现一个跳转文本框。如下图所示在方框中填写你要跳转的页码,然后回车即可跳转。以下是采集器文章管理的介绍:选择、未导入文章或导入文章。采集器 的列表,与 文章 相关的列表将在 采集器 的名称后面标出。单击名称将显示关联的 文章。有附件的会在标题前显示附件图标。下面重点介绍操作: 全选:全选或不全选。导入:在导入的位置下方会显示导入界面。这里需要说明一点,如果要导入到传送门并保存图片,应该在采集之前的第一列类别中选择传送门,否则附件的位置会出错。这里显示了这个四级分类:如果有组,组数会在后面显示,没有组的不是可选的。这设置是否收录这些临时 文章。如果不删除,将显示在导入列表中。如果选择采集器的文章,导入界面也不同。如下图: 主要区别在于一次性导入较多。
可以一次性将当前采集器所有未导入的文章导入到指定位置。导入的文章 界面与未导入的文章 类似,但显示导入的地方更多。采集计划任务是DZ的任务。这里已经集成了操作界面,将机器人的所有任务一起展示,操作起来更加方便。以下是一些情况: DZ的定时任务使用了负载均衡技术,并不是每个时间点的每个任务都会被执行。为保证执行,多设置几个时间点,不要与其他时间点重叠。不用担心用户触发采集后关闭页面会导致采集中断,采集会继续在服务器上执行。词库管理界面:可以临时添加一组词,或者以文本的形式批量导入。词库 4180 组: HYPERLINK "/thread-28-1-1.html" /thread-28-1-1.html 您也可以编写自己的词库文本。单向默认为“→”,双向默认为“=”。一行字。如:防护=保护和安全→安排安全=安全和舒适=舒适和舒适=舒适要求文本编码为ANSI,这也是记事本的默认编码。其他编码会导致乱码。添加机器人一、基本设置机器人名称:可根据采集的内容定义采集总数:为采集一次采集@的总数>number : 采集 的数量 s 跳转到一个页面。采集 是一个非常耗费资源的进程。为了避免超时,使用了页面跳转。
如果使用计划任务,最好将此项目设置为与总数相同。因为定时任务不会跳转到页面。根据网络速度,建议设置较小的值以避免超时。自动导入到:选择一个类别将采集的结果直接导入到站点。要实现自动导入,您必须选择特定的部分或列。另*敏*感*词*包括标题和内容。纯图片不需要启用文章。例如,支持单向和双向替换。供应->供应(单向):文章 用“供应”代替“供应”一词,但如果“供应”一词,则不是“供应”。Neat and tidy(双向):文章 会将“tidy”替换为“tidy”,如果有“tidy”则替换为“tidy”。具体的词库管理见后面章节。预定义的发布时间:如果此处设置时间,则释放时间为设置时间,如果留空,则时间为采集的当前时间。列表页面采集设置1锁定内容,页面为采集打开QQ首页HYPERLINK""根据自己的需要确定相关内容,这里以新闻中心为例。
点击进入内容很丰富,而且还分为很多类别,确定你要的类别采集。现在我正在寻找的是一个 文章 列表,通常带有“更多”这个词。这显然不合适,继续检查,先找到你想要的猎物。为了找到目标,这里我们以国内新闻为例。点击进入国内。同理有很多分类,当然你可以采集中间这个列表,但是为了让教程更通用,选择下面更常见的列表形式。在此处选择当前的政治新闻。点击进入。非常漂亮和直观的列表。这里是要使用的列表地址: HYPERLINK "/newsgn/zhxw/shizhengxinwen.htm" /newsgn/zhxw/shizhengxinwen.htm 继续观察列表的URL地址规则。HYPERLINK "/newsgn/zhxw/shizhengxinwen_2.htm" /newsgn/zhxw/shizhengxinwen_2.htm HYPERLINK "/newsgn/zhxw/shizhengxinwen_3.htm" /newsgn/zhxw/shizhengxinwen_3.htm。. . 规则很明显。/newsgn/zhxw/shizhengxinwen_[page].htm 接下来测试首页是否也符合这个规则。
按规则写地址: HYPERLINK "/newsgn/zhxw/shizhengxinwen_1.htm" /newsgn/zhxw/shizhengxinwen_1.htm 发现打不开,说明首页不一样其他页面,所以填写2个地方。填写到手动输入,然后点击添加主页地址。自动增加URL填写常规地址,一般按降序排列,根据自己的需要设置。继续,自动调整起始地址:目前只支持升序,以后会改进。该功能是根据采集的总数和每次列表链接的数量自动更新采集的起始地址。示例:列表页有10个链接,每个采集的总数为6个。在第二个采集之后,自动增长起始地址会加1。列表页收录链接数:此参数仅在启用自动调整时有效。文章倒序采集:设置此项后,列表中的文章将从列表中的最后一个链接开始采集采集页码:请输入所需的 文章 @采集 页面的编码。例如:gbk、utf-8、big5。如果为空,则不进行编码转换。使用该程序来帮助您识别它。一般采集的页面是GB2321,你的是GBK,所以不能转换。继续列表区识别规则:先看列表的源文件。使用搜索的方式快速定位,这里搜索第一个< @文章。下面,需要有一定的HTML基础和编写规则的经验,当然经验是积累回来的。继续观察。我们要的是这个列表:也就是说,在列表的跳转列表下方,我们观察到刚刚定位到的地方稍微高一点的地方。
时事新闻
太多的选择从这里。下面继续文章链接URL识别规则这里的列表太标准了,这个可以留空让程序自动识别。这是一个演示:该程序是基于第一次出现的位置。好吧,没有其他地方了,所以这是标题的表达方式。[主题]文章标题过滤规则用*代替任意字符,换行,回车,多条规则用|分隔。这里是直接填写关键词。文章替换标题文字,直接填写互换词。如果有多个,点击添加,如果只有一个,则无需点击添加。文章标题收录关键字设置此选项后,只有文章 标题收录关键字的多个关键字用|文章 分隔标题关键字过滤设置此选项后,标题收录关键字的采集文章 将被排除。多个关键字用 | 分隔 允许文章标题重复(如果启用了自动存储,那么启用这个文章项的标题不允许重复,会增加数据库的负载)(这个不足SS7.5 未来会进一步改进。)完成标题部分并继续文章 的内容部分。内容页面内容采集设置文章内容标识规则也遵守源文件。这类似于识别列表,比较识别列表更简单。开始部分:
2010 年 10 月 18 日 15:06 万维网
字体大小:T|T
我们为此版本预留了时间,并将其视为开始标志。在下面找到结尾。把爱国热情转化为切实做好工作,维护改革发展稳定大局。
更多精彩内容请登录万维网()