使用集电极的指南
优采云 发布时间: 2020-08-06 16:10首先,让我解释一下关冠采集器是什么,小说站长的老手常常把它称为关冠. 实际上,关冠采集器是解奇小说系统的辅助采集器. 它是一个软件. 它使用界起后台采集规则,但该程序只能在Windows平台上运行,因此,如果linux要以界起为站并希望使用网关,则可能会更加麻烦. 如果要使用网关采集器,则需要注意以下一些文档. 的东西.
紧密采集器的主要焦点是两个文件夹
规则文件夹,日志文件夹:
规则是我们发布采集规则的地方;
日志是一个日志内容,也就是说,当关闭采集器时,它将记录错误的信息. 当我们看到此消息时,我们将知道集合出了错;
现在,我们单击开关以关闭采集器,然后直接打开NovelSpider.exe以启动关闭采集器. (注意: 打开过程会有点慢,因此请单击一次并稍等片刻. 请勿再次单击“打开”,否则一段时间后将打开多个关闭采集器!)
在某些级别上会有一个提示框,因此无论如何都将其关闭.
了解有关采集器的一些常用信息
打开后,我们应立即修改“设置(S)”→“系统设置”. :
1. 修改本地网站目录,例如,我的位于D: \ xiaoshuo
2. 再次修改数据库连接字符串
DataSource = 127.0.0.1;
Database =数据库名称;
UserID =数据库管理用户名;
Password =数据库管理密码;
port = 3306;
charset = gbk
以上是设置采集器的方法. 这是您第一次使用它,需要进行设置. 设置完毕后,无需再次设置.
关于“采集器关闭”分类设置
首先: 类别设置通常对应于类别,该类别对应于您网站的类别. 例如
1 | Fantasy Fantasy =,幻想,幻想,魔术,魔术,幻想魔术,幻想幻想,幻想小说,幻想·魔术,幻想世界,幻想幻想,
1是您网站上的第一个蓝米幻想幻想. 等号后的类别是采集目标网站可能遇到的类别. 越详细越好,某些模板网站会对应您的幻想幻想所没有的内容,因此您可以添加它.
第二个: 是设置中的一代
默认情况下无需修改. 第一个生成的目录页面html是您网站的新颖目录页面的html. 如果您的网站使用伪静态,则不需要生成它. 第二个生成的内容页面html用于新颖内容. 单击以查看小说的文本章节. 这与上面的第一个相同. 如果您的网站使用伪静态,则不需要生成它.
如果您要构建一个静态的新颖网站,则需要生成它,这非常消耗硬盘. 通常,一千本小说需要几GB的空间.
第三: 生成全文阅读. 不用担心.
第四: 生成OPF. 这必须生成,否则网站将无法打开,并且如果未生成您的新颖网站,则会错误打开. 只需在此处打勾. 不用担心其他设置,没有特殊要求您将无法使用它们.
(注: [Settings-e-book settings]不需要控制,默认值就足够了,因此不要选择对勾,并且设置中的图片设置也是默认值,因此请不要选择滴答声. )
第五: 文字广告. 如果要在新颖内容中添加广告,则可以在此处添加内容. 您需要选择第一个存储章节以添加文字广告. 真正的存储空间会将您的广告添加到您采集的小说中,这些路径的txt文件中的文件/文章/ txt / 0/1
这是您的小说,是一部移动版本,因此您需要选择第一本. 添加广告时,您会在章节阅读中看到它,但不要使用这些功能.
第六: 其他[过滤和替换],[文本到图片]. 无需控制
第七: 日志选择. 勾选所有人. 这是为了采集记录的遇到的错误的日志. 您可以基于此消除错误.
如何查看海关规则是否有效?
单击规则,进入规则管理器,我们选择我们不能做的三角形符号,下拉要测试的规则,单击右侧的负载,然后单击“测试规则”,界面将弹出,如果这些是要获取ID和小说名称
这是为了获得包括小说名称分类介绍和封面在内的小说信息内容.
某些网站不会采集所有信息,如果我们将其采集回来,它将显得不完整. 这没有作用. 您可以阅读小说主要章节的内容. 然后这些是要采集的章节,这是小说的内容.
这是一个很好的采集规则. 我们可以使用此采集规则来采集新颖的更新.
如何采集
通常,我们使用标准的采集模式.
当我们单击“采集标准采集模式”时,有时会出现错误消息. 无论我们在采集框中单击一条规则,它都会显示在正确的位置. 有一些暗示,我们也忽略了他,直接单击[继续]就是这样.
输入标准采集品后输入正确的姿势后,通常使用第一个根据目标测站页面获取编号. 编写此规则时,将根据目标电台的最新更新小说进行设置,并将在采集过程中自动将其采集. 当我们更新对方的小说时,我们还将关注其他人的小说网站.
1. 设置ID范围,并根据目标站ID进行采集. 采集对方的某本书时很少使用.
2. 从对方采集某本书时,很少使用按目标站ID进行采集.
3. 该采集集基于您网站的小说ID,因此您需要先单击网站上的小说才能对其进行更新,但是模板网站可能没有这本书,因此采集速度很慢. 很少使用,基本上没有用.
4. 转到日志记录的底部,必须选择日志记录以记录无缘无故无法采集的新颖信息的采集. 还必须选择循环采集. 这是为了确保采集器在自动采集过程中自动采集另一方的网站. 循环时间设置取决于您自己的需求. 我通常将其设置为十分钟. 如果要继续采集,请将其设置为零.
如何设置采集动作?
[添加新书]: 添加书时添加;
[谨慎使用]: 以下两个单词是比较模板站的章节名称. 如果正确,请继续采集. 如果不对,请将其清空并再次采集. 不要使用它,这会引起很大的问题. 有时候,意外清空我收录在百度中的页面是一个悲剧. 对于其他一些功能,可以阅读文字;
[设置2]: 这是比较章节的选择,无论如何,它们几乎是相同的,为什么我没有什么不同?您可以默认设置;
[空章节的处理方法]: 这意味着模板站点中的某些小说是空的,具体取决于您的需要,但是请注意,您不应选择第二本来跳过本章,因为跳过本章会给您一个章节名称,下次您少采集一个章节名称并将该章节名称与模板站进行比较时,该书将无法更新;
[章节安排]: 这取决于目标站的图,这更加复杂. 我给您的采集规则按目标电台的顺序排列. 不要选择任何东西,通常使用[目标电台顺序]和[按照章节ID的顺序],不要使用其他内容. 这两个不会有问题,我将为您提供默认设置;
[过滤器设置]: 取决于您需要设置的内容,字面意思很明确;
[删除水印]: 这基本上是不必要的;
[Agent],[Progress]: 通常将上述三个数字设置为000;
这样,采集速度很快. 代理IP是阻止您进行采集的目标站点,然后您可以在Internet上找到一些代理,打开代理功能,然后进行采集.
我已经在这里讨论了其中一些功能,而其他功能则是一些辅助功能,您以后可以进一步了解.
在下面进行设置,然后单击以开始采集. 选择规则,然后选择要输入的采集操作,然后单击以开始;
如果出现提示“成功启动了采集模式”,则可以查看您的网站是否已更新.
后记: 由于Guanguan采集器的升级,版本之间可能会有差异,但通常没有太大差异. 只需解决或在百度在线上找到解决方案即可.