使用集电极的指南

优采云发布时间: 2020-08-06 16:10

　　首先，让我解释一下关冠采集器是什么，小说站长的老手常常把它称为关冠. 实际上，关冠采集器是解奇小说系统的辅助采集器. 它是一个软件. 它使用界起后台采集规则，但该程序只能在Windows平台上运行，因此，如果linux要以界起为站并希望使用网关，则可能会更加麻烦. 如果要使用网关采集器，则需要注意以下一些文档. 的东西.

　　紧密采集器的主要焦点是两个文件夹

　　规则文件夹，日志文件夹:

　　规则是我们发布采集规则的地方；

　　日志是一个日志内容，也就是说，当关闭采集器时，它将记录错误的信息. 当我们看到此消息时，我们将知道集合出了错；

　　现在，我们单击开关以关闭采集器，然后直接打开NovelSpider.exe以启动关闭采集器. （注意: 打开过程会有点慢，因此请单击一次并稍等片刻. 请勿再次单击“打开”，否则一段时间后将打开多个关闭采集器！）

　　在某些级别上会有一个提示框，因此无论如何都将其关闭.

　　了解有关采集器的一些常用信息

　　打开后，我们应立即修改“设置（S）”→“系统设置”. :

　　1. 修改本地网站目录，例如，我的位于D: \ xiaoshuo

　　2. 再次修改数据库连接字符串

　　DataSource = 127.0.0.1;

　　Database =数据库名称；

　　UserID =数据库管理用户名；

　　Password =数据库管理密码；

　　port = 3306;

　　charset = gbk

　　以上是设置采集器的方法. 这是您第一次使用它，需要进行设置. 设置完毕后，无需再次设置.

　　关于“采集器关闭”分类设置

　　首先: 类别设置通常对应于类别，该类别对应于您网站的类别. 例如

　　1 | Fantasy Fantasy =，幻想，幻想，魔术，魔术，幻想魔术，幻想幻想，幻想小说，幻想·魔术，幻想世界，幻想幻想，

　　1是您网站上的第一个蓝米幻想幻想. 等号后的类别是采集目标网站可能遇到的类别. 越详细越好，某些模板网站会对应您的幻想幻想所没有的内容，因此您可以添加它.

　　第二个: 是设置中的一代

　　默认情况下无需修改. 第一个生成的目录页面html是您网站的新颖目录页面的html. 如果您的网站使用伪静态，则不需要生成它. 第二个生成的内容页面html用于新颖内容. 单击以查看小说的文本章节. 这与上面的第一个相同. 如果您的网站使用伪静态，则不需要生成它.

　　如果您要构建一个静态的新颖网站，则需要生成它，这非常消耗硬盘. 通常，一千本小说需要几GB的空间.

　　第三: 生成全文阅读. 不用担心.

　　第四: 生成OPF. 这必须生成，否则网站将无法打开，并且如果未生成您的新颖网站，则会错误打开. 只需在此处打勾. 不用担心其他设置，没有特殊要求您将无法使用它们.

　　（注: [Settings-e-book settings]不需要控制，默认值就足够了，因此不要选择对勾，并且设置中的图片设置也是默认值，因此请不要选择滴答声. ）

　　第五: 文字广告. 如果要在新颖内容中添加广告，则可以在此处添加内容. 您需要选择第一个存储章节以添加文字广告. 真正的存储空间会将您的广告添加到您采集的小说中，这些路径的txt文件中的文件/文章/ txt / 0/1

　　这是您的小说，是一部移动版本，因此您需要选择第一本. 添加广告时，您会在章节阅读中看到它，但不要使用这些功能.

　　第六: 其他[过滤和替换]，[文本到图片]. 无需控制

　　第七: 日志选择. 勾选所有人. 这是为了采集记录的遇到的错误的日志. 您可以基于此消除错误.

　　如何查看海关规则是否有效？

　　单击规则，进入规则管理器，我们选择我们不能做的三角形符号，下拉要测试的规则，单击右侧的负载，然后单击“测试规则”，界面将弹出，如果这些是要获取ID和小说名称

　　这是为了获得包括小说名称分类介绍和封面在内的小说信息内容.

　　某些网站不会采集所有信息，如果我们将其采集回来，它将显得不完整. 这没有作用. 您可以阅读小说主要章节的内容. 然后这些是要采集的章节，这是小说的内容.

　　这是一个很好的采集规则. 我们可以使用此采集规则来采集新颖的更新.

　　如何采集

　　通常，我们使用标准的采集模式.

　　当我们单击“采集标准采集模式”时，有时会出现错误消息. 无论我们在采集框中单击一条规则，它都会显示在正确的位置. 有一些暗示，我们也忽略了他，直接单击[继续]就是这样.

　　输入标准采集品后输入正确的姿势后，通常使用第一个根据目标测站页面获取编号. 编写此规则时，将根据目标电台的最新更新小说进行设置，并将在采集过程中自动将其采集. 当我们更新对方的小说时，我们还将关注其他人的小说网站.

　　1. 设置ID范围，并根据目标站ID进行采集. 采集对方的某本书时很少使用.

　　2. 从对方采集某本书时，很少使用按目标站ID进行采集.

　　3. 该采集集基于您网站的小说ID，因此您需要先单击网站上的小说才能对其进行更新，但是模板网站可能没有这本书，因此采集速度很慢. 很少使用，基本上没有用.

　　4. 转到日志记录的底部，必须选择日志记录以记录无缘无故无法采集的新颖信息的采集. 还必须选择循环采集. 这是为了确保采集器在自动采集过程中自动采集另一方的网站. 循环时间设置取决于您自己的需求. 我通常将其设置为十分钟. 如果要继续采集，请将其设置为零.

　　如何设置采集动作？

　　[添加新书]: 添加书时添加；

　　[谨慎使用]: 以下两个单词是比较模板站的章节名称. 如果正确，请继续采集. 如果不对，请将其清空并再次采集. 不要使用它，这会引起很大的问题. 有时候，意外清空我收录在百度中的页面是一个悲剧. 对于其他一些功能，可以阅读文字；

　　[设置2]: 这是比较章节的选择，无论如何，它们几乎是相同的，为什么我没有什么不同？您可以默认设置；

　　[空章节的处理方法]: 这意味着模板站点中的某些小说是空的，具体取决于您的需要，但是请注意，您不应选择第二本来跳过本章，因为跳过本章会给您一个章节名称，下次您少采集一个章节名称并将该章节名称与模板站进行比较时，该书将无法更新；

　　[章节安排]: 这取决于目标站的图，这更加复杂. 我给您的采集规则按目标电台的顺序排列. 不要选择任何东西，通常使用[目标电台顺序]和[按照章节ID的顺序]，不要使用其他内容. 这两个不会有问题，我将为您提供默认设置；

　　[过滤器设置]: 取决于您需要设置的内容，字面意思很明确；

　　[删除水印]: 这基本上是不必要的；

　　[Agent]，[Progress]: 通常将上述三个数字设置为000；

　　这样，采集速度很快. 代理IP是阻止您进行采集的目标站点，然后您可以在Internet上找到一些代理，打开代理功能，然后进行采集.

　　我已经在这里讨论了其中一些功能，而其他功能则是一些辅助功能，您以后可以进一步了解.

　　在下面进行设置，然后单击以开始采集. 选择规则，然后选择要输入的采集操作，然后单击以开始；

　　如果出现提示“成功启动了采集模式”，则可以查看您的网站是否已更新.

　　后记: 由于Guanguan采集器的升级，版本之间可能会有差异，但通常没有太大差异. 只需解决或在百度在线上找到解决方案即可.

0

2020-08-06

软文采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

使用集电极的指南

0 个评论

发起人

AI时代内容工厂

使用集电极的指南

0 个评论

发起人

相关问题