自动采集器怎么用(玄幻奇幻=,玄幻,魔法,奇幻玄幻玄幻)
优采云 发布时间: 2021-10-28 23:03自动采集器怎么用(玄幻奇幻=,玄幻,魔法,奇幻玄幻玄幻)
关闭采集器 主要关注两个文件夹
规则文件夹,日志文件夹:
规则是我们推迟规则的地方采集;
log是一个日志的东西,就是当你关闭采集器时,它会记录错误的信息。看到这个,我们就知道错误在哪里采集;
现在我们点击开关采集器,直接打开NovelSpider.exe,就可以启动开关采集器了。(注意:打开过程会有点慢,所以点击一次,稍等片刻。不要再次点击打开,否则一段时间后会打开多个关卡采集器!)
有些关卡会有提示框,我们不管,关掉就好了。
了解一些关于采集器的常用东西
打开后,我们应该立即修改“设置(S)”→系统设置。:
1.修改本地网站目录,比如我的在D:\xiaoshuo
2. 然后修改数据库连接字符串
数据源=127.0.0.1;
数据库=数据库名称;
UserID=数据库管理用户名;
Password=数据库管理密码;
端口=3306;
字符集=gbk
上面是关闭采集器的设置,第一次使用,需要设置,设置好后就不需要再设置了。
关于“关闭采集器1.7”的分类设置
第一:Category设置一般对应categories,这些对应你的网站category。例如
1|Fantasy Fantasy=, Fantasy, Fantasy, Magic, Magic, Fantasy Magic, Fantasy Fantasy, Fantasy Novel, Fantasy·Magic, Fantasy World, Fantasy Fantasy,
1是你的网站第一个蓝米奇幻奇幻,等号后面是采集target网站你可能遇到的类别,越详细越好,一些模板网站对应你的幻想幻想没有的东西,你添加它。
第二:是设置里的生成
默认情况下,不需要修改。第一个生成的内容页面html是你的网站小说目录页面的html。如果您 网站 使用伪静态,那么您不需要生成它。第二个生成的内容页html 这是小说的内容。点击查看小说正文章节。这与上面的第一个相同。如果您网站 使用伪静态,则不需要生成它。
如果你正在构建一个静态小说网站,你需要生成它,这是非常消耗硬盘的。通常,1,000 部小说需要几 GB 的空间。
第三:生成全文阅读。不用担心,它通常不会被使用。
第四:生成OPF。这个一定要生成,不然网站打不开,你的小说网站不生成也是打开错误。只需在此处打勾。不要在意其他设置,没有特殊要求您将无法使用它们。
(注:【设置-电子书设置】这个不需要控制,默认就够了,所以不要勾选,设置里的图片设置也是默认的,所以不要勾选。 )
第五:文字广告。如果您想在您的小说内容中添加广告,您可以在此处添加内容。需要选择第一个存储章节添加文字广告。实际存储会将您的广告添加到您采集 下来的小说中。, files/article/txt/0/1 在这些路径的txt文件中
这个,你的小说是手机版的,需要选第一个。添加广告时,会在章节阅读中看到,但不要使用这些功能。
第六:其他【过滤替换】、【文字转图片】。无需管理
第七:日志选择。勾选所有这些。这是采集 遇到的错误日志。您可以基于此消除错误。
如何查看海关规则是否有效
点击规则进入规则管理器,我们选择不能做的三角符号,下拉选择要测试的规则,点击右边的加载,然后点击“测试规则”,出现一个界面弹出,如果出现这些就是获取ID和小说名
这是获取小说信息内容,包括小说名称分类介绍和封面。
有些网站这个信息不是采集的全部,我们采集回来也会显得不完整。这没有效果。您可以阅读主要小说章节的内容。那么这些就是获取采集的章节,这个就是获取小说的内容。
这是一个很好的 采集 规则。我们可以使用这个采集规则来更新采集小说。
如何采集
一般我们使用标准的采集模式。
当我们点击“采集--standard采集 mode”时,有时会出现错误信息。无论我们点击采集框架中的一条规则,它都会出现在正确的位置,并且会出现一些。是什么促使我们忽略他,只需单击[继续]。
进入标准采集后进入正确姿势后,通常使用第一个根据目标站页面获取编号。我们的规则写的时候,是根据目标站的最新更新小说设置的,采集我们更新的时候会自动采集对方更新的小说,我们也会和别人的小说一起更新小说网站。
1.设置ID范围,根据目标站ID采集需要特殊采集对方的本子采集时很少使用。采集@ >.
2.根据目标站ID采集很少使用,一般需要特殊的采集对方的本子采集。采集。
3.按你网站的小说ID采集,点击之前需要更新你的网站小说之一,但模板站可能没有这本书,所以采集非常慢。很少用,基本没用。
4. 去日志记录的底部,这个一定要选,会记录当时无缘无故找不到采集的采集小说信息。周期采集也必须选择,这个是在保证采集时自动采集器自动采集对方的网站,周期时间设置看你自己对于需求,我一般设置为十分钟。如果您想保留 采集,请将其设置为零。
如何设置采集动作?
【添加新书】:添加新书时添加;
【慎用】:下面两个字是对比模板站的章节名。如果正确,请继续。采集 如果不正确,清空它然后采集。不要使用这个,它会导致大问题。有时候不小心清空了我在百度收录上用过的页面是个悲剧。对于其他一些功能,看文字没什么;
【设定2】:这是对比章节的选择,几乎是一样的,反正我怎么感觉不到什么不同?你可以默认;
【空章处理】:即模板站部分小说内容为空,看自己需要,但注意不要选择第二本跳过本章,因为跳过这一章会空一个章名, 下次采集当缺少一个章节名并且章节名与模板站比较时,无法更新图书;
【章节安排】:这个是根据目标站的剧情,比较复杂。我给你的采集规则是按照目标站的顺序。什么都不选,一般用【目标站顺序】和【按章节ID顺序】,其他的不要用。这两个都不会有问题,我给你的默认设置就可以了;
【过滤设置】:看你需要设置什么,字面意思很清楚;
【去除水印】:这个基本没必要;
【代理】、【进度】:一般设置上面三个数字为000;
所以它采集很快,代理IP就是把你屏蔽的目标站点采集然后你在网上找一些代理,打开代理功能然后采集。
这里的一些功能我已经讲完了,其他的都是一些辅助功能,以后可以自己慢慢了解。
现在设置好点击启动采集,选择规则,选择按什么。采集采集 动作进入后,点击即可开始;
如果提示“成功启动采集的模式”,就是这样,你可以去看看你的网站是否已经更新了。
—————————————————