2.部署在服务器上的定时采集器和定时*敏*感*词*(图)
优采云 发布时间: 2021-08-08 04:342.部署在服务器上的定时采集器和定时*敏*感*词*(图)
Content采集system 是面向内容的网站 的好助手。除了原创content,其他内容需要编辑或者采集system采集,然后添加到我自己的网站。 Discuz DvBBScms等产品里面有自己的内容采集功能,来采集指定的相关内容。单客户端优采云采集器也可以很好的处理采集指定的内容。这些工具都希望机器代替人类,让编辑从内容处理的工作中解放出来,做一些更高端的工作,比如微调采集results的内容,SEO优化,设置精准的采集规则,Make 采集的内容更符合你网站的需求。
以下内容采集system就是基于这个思路发展而来的,这个采集system由两部分组成:
1.采集rule setter 编辑使用,网站用于审核、微调和发布采集 的结果。
2. Timing 采集器 和定时*敏*感*词*部署在服务器上。
首先,编辑器使用采集rule setter (NiceCollectoer.exe) 将站点设置为采集。 采集完成后,编辑们再使用一个网站(PickWeb)来回复采集的结果会被审核、微调和优化,然后发布到他们的网站。编辑器需要做的是设置采集规则,优化采集的结果。其他部分工作由机器完成。
NicePicker 是一个 Html 分析器,用于提取 Url,NiceCollector 和 HostCollector 都使用 NicePicker 来分析 Html,NiceCollector 是 采集rule setter,一个目标 网站 只需要设置一次:
用法和最早的优采云采集器类似,这里我们以博客园为目标采集站点,设置采集精华区文章,采集规则很简单:成为编辑采集规则设置后,这些规则将保存在与NiceCollector.exe相同目录下的Setting.mdb中。一般在采集规则设置后,基本不需要更改。只有当目标网站的Html Dom结构发生变化时,才需要再次微调采集规则。 NiceCollector 也用于新目标采集 站点的设置和添加操作。
编辑器完成采集规则设置后,将Setting.mdb放在HostCollector.exe下,HostCollector会根据Setting.mdb的设置执行真正的采集,并将采集的结果存入数据库。
到这一步,内容的采集工作就完成了。编辑可以打开PickWeb,对采集的结果进行微调和优化,然后将结果通过后发送给自己的网站:
真正把采集结果发给自己网站的工作不是PickWeb做的。编辑完成内容审核后,PostToForum.exe 会读取数据库,将这个审核通过的采集结果发送给自己的网站上,当然你自己需要一个网站。 ashx或者其他方式接收采集的结果,不建议PostToFormu.exe直接操作自己的网站数据库,最好使用自己的网站上的一个API来接收采集的结果.
NiceCollector、HostCollector、PickWeb、PostToForum,这些程序的联合工作,基本完成了采集和发送的工作。服务器上部署了HostCollector、PickWeb、PostToForum,需要定期调用HostCollector,对于采集target网站生成的新内容,HostRunnerService.exe是Windows Service,用于定期调用HostCollector,运行installutil /我以管理员身份在控制台下的HostRunnerService.exe安装此Windows服务:
HostRunnerService的配置也很简单:
在RunTime.txt中多次设置每日时间采集:
新内容采集后,编辑需要定期登录PickWeb对新内容进行优化、微调、审核。您还可以设置默认的审核和批准。同样,PostToForum 也需要定期调用以发送批准的新内容。 CallSenderService.exe 类似于 HostRunnerService.exe。它也是一个 Windows 服务,用于定期调用 PostToFormu.exe。
到此,整个系统就基本完成了,另外还有两个东西:SelfChecker.exe和HealthChecker.exe。 SelfCheck.exe 用于检查Setting.mdb 中设置的规则是否为有效规则,例如检查采集 规则是否设置了内容采集 项。 HealthChecker.exe 用于采集 HostCollector.exe 和 PostToForum.exe 生成的日志,然后将日志发送给指定的系统维护者。
这个内容采集系统还有待完善和优化。目前的状态只能说是原型。例如,NicePick 需要进一步抽象和重构,赋予更多的接口,分析各个方面的 Html Plug-in 允许用户在每个分析步骤加载自己的分析器。在 NiceCollector 上,需要越来越全面的 采集 规则设置。您可以在 PickWeb 上添加一些默认的 SEO 优化规则,例如 Title 内容的批量 SEO 优化等。
可执行文件下载:
08_453455_if8l_NROutput.rar(链接已更新)
源码下载:
08_234324_if8l_NiceCollector.rar(链接已更新)