网站内容采集系统(2.部署在服务器上的定时采集器和定时*敏*感*词*(图))
优采云 发布时间: 2022-01-16 22:03网站内容采集系统(2.部署在服务器上的定时采集器和定时*敏*感*词*(图))
内容采集系统是基于内容的网站的一个很好的助手。除了原创的内容,其他的内容都需要编辑采集或者采集系统整理添加到你的网站中。Discuz DvBBScms等产品里面都有内容采集功能,可以采集指定相关内容。单客户端优采云采集器也可以很好的采集指定内容。这些工具都是为了让机器代替人,把编辑从内容处理的工作中解放出来,做一些更高端的工作,比如采集结果微调、SEO优化、设置准确采集@ > 规则使采集 的内容更符合他们网站 的需要。
下面的采集系统就是基于这个想法开发的,这个采集系统由两部分组成:
1. 编辑使用的 采集Rule Setter 和用于审查、微调和发布 采集 结果的网站。
2. Timing采集器 和 Timing Transmitter 部署在服务器上。
首先,编辑器使用采集 规则设置器(NiceCollectoer.exe)将站点设置为采集,采集 完成后,编辑器使用Web 站点(PickWeb ) 来审查、微调和细化 采集 的结果并发布到他们自己的 网站。编辑器需要做的是设置采集规则,优化采集的结果,剩下的工作由机器完成。
NicePicker 是一个用于提取 URL 的 Html 分析器。NiceCollector 和 HostCollector 都使用 NicePicker 来分析 Html。NiceCollectoer 是一个 采集 规则设置器,一个目标 网站 只需要设置一次:
用法和最早的优采云采集器类似,这里我们以博客园为目标采集站点,设置采集精华区的文章 , 采集规则很简单:当编辑器设置采集规则时,这些规则会保存到与NiceCollector.exe同目录的Setting.mdb中。一般采集规则设置好后,基本不需要修改。只有当目标网站的Html Dom结构发生变化时,才需要再次微调采集规则。NiceCollector 用于设置和添加新目标采集 站点。
编辑完成采集规则的设置后,将Setting.mdb放到HostCollector.exe下,HostCollector会根据Setting.mdb的设置执行真正的采集,并放入采集的结果存储在数据库中。
至此,内容的采集工作就完成了。编辑可以打开 PickWeb,对采集的结果进行微调和优化,然后审阅并发给自己的网站:
将采集结果实际发送给自己网站 的工作不是由 PickWeb 完成的。编辑完成内容审核后,PostToForum.exe会读取数据库并将这个批准的采集结果发送到你自己的网站,当然你需要一个.ashx或者其他方式来接收结果采集的采集自己的网站,不建议PostToFormu.exe直接操作自己网站的数据库,最好通过API接收采集的结果它自己的 网站。
NiceCollector、HostCollector、PickWeb、PostToForum,这些程序协同工作,基本都完成了采集和发送的工作,HostCollector、PickWeb、PostToForum部署在服务器上,需要定期调用HostCollector,来生成新的内容通过采集target网站,HostRunnerService.exe是一个定期调用HostCollector的Windows Service,以管理员身份在控制台下运行 installutil /i HostRunnerService.exe 安装这个Windows Service:
HostRunnerService的配置也很简单:
在 RunTime.txt 中每天设置时间 采集 次:
当新增内容为采集时,编辑需要定期登录PickWeb对新增内容进行优化、微调、审核,或者设置默认审核通过。同样,PostToForum 也需要定期调用,以发送通过审核的新内容。CallSenderService.exe 与HostRunnerService.exe 类似,也是一个Windows Service,用于定期调用PostToFormu.exe。
到这里整个系统基本完成了,除了两个小东西:SelfChecker.exe和HealthChecker.exe。SelfCheck.exe 用于检查 Setting.mdb 中设置的规则是否为有效规则,例如检查 采集 规则是否设置了内容 采集 项。HealthChecker.exe用于采集HostCollector.exe和PostToForum.exe产生的日志,然后将日志发送给指定的系统维护人员。
本内容 采集 系统还有很多地方需要改进和优化。目前的状态只能说是原型。例如,NicePick 需要进一步抽象和重构,给出更多的接口,以及用于分析 Html 各个方面的插件。它允许用户在每个分析步骤加载他们自己的*敏*感*词*。在 NiceCollector 上,需要更全面的 采集 规则。您可以在 PickWeb 上添加一些默认的 SEO 优化规则,例如 Title 内容的批量 SEO 优化等等。
可执行下载:
08_453455_if8l_NROutput.rar (链接更新)
源代码下载:
08_234324_if8l_NiceCollector.rar (链接更新)