总结:一套内容采集系统 解放编辑人员

优采云 发布时间: 2021-01-13 10:10

  总结:一套内容采集系统 解放编辑人员

  内容采集系统对于基于内容的网站是非常好的助手。除了原创的内容外,其他内容也需要由编辑者或采集系统采集,然后添加到自己的网站中。 Discuz DvBBScms和其他产品在内部具有内容采集功能,可以显示由采集指定的相关内容。单客户端优采云采集器对于采集指定的内容也可能非常有用。这些工具都希望机器取代人类,从内容处理工作中解放编辑人员,并进行一些高端工作,例如采集对内容的结果进行微调,SEO优化,设置精确的采集规则,使采集的内容更符合网站的需求。

  以下内容采集系统是根据此思想开发的,该采集系统由两部分组成:

  1.编辑器使用的采集规则设置程序以及用于查看,微调和发布采集的结果的网站。

  2.定时采集器和定时*敏*感*词*已部署在服务器上。

  首先,编辑器通过采集规则设置程序(NiceCollectoer.exe)将网站设置为采集,然后等待采集完成,然后编辑器将网站(PickWeb)传递给[审查,微调和优化k15的结果,然后自行发布网站。编辑者需要做的是采集规则的设置和采集结果的优化。工作的其他部分由机器完成。

  

  NicePicker是一个HTML分析器,用于提取Url,NiceCollector和HostCollector都使用NicePicker分析Html,NiceCollectoer是采集规则设置程序,目标网站只需要设置一次:

  

  

  用法类似于最早的优采云采集器,这里我们以博客园为目标采集网站,在采集本质上设置文章,采集规则为非常简单:成为编辑器设置采集规则后,这些规则将保存在Setting.mdb中与NiceCollector.exe相同的目录中。通常,设置采集规则后,基本上无需更改它。仅当目标网站的Html Dom结构更改时,才需要再次微调采集规则。 NiceCollector还用于设置和添加新目标采集网站的操作。

  编辑器完成采集规则设置后,将Setting.mdb放在HostCollector.exe下,HostCollector将根据Setting.mdb的设置执行实际的采集,并将采集的结果存储在数据库。

  在此步骤中,内容的采集工作完成,编辑器可以打开PickWeb,微调和优化采集的结果,然后批准并将其发送给他们的网站:

  PickWeb并没有完成向自己网站发送采集结果的工作。编辑器完成内容审阅后,PostToForum.exe将读取数据库,并将通过审阅的采集结果发送给您自己的网站,当然您需要自己的网站。 ashx或其他方式来接收采集的结果,不建议PostToFormu.exe直接操作您自己的网站数据库,最好使用您自己的[k14上的API]来接收采集。

  NiceCollectoer,HostCollector,PickWeb,PostToForum,这些程序的共同工作已基本完成采集,并且发送,HostCollector,PickWeb,PostToForum的工作已部署在服务器上,HostCollector需要定期调用,新内容由采集目标网站生成的HostRunnerService.exe是Windows服务,用于定期调用

  

  

  HostCollector,以管理员身份在控制台下运行installutil / i HostRunnerService.exe来安装此Windows服务:

  

  HostRunnerService的配置也非常简单:

  

  在RunTime.txt中多次设置每日时间采集:

  

  当新内容为采集时,编辑者需要定期登录PickWeb以优化,微调和检查新内容,或设置默认的检查和批准。同样,还需要定期调用PostToForum来发送批准的新内容。 CallSenderService.exe与HostRunnerService.exe相似。这也是Windows服务,用于定期调用PostToFormu.exe。

  至此,除了其他两件事之外,整个系统已基本完成:SelfChecker.exe和HealthChecker.exe。 SelfCheck.exe用于检查Setting.mdb中设置的规则是否为有效规则,例如,检查采集规则是否设置了内容采集项目。 HealthChecker.exe用于采集HostCollector.exe和PostToForum.exe生成的日志,然后将日志发送到指定的系统维护者。

  此内容采集系统中仍有许多地方需要改进和优化。当前状态只能说是原型。例如,NicePick需要进一步抽象和重构,提供更多接口,并分析Html插件的所有方面,从而允许用户在每个分析步骤中加载自己的分析器。在NiceCollector上,需要越来越全面的采集规则设置。可以在PickWeb上添加一些默认的SEO优化规则,例如标题内容的批量SEO优化以及其他方面。

  可执行文件下载:

  08_453455_if8l_NROutput.rar

  源代码下载:

  08_234324_if8l_NiceCollector.rar

  原创链接:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线