一套内容采集系统源码
优采云 发布时间: 2020-08-31 03:14一组内容采集系统源代码
一组内容采集系统源代码
一组内容采集系统可以解放编辑者. 内容采集系统是基于内容的网站的非常好的助手. 除了原创内容外,其他内容还需要编辑者或{mask1}系统采集和整理,然后添加到自己的网站中. Discuz DvBBS cms和其他产品具有内置的内容采集功能,可以采集到指定的相关内容. 单客户端优采云采集器也可以很好地用于采集指定的内容. 这些工具都希望机器取代人类,从内容处理工作中解放编辑人员,并完成一些高端任务,例如微调采集结果的内容,SEO优化以及设置精确的采集规则. 使采集的内容更符合您的网站需求.
基于此思想开发了以下内容采集系统,该采集系统包括两个部分:
1. 编辑人员和网站使用的采集规则设置程序,用于查看,微调和发布采集结果.
2. 服务器上部署了定时采集器和定时*敏*感*词*.
首先,编辑器通过采集规则设置器(NiceCollectoer.exe)将站点设置为采集,然后等待采集完成,然后编辑器使用网站(PickWeb)来检查{mask1}的结果为审查,微调和优化,然后发布到自己的网站. 编辑者需要做的是设置采集规则并优化采集结果. 工作的其他部分由机器完成.
NicePicker是一个HTML分析器,用于提取Url,NiceCollector和HostCollector都使用NicePicker分析Html,NiceCollectoer是采集规则设置器,目标网站只需要设置一次:
它类似于最早的优采云采集器. 在这里,我们将博客花园用作目标采集站点,并在采集的本质上设置了文章. 采集规则非常简单: 作为编辑器设置采集规则后,这些规则将保存到与NiceCollector.exe相同目录中的Setting.mdb中. 通常,设置采集规则后,基本上无需更改它. 仅当目标网站的Html Dom结构更改时,才需要再次微调采集规则. NiceCollector还用于新目标捕获站点的设置和添加操作.
编辑器完成采集规则设置后,将Setting.mdb放在HostCollector.exe下,HostCollector将根据Setting.mdb的设置执行实际采集,并将采集结果存储在数据库中.
在此步骤中,内容的采集工作已完成. 编辑者可以打开PickWeb,微调和优化采集的结果,然后查看并将其发送到他们的网站
PickWeb并未完成将采集结果实际发送到自己网站的工作. 编辑器完成内容审阅后,PostToForum.exe将读取数据库,并将通过审阅的采集结果发送到您自己的“在网站上”,当然,您在网站上也需要一个. ashx或其他方式来接收采集结果,不建议PostToFormu.exe直接操作您的网站数据库,最好使用您自己的{API on mask2}来接收采集结果.
该数据库位于DB_51aspx文件夹(sql2005)中,只需附加它即可.
登录用户名和密码均为51aspx