汇总:一套内容采集系统源码
优采云 发布时间: 2020-12-18 11:18汇总:一套内容采集系统源码
一组内容采集系统源代码
一套内容采集系统解放了编辑人员。内容采集系统是基于内容网站的很好的助手。除了原创内容外,其他内容也需要编辑者或采集系统来采集和整理,然后添加到自己的网站中。 Discuz DvBBScms和其他产品具有其自己的内容采集功能,以达到采集指定的相关内容。单客户端优采云采集器对于采集指定的内容也可能非常有用。这些工具都希望机器取代人类,从内容处理工作中解放编辑人员,并进行一些高端工作,例如采集对内容的结果进行微调,SEO优化,设置精确的采集规则,使采集的内容更符合网站的需求。
以下内容采集系统是根据此思想开发的,该采集系统由两部分组成:
1.编辑器使用的采集规则设置程序以及用于查看,微调和发布采集的结果的网站。
2.定时采集器和定时*敏*感*词*已部署在服务器上。
首先,编辑器通过采集规则设置程序(NiceCollectoer.exe)将网站设置为采集,然后等待采集完成,然后编辑器将网站(PickWeb)传递给[审查,微调和优化k15的结果,然后自行发布网站。编辑者需要做的是采集规则的设置和采集结果的优化。工作的其他部分由机器完成。
NicePicker是一个HTML分析器,用于提取Url,NiceCollector和HostCollector都使用NicePicker分析Html,NiceCollectoer是采集规则设置程序,目标网站只需要设置一次:
用法类似于最早的优采云采集器,这里我们以博客园为目标采集网站,在采集本质上设置文章,采集规则为非常简单:成为编辑者设置采集规则后,这些规则将保存在Setting.mdb中与NiceCollector.exe相同的目录中。通常,设置采集规则后,基本上无需更改它。仅当目标网站的Html Dom结构更改时,才需要再次微调采集规则。 NiceCollector还用于设置和添加新目标采集网站的操作。
编辑器完成采集规则设置后,将Setting.mdb放在HostCollector.exe下,HostCollector将根据Setting.mdb的设置执行实际的采集,并将采集的结果存储在数据库。
在此步骤中,内容的采集工作已完成。编辑者可以打开PickWeb,微调和优化采集的结果,然后批准并将其发送到他们的网站
PickWeb并没有完成向自己网站发送采集结果的工作。编辑者完成内容审阅后,PostToForum.exe将读取数据库并将通过审阅的采集结果发送给他们自己的网站,当然您需要一个网站。 ashx或其他方式来接收采集的结果,不建议PostToFormu.exe直接操作自己的网站数据库,最好使用自己的[k14上的API]来接收采集。
该数据库位于DB_51aspx文件夹(sql2005)中,只需附加它即可。
登录用户名和密码均为51aspx