免费网页采集器(v1.5.4改善：修改了采集网址队列数超过5000，自动重启时无法停止的问题)

优采云发布时间: 2022-03-13 17:14

　　v1.5.4

　　改进：修改采集URL队列数超过5000，自动重启时无法停止的问题2008-2-29

　　改进：采集可以替换高级过滤器设置。格式为在原过滤规则2008-2-29后加“[to]”

　　新增：增加采集时间间隔的设置，避免对采集站服务器造成较大压力

　　补充：增加采集需要登录验证的网址，需要设置登录和验证地址2008-3-1

　　添加：列表JS提交方式（Post）分页。使用方法：在提交地址后附加参数“?fc_action=post&parameter1={$pageid}”，如果提交页面已经收录“?”，则为：“&fc_action=post&parameter1={$pageid}” 2008-3 - 1

　　特点：

　　**************************************************

　　1、在IIS下开发和运行。

　　2、可根据存储设置自动连接现有网站系统，与现有系统无缝集成，补充或替换现有系统的采集程序。

　　3、采集调度，即定时任务，可以为每个采集规则设置一个时间重复采集，多个采集任务可以同时进行的时候运行后，采集程序会在到达设定时间后自动在web服务器后台执行，真正实现了无需人工干预的自动更新。

　　4、可以自动分类，采集的信息可以自动分类。当目标分类不存在时，可以自动创建分类，也可以通过分类映射将目标分类与当前的网站内容分类进行合并。无需为每个类别创建采集任务。

　　5、采集规则设置简单易懂，程序有两种运行模式，前台运行或后台定时运行。

　　6、可以实现多层次的网页深度采集，如内容分页、其他页面的部分信息、小说连载等与主从表相关的信息类型采集.

　　7、的原断点延续，目标网站被更新，采集程序会是采集，只有采集更新的部分，高效率。此功能对采集连载网站特别有用，例如小说、系列等。

　　8、自动将相关外部文件下载到本地服务器或替换为远程路径，如图片、FLASH、下载文件等，无需手动上传到服务器。

　　9、支持采集模型的定义，可以根据需要定义任何要成为采集的数据项，每个模型还可以收录子模型。

　　10、自动识别大多数采集网站的网页代码。比如常见的：GB2312、GBK、UTF-8、windows-1252、iso646-us等

　　11、支持列表页面中的缩略图和其他附加信息采集。

　　12、多线程异步采集，采集效率高，占用服务器资源少。

0

2022-03-13

免费网页采集器

0 个评论

要回复文章请先登录或注册