免费网页采集器(v1.5.4改善:修改了采集网址队列数超过5000,自动重启时无法停止的问题)

优采云 发布时间: 2022-03-13 17:14

  免费网页采集器(v1.5.4改善:修改了采集网址队列数超过5000,自动重启时无法停止的问题)

  v1.5.4

  改进:修改采集URL队列数超过5000,自动重启时无法停止的问题2008-2-29

  改进:采集 可以替换高级过滤器设置。格式为在原过滤规则2008-2-29后加“[to]”

  新增:增加采集时间间隔的设置,避免对采集站服务器造成较大压力

  补充:增加采集需要登录验证的网址,需要设置登录和验证地址2008-3-1

  添加:列表JS提交方式(Post)分页。使用方法:在提交地址后附加参数“?fc_action=post&parameter1={$pageid}”,如果提交页面已经收录“?”,则为:“&fc_action=post&parameter1={$pageid}” 2008-3 - 1

  特点:

  **************************************************

  1、在IIS下开发和运行。

  2、可根据存储设置自动连接现有网站系统,与现有系统无缝集成,补充或替换现有系统的采集程序。

  3、采集调度,即定时任务,可以为每个采集规则设置一个时间重复采集,多个采集任务可以同时进行的时候运行后,采集程序会在到达设定时间后自动在web服务器后台执行,真正实现了无需人工干预的自动更新。

  4、可以自动分类,采集的信息可以自动分类。当目标分类不存在时,可以自动创建分类,也可以通过分类映射将目标分类与当前的网站内容分类进行合并。无需为每个类别创建 采集 任务。

  5、采集规则设置简单易懂,程序有两种运行模式,前台运行或后台定时运行。

  6、可以实现多层次的网页深度采集,如内容分页、其他页面的部分信息、小说连载等与主从表相关的信息类型采集.

  7、的原断点延续,目标网站被更新,采集程序会是采集,只有采集更新的部分, 高效率 。此功能对采集连载网站特别有用,例如小说、系列等。

  8、自动将相关外部文件下载到本地服务器或替换为远程路径,如图片、FLASH、下载文件等,无需手动上传到服务器。

  9、支持采集模型的定义,可以根据需要定义任何要成为采集的数据项,每个模型还可以收录子模型。

  10、自动识别大多数采集网站的网页代码。比如常见的:GB2312、GBK、UTF-8、windows-1252、iso646-us等

  11、支持列表页面中的缩略图和其他附加信息采集。

  12、多线程异步采集,采集效率高,占用服务器资源少。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线