
无需规则自动采集
云采集原理和规则加速设置
采集交流 • 优采云 发表了文章 • 0 个评论 • 476 次浏览 • 2020-08-13 16:32
云采集原理是哪些?什么样的规则可实现云加速?本文将详尽讲解。
一、云采集原理
云采集是指,使用由优采云提供的云服务集群进行数据采集。优采云拥有5000+云服务器,7*24小时不间断运行(一台云服务器可看做一个云节点)。
优采云的采集任务运行在云节点上时:
a. 在满足可分拆的情况下,1个任务最多拆成100个子任务。(3类任务可分拆,下文将详尽讲解)
b.1个任务/子任务需占用一个云节点进行采集。也就是说,1个云节点同时只能运行一个任务/子任务。
c.不同版本的云节点数是不一样的。旗舰版:6-10个动态云节点。旗舰+:8-12个动态云节点。
d. 基于以上信息,可能会出现任务/拆分子任务数>云节点数的情况。如果帐号内的云节点数已被运行中的任务/子任务占满,则新启动的任务/被分拆的子任务会步入等待队列,直到某个任务/子任务采集完成,释放出多余的节点资源,它们就会有节点进行采集。
如何查看任务的子任务分拆和运行情况?
在【我的任务】中找到已运行云采集的任务,点击【详情】,查看当前任务的子任务分拆和运行情况。如图,该任务分拆了30个子任务,其中1个在运行中,29个已完成。
子任务的状态有以下几种:
已分拆:当前任务分拆成了多少个子任务。为1时,表示该任务未进行分拆(任务本身不支持分拆或勾选了云采集不分拆)。大于1时,表示已进行分拆。图中任务分拆成了30个子任务。
等待中:还未运行采集的子任务个数。
运行中:当前正在采集数据的子任务个数。每个任务会占用一个云节点,故所有任务在运行的子任务数之和大于等于帐号节点数。
已完成:已完成采集的子任务个数。
已停止:程序手动停止采集或人为自动停止采集的子任务个数。
如果运行了某个云采集任务,但是仍然没有采集到数据, 可以在子任务状态中查看是否有子任务在运行,如果子任务都是等待中状态,说明该帐号的云节点已被其他任务占满。请等待多余的云节点资源释放下来。
二、云采集加速设置
由云采集原理可知,一个任务要分拆成多个子任务,使用更多的云节点同时运行多个子任务,才能实现加速采集的疗效。
任务假如要分拆成子任务,需满足一定条件。以下三类任务是可以分拆的:
1、URL循环
2、文本循环
3、固定元素循环
1、URL循环
URL循环类的规则,可分拆成多个子任务,同时运行在多个云节点上,实现加速。
当URL数100时,拆分成URL数/100的子任务数(取整数)。例,循环中有30个URL,将被分拆成30个子任务;循环中有278个URL,将被分拆成2个子任务。
示例网址:
.......
等30个易迅商品详情页网址,需要采集每个详情页中的数据。
Step1:建立URL循环
Step2:启动云采集,点击【详情】,可以见到此任务的30条URL,拆分成30个子任务同时采集,加快采集速度
常用场景:当有一个商品/文章列表,需要点击商品/文章链接,进入详情页采集时,我们可以做一个【循环-点击链接-提取详情数据】的规则,在一个任务中依次点击步入详情页采集数据。也可以先采集列表的商品/文章链接,然后使用URL循环,配合云采集将其分拆成多个子任务,分配到多个云节点上同时采集,极大推动采集速度。
示例网址:电子书&enc=utf-8&wq=电子书
先获得列表页商品网址,然后再用上文讲的方式,用URL循环,配合云采集加速采集。获得列表页网址演示如下:
2、文本循环
文本循环类的规则,可分拆成多个子任务,同时运行在多个云节点上,实现加速。
当输入的文本数100时,拆分成输入文本数/100的子任务数。
文本循环分拆原理和URL循环一致,通过对文本循环的分拆,达到加速采集的疗效。具体可见批量输入关键词查询,采集查询结果教程。
3、固定元素列表循环
固定元素列表类的规则,可分拆成多个子任务,同时运行在多个云节点上,实现加速。
当固定元素列表类数100时,拆分成固定元素列表数/100的子任务数。
值得注意的是,【循环-点击元素】类规则,使用【固定元素列表】的循环形式后云分拆,才会有显著加速疗效,如下图所示:
【循环-点击元素】有2种常见采集场景:①点击商品/文章链接步入详情页,采集详情页数据的情况。② 点击条件类链接进行分类采集。
如果是【循环-提取数据】类规则,没有点击步骤,则使用【固定元素列表】的循环形式后云分拆,加速疗效并不显著,如下图所示:
下面讲一个【循环-点击元素】类规则使用【固定元素列表】进行云分拆的实例:
示例网址:%E6%89%8B%E6%9C%BA&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=e8885bd7095549c19e11ae459702097d
采集需求:点击步入商品详情页,采集每个详情页中的数据。
Step1:建立循环列表,查看手动生成的循环形式。可以看见,循环形式为不固定元素列表循环:使用XPath定位,一条XPath对应循环列表中的一个列表。如图示例中,30条XPath对应30个商品列表。
Step2:启动云采集,点击【详情】,可以见到此任务的30条固定元素列表,拆分成30个子任务,加快采集速度。
【不固定元素列表】为【固定元素列表】的关系
对于【循环-点击元素】类规则,优采云自动生成的循环形式通常为【不固定元素列表】,以便于云上分拆加速。
本质上【不固定元素列表】和【固定元素列表】都是使用XPath进行定位,两者可以互相改写。下面看2个改写实例。
将【不固定元素列表】改为【固定元素列表】
示例网址:%B4%F3%CA%FD%BE%DD、
采集需求:采集页面前20个图片的地址
按照采集列表数据的方式,配置规则。自动生成的循环形式为【不固定元素列表】,定位XPath为://body/div[2]/div[2]/div[4]/div[1]/ul[1]/li。
将//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li 复制到在火狐浏览器中观察,LI代表列表,LI[1]是指第1个列表,LI[2]是指第2个列表......按照这个规律,20个列表的【固定元素列表】定位XPath为:
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[1]
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[2]
......
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[19]
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[20]
(如果固定元素列表好多,可以借助于Excel批量生成功能,根据数字变化规律,自动生成XPath。)
在优采云中做相应更改。选择循环形式为【固定元素列表】,并将以上XPath复制到文本框中,然后点击【应用】保存。可以看见,定位到页面中的全部20个图片列表。
将【固定元素列表】改为【不固定元素列表】
以上文中的易迅规则为例,观察以上固定元素列表循环中生成的XPath:
//UL[@class="gl-warp clearfix"]/LI[1]/DIV[1]/DIV[4]/A[1]
//UL[@class="gl-warp clearfix"]/LI[2]/DIV[1]/DIV[4]/A[1]
.......
//UL[@class="gl-warp clearfix"]/LI[29]/DIV[1]/DIV[4]/A[1]
//UL[@class="gl-warp clearfix"]/LI[30]/DIV[1]/DIV[4]/A[1]
30条XPath具有相同的特点:只有LI前面的数字不同(不同的数字代表不同的列表,LI[1]是指第1个列表,LI[2]是指第2个列表)。根据这个特点,我们可以写一条通用XPath://UL[@class="gl-warp clearfix"]/LI/DIV[1]/DIV[4]/A[1]。
在优采云中做相应更改。选择循环形式为【不固定元素列表】,并将//UL[@class="gl-warp clearfix"]/LI/DIV[1]/DIV[4]/A[1] 复制到文本框中。可以看见,定位到页面中的全部30个商品链接。 查看全部
通过优采云云采集,可以实现多个任务并发采集,极大提升采集效率。
云采集原理是哪些?什么样的规则可实现云加速?本文将详尽讲解。
一、云采集原理
云采集是指,使用由优采云提供的云服务集群进行数据采集。优采云拥有5000+云服务器,7*24小时不间断运行(一台云服务器可看做一个云节点)。
优采云的采集任务运行在云节点上时:
a. 在满足可分拆的情况下,1个任务最多拆成100个子任务。(3类任务可分拆,下文将详尽讲解)
b.1个任务/子任务需占用一个云节点进行采集。也就是说,1个云节点同时只能运行一个任务/子任务。
c.不同版本的云节点数是不一样的。旗舰版:6-10个动态云节点。旗舰+:8-12个动态云节点。
d. 基于以上信息,可能会出现任务/拆分子任务数>云节点数的情况。如果帐号内的云节点数已被运行中的任务/子任务占满,则新启动的任务/被分拆的子任务会步入等待队列,直到某个任务/子任务采集完成,释放出多余的节点资源,它们就会有节点进行采集。
如何查看任务的子任务分拆和运行情况?
在【我的任务】中找到已运行云采集的任务,点击【详情】,查看当前任务的子任务分拆和运行情况。如图,该任务分拆了30个子任务,其中1个在运行中,29个已完成。
子任务的状态有以下几种:
已分拆:当前任务分拆成了多少个子任务。为1时,表示该任务未进行分拆(任务本身不支持分拆或勾选了云采集不分拆)。大于1时,表示已进行分拆。图中任务分拆成了30个子任务。
等待中:还未运行采集的子任务个数。
运行中:当前正在采集数据的子任务个数。每个任务会占用一个云节点,故所有任务在运行的子任务数之和大于等于帐号节点数。
已完成:已完成采集的子任务个数。
已停止:程序手动停止采集或人为自动停止采集的子任务个数。

如果运行了某个云采集任务,但是仍然没有采集到数据, 可以在子任务状态中查看是否有子任务在运行,如果子任务都是等待中状态,说明该帐号的云节点已被其他任务占满。请等待多余的云节点资源释放下来。
二、云采集加速设置
由云采集原理可知,一个任务要分拆成多个子任务,使用更多的云节点同时运行多个子任务,才能实现加速采集的疗效。
任务假如要分拆成子任务,需满足一定条件。以下三类任务是可以分拆的:
1、URL循环
2、文本循环
3、固定元素循环
1、URL循环
URL循环类的规则,可分拆成多个子任务,同时运行在多个云节点上,实现加速。
当URL数100时,拆分成URL数/100的子任务数(取整数)。例,循环中有30个URL,将被分拆成30个子任务;循环中有278个URL,将被分拆成2个子任务。

示例网址:
.......
等30个易迅商品详情页网址,需要采集每个详情页中的数据。
Step1:建立URL循环

Step2:启动云采集,点击【详情】,可以见到此任务的30条URL,拆分成30个子任务同时采集,加快采集速度

常用场景:当有一个商品/文章列表,需要点击商品/文章链接,进入详情页采集时,我们可以做一个【循环-点击链接-提取详情数据】的规则,在一个任务中依次点击步入详情页采集数据。也可以先采集列表的商品/文章链接,然后使用URL循环,配合云采集将其分拆成多个子任务,分配到多个云节点上同时采集,极大推动采集速度。
示例网址:电子书&enc=utf-8&wq=电子书
先获得列表页商品网址,然后再用上文讲的方式,用URL循环,配合云采集加速采集。获得列表页网址演示如下:

2、文本循环
文本循环类的规则,可分拆成多个子任务,同时运行在多个云节点上,实现加速。
当输入的文本数100时,拆分成输入文本数/100的子任务数。
文本循环分拆原理和URL循环一致,通过对文本循环的分拆,达到加速采集的疗效。具体可见批量输入关键词查询,采集查询结果教程。

3、固定元素列表循环
固定元素列表类的规则,可分拆成多个子任务,同时运行在多个云节点上,实现加速。
当固定元素列表类数100时,拆分成固定元素列表数/100的子任务数。
值得注意的是,【循环-点击元素】类规则,使用【固定元素列表】的循环形式后云分拆,才会有显著加速疗效,如下图所示:
【循环-点击元素】有2种常见采集场景:①点击商品/文章链接步入详情页,采集详情页数据的情况。② 点击条件类链接进行分类采集。

如果是【循环-提取数据】类规则,没有点击步骤,则使用【固定元素列表】的循环形式后云分拆,加速疗效并不显著,如下图所示:

下面讲一个【循环-点击元素】类规则使用【固定元素列表】进行云分拆的实例:
示例网址:%E6%89%8B%E6%9C%BA&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=e8885bd7095549c19e11ae459702097d
采集需求:点击步入商品详情页,采集每个详情页中的数据。
Step1:建立循环列表,查看手动生成的循环形式。可以看见,循环形式为不固定元素列表循环:使用XPath定位,一条XPath对应循环列表中的一个列表。如图示例中,30条XPath对应30个商品列表。

Step2:启动云采集,点击【详情】,可以见到此任务的30条固定元素列表,拆分成30个子任务,加快采集速度。

【不固定元素列表】为【固定元素列表】的关系
对于【循环-点击元素】类规则,优采云自动生成的循环形式通常为【不固定元素列表】,以便于云上分拆加速。
本质上【不固定元素列表】和【固定元素列表】都是使用XPath进行定位,两者可以互相改写。下面看2个改写实例。
将【不固定元素列表】改为【固定元素列表】
示例网址:%B4%F3%CA%FD%BE%DD、
采集需求:采集页面前20个图片的地址
按照采集列表数据的方式,配置规则。自动生成的循环形式为【不固定元素列表】,定位XPath为://body/div[2]/div[2]/div[4]/div[1]/ul[1]/li。

将//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li 复制到在火狐浏览器中观察,LI代表列表,LI[1]是指第1个列表,LI[2]是指第2个列表......按照这个规律,20个列表的【固定元素列表】定位XPath为:
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[1]
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[2]
......
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[19]
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[20]
(如果固定元素列表好多,可以借助于Excel批量生成功能,根据数字变化规律,自动生成XPath。)

在优采云中做相应更改。选择循环形式为【固定元素列表】,并将以上XPath复制到文本框中,然后点击【应用】保存。可以看见,定位到页面中的全部20个图片列表。

将【固定元素列表】改为【不固定元素列表】
以上文中的易迅规则为例,观察以上固定元素列表循环中生成的XPath:
//UL[@class="gl-warp clearfix"]/LI[1]/DIV[1]/DIV[4]/A[1]
//UL[@class="gl-warp clearfix"]/LI[2]/DIV[1]/DIV[4]/A[1]
.......
//UL[@class="gl-warp clearfix"]/LI[29]/DIV[1]/DIV[4]/A[1]
//UL[@class="gl-warp clearfix"]/LI[30]/DIV[1]/DIV[4]/A[1]
30条XPath具有相同的特点:只有LI前面的数字不同(不同的数字代表不同的列表,LI[1]是指第1个列表,LI[2]是指第2个列表)。根据这个特点,我们可以写一条通用XPath://UL[@class="gl-warp clearfix"]/LI/DIV[1]/DIV[4]/A[1]。
在优采云中做相应更改。选择循环形式为【不固定元素列表】,并将//UL[@class="gl-warp clearfix"]/LI/DIV[1]/DIV[4]/A[1] 复制到文本框中。可以看见,定位到页面中的全部30个商品链接。
全手动 自带采集规则 织梦DEDE小说带wap手机版 seo优化 收录快 百度相
采集交流 • 优采云 发表了文章 • 0 个评论 • 334 次浏览 • 2020-08-12 21:55
不接受任何退票,不同意切勿拍
1、网站源码类型:整站网站源码
2、环境要求:PHP5.2/5.3/5.4/5.5+MYSQL5(URLrewrite)
3、服务器要求:建议用40G数据盘以上的VPS或则独立服务器,系统建议用Windows而不建议用Linux,99%的小说网站源码站服务器是用Windows系统,方便文件管理以及备份等(目前演示站空间使用情况:6.5G数据库+5G网页空间,经群内站友网站证实:4核CPU+4G显存的xen构架VPS能承受日5万IP、50万PV流量毫无压力,每天收入700元以上)
4、原创程序:织梦DEDECMS 5.7SP1
5、编码类型:GBK
6、可否采集:全手动采集,赠送三条规则
7、其他特征:
(1)自动生成首页、分类、目录、作者、排行榜、sitemap页面静态html。
(2)全站拼音目录化(可自定义URL格式),章节页面伪静态。
(3)支持下载功能,可以手动生成对应文本文件,可在文件中设置广告。
(4)自动生成关键词及关键词手动内链。
(5)自动伪原创成语替换(采集、输出时都可以替换)。
(6)配合CNZZ的统计插件,能便捷实现下载明细统计和被采集的明细统计等。
(7)本程序的手动采集并非市面上常见的优采云、关关、采集侠等,而是在DEDE原有采集功能的基础上二次开发的采集模块,可以有效的保证章节内容的完整性,避免章节重复、章节内容无内容、章节乱码等;一天24小时采集量能达到25~30万章节。
网页版截图:
手机WAP截图: 查看全部
傻瓜式安装 全手动采集 一次安装受惠终生
不接受任何退票,不同意切勿拍
1、网站源码类型:整站网站源码
2、环境要求:PHP5.2/5.3/5.4/5.5+MYSQL5(URLrewrite)
3、服务器要求:建议用40G数据盘以上的VPS或则独立服务器,系统建议用Windows而不建议用Linux,99%的小说网站源码站服务器是用Windows系统,方便文件管理以及备份等(目前演示站空间使用情况:6.5G数据库+5G网页空间,经群内站友网站证实:4核CPU+4G显存的xen构架VPS能承受日5万IP、50万PV流量毫无压力,每天收入700元以上)
4、原创程序:织梦DEDECMS 5.7SP1
5、编码类型:GBK
6、可否采集:全手动采集,赠送三条规则
7、其他特征:
(1)自动生成首页、分类、目录、作者、排行榜、sitemap页面静态html。
(2)全站拼音目录化(可自定义URL格式),章节页面伪静态。
(3)支持下载功能,可以手动生成对应文本文件,可在文件中设置广告。
(4)自动生成关键词及关键词手动内链。
(5)自动伪原创成语替换(采集、输出时都可以替换)。
(6)配合CNZZ的统计插件,能便捷实现下载明细统计和被采集的明细统计等。
(7)本程序的手动采集并非市面上常见的优采云、关关、采集侠等,而是在DEDE原有采集功能的基础上二次开发的采集模块,可以有效的保证章节内容的完整性,避免章节重复、章节内容无内容、章节乱码等;一天24小时采集量能达到25~30万章节。
网页版截图:
手机WAP截图:
有货iOS数据非侵入式手动采集探索实践
采集交流 • 优采云 发表了文章 • 0 个评论 • 377 次浏览 • 2020-08-12 14:37
\\
有货APP团队因此开发一套数据采集的SDK,主要的功能如下:
\\页面访问流。用户在使用APP期间浏览了什么页面。\\t浏览数据爆光。用户在某个页面上浏览了什么商品。\\t业务数据手动采集。用户在使用APP期间点击了什么位置,触发了什么操作。\\t性能数据手动采集。用户使用APP期间,页面加载时长是多少,图片加载时长多少,网络恳求时长多少等。\
此外,所有的数据采集要自动化,无侵入,即不需要人工埋点,集成SDK即可使用,不改动或尽量少改动原有代码。
\\
基于以上需求,AOP是技术方案的最佳选择,而iOS上实现AOP则须要借助Objective-C中runtime的黑魔法--Method Swizzle实现。漫漫的踩坑填坑的旅程由此开端,接下来我们一一尝尝实现思路和技巧吧。
\\页面访问流\\
用户访问页面统计须要解决的问题有两个:
\\统计风波切入点,即何时统计。\\t统计数据数组,即统计什么数据。\
整体流程如下图:
\\
\\统计风波切入点\\
用户访问页面统计的通常思路是在View Controller生命周期方式:
\\
即可得出用户访问页面路径,两个风波时间戳之差即为用户在页面逗留的时间。
\\
通常我们APP中的View Controller就会承继自某个泛型,我们在泛型的对应方式中进行统计即可,然而对于没有从泛型承继的View Controller就无能为力了。
\\
借助于AOP,我们可以更高贵的完成这项工作:在UIViewController的load方式里swizzle viewDidAppear和viewDidDisappear方式,原有代码无需改动。
\\统计数据数组\\
根据数据需求,设置了如下的统计数组:
\\
页面步入和退出的风波,均上报上述的数据结构。
\\
其中还有几个问题是须要考虑的:
\\1.PAGE_ID和SOURCE_ID怎样定义\\
因为须要统一iOS和Android的PAGE_ID,所以须要做配置下发。iOS端领到的是一份plist的文件,文件的key的View Controller的类名的字符串表示,value则是PAGE_ID。
\\2.PAGE_ID和SOURCE_ID怎么获取\\
PAGE_ID直接按照当前View Controller的class即可取到,SOURCE_ID稍显复杂,需要按照APP页面嵌套堆栈结构来确认具体的获取方式,通常是从UINavigationController的导航栈中取前一个View Controller的page id即可。
\\
至此,页面访问流统计已基本完成,根据页面步入退出的PAGE_ID和SOURCE_ID串出一条完整的用户浏览路径,并得出用户在每位页面的逗留时间。
\\浏览数据爆光\\
采集到用户的浏览路径,以及在每位页面的逗留时间后,在个别特定的页面,如首页、商品列表页面,我们还想晓得用户在页面上滑动了几屏,看了什么活动、商品,以便于更好的为用户推荐喜欢的商品。
\\
用户听到的屏幕上的一块区域,认为是资源位,那么用户听到的内容是由一个个资源位组成。那么爆光的含意如下:
\\
我们晓得iOS中页面元素的基本组成单位是view,因此我们只须要判定view是否在可视区域,即可知悉当前view上的资源位是否须要爆光,从而作出相应的爆光操作,采集数据,上报插口等。
\\
由以上的剖析可知,待解决的问题主要有两个:
\\view的可见性判断\\tview爆光数据采集\view的可见性判断\\
查询UIView Class Reference可以看见setFrame:和layoutSubivews方式,可用于设置subview的frame。每次view fame更新均会调用此方式。因此,我们可以通过runtime swizzle此方式实现,添加一些数据采集相关的操作。
\\
我们为UIView添加了以下属性:
\\
首先明晰下几个术语的定义和规则:
\\
1.view的subview可见须要同时满足的3个条件:
\\
反之,只要以上任何一个条件不满足,我们就觉得此subview当前是不可见的。
\\
2.设置view为可见
\\
3.设置view为不可见
\\
Swzzile setFrame:,执行以下操作:
\\
\\
Swzzile layoutSubivews,调用yh_updateVisibleSubViews方式,其中执行以下操作:
\\
\\
经过以上的那些操作,我们能够晓得某个view及其subview的是否可见。
\\view爆光数据采集\\
为了取到view对应的数据,同样为UIView添加了以下属性:
\\
那么还有两个问题存在:
\\view爆光数据的细度\\tview及其subview的节点的爆光数据组装时机\
view爆光数据的细度
\\
根据项目中的实践经验,一般以UITableViewCell或则UI采集ViewCell为最小细度。同时,在最末节点的yh_exposureData字典中,增加一个key:isEnd,用来标示是否早已是最末的节点。
\\
view及其subview的爆光数据组装时机
\\
一般是在最末节点的可见性变化时,由下向下的遍历最末节点的superview,组装所有数据。
\\
因此我们覆写了setYh_viewVisible:的方式,即yh_viewVisible的set技巧。执行以下操作:
\\
至此,我们早已解决了view的可见性判定和爆光数据采集的问题。数据上报及策略不在赘言。
\\
此方案有几个缺点
\\需要自动设置爆光数据。\\t须要在合适时机手工调用view.yh_viewVisible触发数据采集,如viewdidappear等。\\t须要消耗一定的资源进行可视区域估算和爆光数据采集。\
还有两个问题是值得注意的:
\\UITableView在setBounds:时会对view的frame导致改变,因此须要swizzle setBounds:方法,需要在设置bounds后,调用[self yh_updateVisibleSubViews];\\tUIScrollView在setContentInset:时会影响view的可见区域,因此须要swizzle setContentInset:方法,需要在设置contentInset后,调用self.yh_viewVisibleRect = UIEdgeInsetsInsetRect(self.frame, contentInset);\业务数据手动采集\\
业务数据手动采集即业界流行的无埋点数据采集。
\\
传统的客户端用户点击数据采集是基于手工埋点的,对那个位置的数据感兴趣,就在这打个点,用户操作以后,随即触发数据上报。手工埋点的缺点很明显:错埋、漏埋。新版本发布后,经常有数据部门的小伙伴来反馈说,某某点位没有上报,某某点位上报错误的问题,开发的朋友也苦不堪言。
\\
无埋点数据采集带来了新的改变。首先基本上避开了手工埋点,个别情况须要特殊处理。其次由选择性的采集数据,变成了全量采集用户的所有点击触摸数据。
\\
新的改变也会带来新的挑战,无埋点数据采集的成为现实的可能性依然是基于Objective-C的runtime特点。实践过程中,思路上我们借鉴了iOS无埋点数据SDK的整体设计与技术实现,实现上借鉴了Sensors Analytics iOS SDK和Mixpanel iPhone。接下来,结合具体实践,介绍下我们的实现思路和遇见的一些问题。主要分以下三方面:
\\自动采集的点位怎么确保唯一性。\\t不同的点位类型,需要swizzle什么方式。\\tswizzle过程中踩到的坑。\自动采集的点位怎么确保唯一性\\
自动采集脱离了手工埋点,因此也没了点位的惟一标示。那我们要如何惟一定位到手动采集的点位呢?很容易想到的一个方案是:基于页面view的树状结构。此方案可以分解为两个问题:
\\view惟一标示怎样定义。\\tview惟一标示怎样生成。\
view惟一标示(view path)的定义
\\
我们规定,一个典型的view path如下:
\\
\ViewController[0]/UIView[0]/UITableView[0]/UITableViewCell[0:2]/UIButton[0]
\\
其中:
\\通过此标示可以在当前页面view树状结构中惟一的确定此元素。\\t标示的每一项由两部份组成:一是当前元素的class的字符串表示,二是当前元素在同级元素中的序号,自0开始估算。如当前第二个UIImageView,则是UIImageView1。\\t标示不同项之间以/拼接。\\t标示的最顶楼是当前view所在的ViewController。\\t对于UITableViewCell和UI采集ViewCell及类似的自定义组件,序号部份由两部份组成:section和row,并以:拼接。\\t标示的最末端是当前被点击或触摸的元素。\
view惟一标示怎样生成
\\
view path生成过程:由触发操作的最末端元素向下查询,一直查到ViewController为止。假设当前点击view为A_View,从当前的A_View入手遍历view树,每一级的数据存入P_Array中,过程如下:
\\
\\如果A_View是UI采集ViewCell类型,获取A_View所处UI采集View的indexPath,P_Array push路径信息[NSString stringWithFormat:@\"%@[%ld:%ld]\ 查看全部
随着有货APP的不断迭代开发,数据和业务部门对于客户端用户行为数据的需求越来越多;为了更好的监控APP使用的状况,客户端团队对于APP自身的运行的数据需求也日渐急迫。迫切地须要一套客户端数据采集的工具,自动、全量采集用户行为数据,满足各个部门对于数据的需求。
\\
有货APP团队因此开发一套数据采集的SDK,主要的功能如下:
\\页面访问流。用户在使用APP期间浏览了什么页面。\\t浏览数据爆光。用户在某个页面上浏览了什么商品。\\t业务数据手动采集。用户在使用APP期间点击了什么位置,触发了什么操作。\\t性能数据手动采集。用户使用APP期间,页面加载时长是多少,图片加载时长多少,网络恳求时长多少等。\
此外,所有的数据采集要自动化,无侵入,即不需要人工埋点,集成SDK即可使用,不改动或尽量少改动原有代码。
\\
基于以上需求,AOP是技术方案的最佳选择,而iOS上实现AOP则须要借助Objective-C中runtime的黑魔法--Method Swizzle实现。漫漫的踩坑填坑的旅程由此开端,接下来我们一一尝尝实现思路和技巧吧。
\\页面访问流\\
用户访问页面统计须要解决的问题有两个:
\\统计风波切入点,即何时统计。\\t统计数据数组,即统计什么数据。\
整体流程如下图:
\\

\\统计风波切入点\\
用户访问页面统计的通常思路是在View Controller生命周期方式:
\\
即可得出用户访问页面路径,两个风波时间戳之差即为用户在页面逗留的时间。
\\
通常我们APP中的View Controller就会承继自某个泛型,我们在泛型的对应方式中进行统计即可,然而对于没有从泛型承继的View Controller就无能为力了。
\\
借助于AOP,我们可以更高贵的完成这项工作:在UIViewController的load方式里swizzle viewDidAppear和viewDidDisappear方式,原有代码无需改动。
\\统计数据数组\\
根据数据需求,设置了如下的统计数组:
\\
页面步入和退出的风波,均上报上述的数据结构。
\\
其中还有几个问题是须要考虑的:
\\1.PAGE_ID和SOURCE_ID怎样定义\\
因为须要统一iOS和Android的PAGE_ID,所以须要做配置下发。iOS端领到的是一份plist的文件,文件的key的View Controller的类名的字符串表示,value则是PAGE_ID。
\\2.PAGE_ID和SOURCE_ID怎么获取\\
PAGE_ID直接按照当前View Controller的class即可取到,SOURCE_ID稍显复杂,需要按照APP页面嵌套堆栈结构来确认具体的获取方式,通常是从UINavigationController的导航栈中取前一个View Controller的page id即可。
\\
至此,页面访问流统计已基本完成,根据页面步入退出的PAGE_ID和SOURCE_ID串出一条完整的用户浏览路径,并得出用户在每位页面的逗留时间。
\\浏览数据爆光\\
采集到用户的浏览路径,以及在每位页面的逗留时间后,在个别特定的页面,如首页、商品列表页面,我们还想晓得用户在页面上滑动了几屏,看了什么活动、商品,以便于更好的为用户推荐喜欢的商品。
\\
用户听到的屏幕上的一块区域,认为是资源位,那么用户听到的内容是由一个个资源位组成。那么爆光的含意如下:
\\
我们晓得iOS中页面元素的基本组成单位是view,因此我们只须要判定view是否在可视区域,即可知悉当前view上的资源位是否须要爆光,从而作出相应的爆光操作,采集数据,上报插口等。
\\
由以上的剖析可知,待解决的问题主要有两个:
\\view的可见性判断\\tview爆光数据采集\view的可见性判断\\
查询UIView Class Reference可以看见setFrame:和layoutSubivews方式,可用于设置subview的frame。每次view fame更新均会调用此方式。因此,我们可以通过runtime swizzle此方式实现,添加一些数据采集相关的操作。
\\
我们为UIView添加了以下属性:
\\
首先明晰下几个术语的定义和规则:
\\
1.view的subview可见须要同时满足的3个条件:
\\
反之,只要以上任何一个条件不满足,我们就觉得此subview当前是不可见的。
\\
2.设置view为可见
\\
3.设置view为不可见
\\
Swzzile setFrame:,执行以下操作:
\\

\\
Swzzile layoutSubivews,调用yh_updateVisibleSubViews方式,其中执行以下操作:
\\

\\
经过以上的那些操作,我们能够晓得某个view及其subview的是否可见。
\\view爆光数据采集\\
为了取到view对应的数据,同样为UIView添加了以下属性:
\\
那么还有两个问题存在:
\\view爆光数据的细度\\tview及其subview的节点的爆光数据组装时机\
view爆光数据的细度
\\
根据项目中的实践经验,一般以UITableViewCell或则UI采集ViewCell为最小细度。同时,在最末节点的yh_exposureData字典中,增加一个key:isEnd,用来标示是否早已是最末的节点。
\\
view及其subview的爆光数据组装时机
\\
一般是在最末节点的可见性变化时,由下向下的遍历最末节点的superview,组装所有数据。
\\
因此我们覆写了setYh_viewVisible:的方式,即yh_viewVisible的set技巧。执行以下操作:
\\
至此,我们早已解决了view的可见性判定和爆光数据采集的问题。数据上报及策略不在赘言。
\\
此方案有几个缺点
\\需要自动设置爆光数据。\\t须要在合适时机手工调用view.yh_viewVisible触发数据采集,如viewdidappear等。\\t须要消耗一定的资源进行可视区域估算和爆光数据采集。\
还有两个问题是值得注意的:
\\UITableView在setBounds:时会对view的frame导致改变,因此须要swizzle setBounds:方法,需要在设置bounds后,调用[self yh_updateVisibleSubViews];\\tUIScrollView在setContentInset:时会影响view的可见区域,因此须要swizzle setContentInset:方法,需要在设置contentInset后,调用self.yh_viewVisibleRect = UIEdgeInsetsInsetRect(self.frame, contentInset);\业务数据手动采集\\
业务数据手动采集即业界流行的无埋点数据采集。
\\
传统的客户端用户点击数据采集是基于手工埋点的,对那个位置的数据感兴趣,就在这打个点,用户操作以后,随即触发数据上报。手工埋点的缺点很明显:错埋、漏埋。新版本发布后,经常有数据部门的小伙伴来反馈说,某某点位没有上报,某某点位上报错误的问题,开发的朋友也苦不堪言。
\\
无埋点数据采集带来了新的改变。首先基本上避开了手工埋点,个别情况须要特殊处理。其次由选择性的采集数据,变成了全量采集用户的所有点击触摸数据。
\\
新的改变也会带来新的挑战,无埋点数据采集的成为现实的可能性依然是基于Objective-C的runtime特点。实践过程中,思路上我们借鉴了iOS无埋点数据SDK的整体设计与技术实现,实现上借鉴了Sensors Analytics iOS SDK和Mixpanel iPhone。接下来,结合具体实践,介绍下我们的实现思路和遇见的一些问题。主要分以下三方面:
\\自动采集的点位怎么确保唯一性。\\t不同的点位类型,需要swizzle什么方式。\\tswizzle过程中踩到的坑。\自动采集的点位怎么确保唯一性\\
自动采集脱离了手工埋点,因此也没了点位的惟一标示。那我们要如何惟一定位到手动采集的点位呢?很容易想到的一个方案是:基于页面view的树状结构。此方案可以分解为两个问题:
\\view惟一标示怎样定义。\\tview惟一标示怎样生成。\
view惟一标示(view path)的定义
\\
我们规定,一个典型的view path如下:
\\
\ViewController[0]/UIView[0]/UITableView[0]/UITableViewCell[0:2]/UIButton[0]
\\
其中:
\\通过此标示可以在当前页面view树状结构中惟一的确定此元素。\\t标示的每一项由两部份组成:一是当前元素的class的字符串表示,二是当前元素在同级元素中的序号,自0开始估算。如当前第二个UIImageView,则是UIImageView1。\\t标示不同项之间以/拼接。\\t标示的最顶楼是当前view所在的ViewController。\\t对于UITableViewCell和UI采集ViewCell及类似的自定义组件,序号部份由两部份组成:section和row,并以:拼接。\\t标示的最末端是当前被点击或触摸的元素。\
view惟一标示怎样生成
\\
view path生成过程:由触发操作的最末端元素向下查询,一直查到ViewController为止。假设当前点击view为A_View,从当前的A_View入手遍历view树,每一级的数据存入P_Array中,过程如下:
\\

\\如果A_View是UI采集ViewCell类型,获取A_View所处UI采集View的indexPath,P_Array push路径信息[NSString stringWithFormat:@\"%@[%ld:%ld]\
[原创插件]wordpress采集插件,自动辨识标题与正文,无规则化
采集交流 • 优采云 发表了文章 • 0 个评论 • 356 次浏览 • 2020-08-12 07:21
wordpress 20分钟快速搭建中等规模技术类网站,采集演示:
虚拟站长特色功能一览
无规则采集
无需填写任何规则即可采集,智能模块会手动提取标题与正文
伪原创化
多种伪原创插件使采集来的文章更象原创,增加索引量
实时全文翻译
将网页直接翻译成其他语言,不限字数、不限流量
离线定时发布
指定固定或随机间隔时间,即使死机了也能定时发布
实时网页监控
实时监控指定网页变化,一有更新立刻采集
微信公众号
可以采集微信公众号文章、同样不需要配置规则哦
搜狗博客
根据关键词手动搜索搜狗博客,启动智能采集直接采集
随手采
支持任意一款浏览器,直接选中要采集的文章可智能剖析提取
缩略图生成
自动查找文章中最佳图片生成缩略图并上传到对应站点
搜狗搜索
根据关键词手动搜索搜狗搜索,启动智能采集直接采集
好搜
根据关键词手动从好搜搜索,启动智能采集直接采集
百度新闻
根据关键词手动从百度新闻搜索,启动智能采集直接采集
百度搜索
根据关键词手动从百度搜索,启动智能采集直接采集
Bing
根据关键词手动从Bing搜索,启动智能采集直接采集
近义词替换
可将采集到的文章从反义词字典中手动匹配并替换反义词
简繁转换
支持将采集到的文章自动进行简简体互转
全角全角转换
支持将采集到的文章进行半角/半角符号的相互转换
无序采集
打乱采集顺序,欺骗搜索引擎
响应式加工
可以手动将采集来的文章加工成PC、手机、平板都适应的格式
图片下载
自动下载网页中的图片并手动更改src值
图片上传
自动上传文章中对应的图片到网站服务器
W3C检查
自动检查采集到的文章,如果不符合标准可主动舍弃
防重复采集
同一站点不会重复采集相同地址URL,节省程序、流量开支
防重复发布
即使从不同的网站上采集到相同的文章也不会被重复发布
TAG匹配
自动检查采集到的文章并手动匹配已有的TAG标签
草稿
可以将采集到的文章发布成草稿,方便事后手工更改再发布
审核
可以将采集到的文章发布为须要初审,方便二次初审
正序、倒序
倒序是指倒着采,与被采集站一样的发布次序,正序则想反
多线程
特别优化的多线程、同时运行上百个任务也不会占用资源
More标签
自动剖析采集到的文章并加入wordpress的More标签
HTML编辑器
内置可视化的HTML编辑器、修改文章更方便
多站点
可以同时联接多个网站、采集管理更有效率
可视化配置
可视化选定界面、直接在网页中点选提取部份、操作更容易
自动辨识站点
只需输入FTP帐号密码即可手动辨识站点所有配置信息
SEO过滤
匹配指定关键词,如不符合SEO密度要求(2%~10%)可手动抛弃
API
提供丰富的API支持,功能扩充更方便 查看全部
官网:
wordpress 20分钟快速搭建中等规模技术类网站,采集演示:
虚拟站长特色功能一览
无规则采集
无需填写任何规则即可采集,智能模块会手动提取标题与正文
伪原创化
多种伪原创插件使采集来的文章更象原创,增加索引量
实时全文翻译
将网页直接翻译成其他语言,不限字数、不限流量
离线定时发布
指定固定或随机间隔时间,即使死机了也能定时发布
实时网页监控
实时监控指定网页变化,一有更新立刻采集
微信公众号
可以采集微信公众号文章、同样不需要配置规则哦
搜狗博客
根据关键词手动搜索搜狗博客,启动智能采集直接采集
随手采
支持任意一款浏览器,直接选中要采集的文章可智能剖析提取
缩略图生成
自动查找文章中最佳图片生成缩略图并上传到对应站点
搜狗搜索
根据关键词手动搜索搜狗搜索,启动智能采集直接采集
好搜
根据关键词手动从好搜搜索,启动智能采集直接采集
百度新闻
根据关键词手动从百度新闻搜索,启动智能采集直接采集
百度搜索
根据关键词手动从百度搜索,启动智能采集直接采集
Bing
根据关键词手动从Bing搜索,启动智能采集直接采集
近义词替换
可将采集到的文章从反义词字典中手动匹配并替换反义词
简繁转换
支持将采集到的文章自动进行简简体互转
全角全角转换
支持将采集到的文章进行半角/半角符号的相互转换
无序采集
打乱采集顺序,欺骗搜索引擎
响应式加工
可以手动将采集来的文章加工成PC、手机、平板都适应的格式
图片下载
自动下载网页中的图片并手动更改src值
图片上传
自动上传文章中对应的图片到网站服务器
W3C检查
自动检查采集到的文章,如果不符合标准可主动舍弃
防重复采集
同一站点不会重复采集相同地址URL,节省程序、流量开支
防重复发布
即使从不同的网站上采集到相同的文章也不会被重复发布
TAG匹配
自动检查采集到的文章并手动匹配已有的TAG标签
草稿
可以将采集到的文章发布成草稿,方便事后手工更改再发布
审核
可以将采集到的文章发布为须要初审,方便二次初审
正序、倒序
倒序是指倒着采,与被采集站一样的发布次序,正序则想反
多线程
特别优化的多线程、同时运行上百个任务也不会占用资源
More标签
自动剖析采集到的文章并加入wordpress的More标签
HTML编辑器
内置可视化的HTML编辑器、修改文章更方便
多站点
可以同时联接多个网站、采集管理更有效率
可视化配置
可视化选定界面、直接在网页中点选提取部份、操作更容易
自动辨识站点
只需输入FTP帐号密码即可手动辨识站点所有配置信息
SEO过滤
匹配指定关键词,如不符合SEO密度要求(2%~10%)可手动抛弃
API
提供丰富的API支持,功能扩充更方便
中华小说网手动采集,PC+微信+APP转码+txt下载,自动生成
采集交流 • 优采云 发表了文章 • 0 个评论 • 411 次浏览 • 2020-08-12 07:19
服务器目前只支持 php+apache
如果您是php+Nginx 请自行更改伪静态规则
或更换服务器运行环境.否则不可用.
本源码无APP软件.标题所写APP是支持其他小说APP平台转码阅读.
做小说站的都晓得.运营APP成本偏高.制作一个APP最低亿元.但将自己的网站链接到其他已成熟营运的小说站是最为方便廉价的方法.本源码支持其他APP软件转码.
自带演示采集规则.但部份早已过期
采集规则请自己编撰.本店本软件不提供采集规则
全手动采集一次安装受惠终生
1、源码类型:整站源码
2、环境要求:PHP5.2/5.3/5.4/5.5+MYSQL5(.Htaccess伪静态)
3、服务器要求:建议用40G数据盘以上的VPS或则独立服务器,系统建议用Windows而不建议用LNMP,99%的小说站服务器是用Windows系统,方便文件管理以及备份等(目前演示站空间使用情况:6.5G数据库+5G网页空间,经群内站友网站证实:4核CPU+4G显存的xen构架VPS能承受日5万IP、50万PV流量毫无压力,每天收入700元以上)
4、原创程序:织梦DEDECMS 5.7SP1
5、编码类型:GBK
6、可否采集:全手动采集 (如果自带的规则失效,或者采集目标站做了屏蔽,请找人写规则哦,本店不负责规则的有效性)
7、其他特征:
(1)自动生成首页、分类、目录、作者、排行榜、sitemap页面静态html。
(2)全站拼音目录化(可自定义URL格式),章节页面伪静态。
(3)支持下载功能,可以手动生成对应文本文件,可在文件中设置广告。
(4)自动生成关键词及关键词手动内链。
(5)自动伪原创成语替换(采集、输出时都可以替换)。
(6)配合CNZZ的统计插件,能便捷实现下载明细统计和被采集的明细统计等。
(7)本程序的手动采集并非市面上常见的优采云、关关、采集侠等,而是在DEDE原有采集功能的基础上二次开发的采集模块,可以有效的保证章节内容的完整性,避免章节重复、章节内容无内容、章节乱码等;一天24小时采集量能达到25~30万章节。
(8)安装比较简单,如果安装后打开网址仍然是手机版,请到系统设置- 找到移动端改成 自己的移动端独立域名
百度已收录 查看全部
本源码已开启了伪静态规则 服务器必须支持伪静态
服务器目前只支持 php+apache
如果您是php+Nginx 请自行更改伪静态规则
或更换服务器运行环境.否则不可用.
本源码无APP软件.标题所写APP是支持其他小说APP平台转码阅读.
做小说站的都晓得.运营APP成本偏高.制作一个APP最低亿元.但将自己的网站链接到其他已成熟营运的小说站是最为方便廉价的方法.本源码支持其他APP软件转码.
自带演示采集规则.但部份早已过期
采集规则请自己编撰.本店本软件不提供采集规则
全手动采集一次安装受惠终生
1、源码类型:整站源码
2、环境要求:PHP5.2/5.3/5.4/5.5+MYSQL5(.Htaccess伪静态)
3、服务器要求:建议用40G数据盘以上的VPS或则独立服务器,系统建议用Windows而不建议用LNMP,99%的小说站服务器是用Windows系统,方便文件管理以及备份等(目前演示站空间使用情况:6.5G数据库+5G网页空间,经群内站友网站证实:4核CPU+4G显存的xen构架VPS能承受日5万IP、50万PV流量毫无压力,每天收入700元以上)
4、原创程序:织梦DEDECMS 5.7SP1
5、编码类型:GBK
6、可否采集:全手动采集 (如果自带的规则失效,或者采集目标站做了屏蔽,请找人写规则哦,本店不负责规则的有效性)
7、其他特征:
(1)自动生成首页、分类、目录、作者、排行榜、sitemap页面静态html。
(2)全站拼音目录化(可自定义URL格式),章节页面伪静态。
(3)支持下载功能,可以手动生成对应文本文件,可在文件中设置广告。
(4)自动生成关键词及关键词手动内链。
(5)自动伪原创成语替换(采集、输出时都可以替换)。
(6)配合CNZZ的统计插件,能便捷实现下载明细统计和被采集的明细统计等。
(7)本程序的手动采集并非市面上常见的优采云、关关、采集侠等,而是在DEDE原有采集功能的基础上二次开发的采集模块,可以有效的保证章节内容的完整性,避免章节重复、章节内容无内容、章节乱码等;一天24小时采集量能达到25~30万章节。
(8)安装比较简单,如果安装后打开网址仍然是手机版,请到系统设置- 找到移动端改成 自己的移动端独立域名

百度已收录
每日新闻资讯采集插件30个分类
采集交流 • 优采云 发表了文章 • 0 个评论 • 645 次浏览 • 2020-08-11 13:25
此插件可通过天人官方采集平台中转,来获取新闻资讯的30多种分类下每晚更新的文章(旧文章不采集),也就是说可以获取全网海量实时更新的最新的文章。可配合手动采集插件实现全自动免维护更新网站的功能。
说在上面:
此类采集规则插件,耗费我们很大的服务器资源和成本,所以插件须要每年续费使用。授权套餐2及以上用户,授权中的任意一个域名,自安装此插件起免费使用一年,以后每年只需五折即可持续使用此插件。
未订购授权用户或授权等级高于套餐2的用户,需要单独原价订购及续费使用。
授权用户,只需五折续费一个已使用的价钱最高的采集规则插件,用户所有授权下网站均可免费使用全部采集规则插件。比如每年只须要续费一款99元的采集规则插件,半价就是49.5元,所有的网站都可以继续免费使用所有99元及以下的采集规则插件一年。
使用方式:
安装以后,在网站后台--采集管理--规则管理中,可以点击某条规则后面的采集按钮进行单独采集,也可以多选进行采集。
编辑方式:
安装以后,在网站后台--采集管理--规则管理中,会听到多条采集规则。这些采集规则的归属栏目都默认为您网站id为1的栏目,默认设置为保存远程图片到您的服务器上。所以请依照实际情况将采集规则归属栏目设置为其它的栏目,方法:网站后台--采集管理--规则管理--点击某条采集规则后面的“编辑”按钮--所属分类--选择您的分类--点击下一步即可保存当前页面的设置。
如果不想在采集时保存远程图片到您的服务器,方法:网站后台--采集管理--规则管理--点击某条采集规则后面的“编辑”按钮--新闻设置--保存图片--取消勾选--点击下一步即可保存当前页面的设置。
设置默认固定的作者名,方法:网址后台--采集管理-规则管理--点击某条采集规则后面的“编辑”按钮--下一步--下一步--作者设置--填写固定的字符就可以。
采集之后的数据如何发布到网站中?方法:网站后台--采集管理--数据入库,可在此选择入库所有内容或勾选部份内容入库,也可删掉全部内容或删掉部份勾选的内容。
为什么采集之后,再采集部分内容会提示重复?因为:防止重复采集浪费不必要的时间与资源,如果想重新采集已经采集过的数据,请到网站后台--采集管理--历史记录,可在此删掉历史记录也可有选择性的删掉“成功的记录”、“失败的记录”、“失效的记录”,在浏览器内部页面底部的标题栏中进行筛选。
常见问题:
安装的采集规则可以更改么?
答:“目标网页编码”、“远程列表URL”不能更改,其他内容请慎重更改,否则容易未能采集。
为什么采集的时侯,提示“服务器资源有限,无法直接浏览该文章,请安装或升级采集插件批量采集即可。”?
答:1、“目标网页编码”、“远程列表URL”不能更改,其他内容请慎重更改,否则容易未能采集。。2、检查您所登陆后台的域名是否获取了采集规则插件的注册码。3、请直接进行采集,不要点测试按键,测试的时侯才会有此提示。正常采集就可以了。4、请使用你安装此插件时使用的域名来登入后台进行采集。
此插件的优势:
自动采集平台上每日更新的内容,并且所有的内容均手动完成排版,无需重新编辑。
天人系列管理系统的所有系统均可使用,并且手动匹配按键款式。
此插件不是手动采集插件,需要点击一下按键触发批量采集
安装流程
点击里面的立刻安装按键(如下图):
等1分钟以后会出现“正在加载”的红色背景黄色字体页面(如下图)
然后又等一会页面会弄成红色背景红色字体的“天人系列管理系统项目手动布署工具”(如下图)
如果页面中的权限检查全部通过,如果没有出现白色字体的“无法读”“无法写”“无法删除”字样,就会手动安装,等几分钟,会提示安装完毕,不要关掉页面,8秒后会跳转到官网获取注册码,然后就可以使用此应用了。
获取注册码页面,点击按键“生成注册码”即可(如下图)
这时系统都会手动按照您的域名生成注册码了(如下图)
值得一的是,注册码不需要单独的填写到网站中,你所安装的应用会手动获取注册码,你刷新一下刚才提示须要注册码的页面看是不是可以正常使用了。
常见问题
Q:免费的应用为什么要获取注册码,需要付费么?
A:注册码是为了激活您所安装的插件,不需要付费,在下一步的页面中输入网站的一级域名即可手动生成注册码,注册码是按照一级域名生成的,更换域名后重新获取注册码即可,并不会象他人的网站程序或插件那样更换域名程序就废黜了。另外值得一提的是,一般情况下注册码并不需要自动输入到你的后台中,在后台更新缓存都会手动获取到所有你已然获得的注册码,很方便快捷。
Q:付费的应用怎样获取注册码?
A:付费的应用须要使用现金订购注册码,按照页面的提示点击“获取注册码”按钮,然后到付款页面支付相应的金额以后还会手动生成注册码了。
Q:注册码须要我单独保存么?丢了如何办?怎么在我的网站输入注册码?
A:注册码通常不需要您单独保存的,因为获取过注册码的域名就会手动保存到官网的数据库中,同时您的网站会手动从官网获取注册码,即使注册码遗失的话,只要在后台更新一下缓存都会立刻寻回你的注册码,当然假如你乐意自动输入注册码的话,可以在后台“注册码管理”中输入注册码,效果与更新缓存获取到的注册码一样。
Q:我的注册码会不会被他人窃取?
A:注册码是按照您网站的一级域名生成的,每个网站的域名在这个世界上都是独一无二的,所以注册码也是独一无二的,别人是未能窃取你的注册码的。
Q:没有通过我网站后台应用中心下载的应用该怎么获取注册码?
A:获取注册码可以在你网站后台“我的应用”或“我的模板”中找到刚才安装的应用或模板对应的“点击查看”按钮,跳转到官网(如下图)
跳转到官网应用对应的详情页面后,在黑色字体“您的一级域名”中填入您的域名,不填写1级域名也可以的,系统会手动设置为1级域名,然后点击“获取注册码”按钮,按照提示进行操作即可。(如下图) 查看全部
详细介绍
此插件可通过天人官方采集平台中转,来获取新闻资讯的30多种分类下每晚更新的文章(旧文章不采集),也就是说可以获取全网海量实时更新的最新的文章。可配合手动采集插件实现全自动免维护更新网站的功能。
说在上面:
此类采集规则插件,耗费我们很大的服务器资源和成本,所以插件须要每年续费使用。授权套餐2及以上用户,授权中的任意一个域名,自安装此插件起免费使用一年,以后每年只需五折即可持续使用此插件。
未订购授权用户或授权等级高于套餐2的用户,需要单独原价订购及续费使用。
授权用户,只需五折续费一个已使用的价钱最高的采集规则插件,用户所有授权下网站均可免费使用全部采集规则插件。比如每年只须要续费一款99元的采集规则插件,半价就是49.5元,所有的网站都可以继续免费使用所有99元及以下的采集规则插件一年。
使用方式:
安装以后,在网站后台--采集管理--规则管理中,可以点击某条规则后面的采集按钮进行单独采集,也可以多选进行采集。
编辑方式:
安装以后,在网站后台--采集管理--规则管理中,会听到多条采集规则。这些采集规则的归属栏目都默认为您网站id为1的栏目,默认设置为保存远程图片到您的服务器上。所以请依照实际情况将采集规则归属栏目设置为其它的栏目,方法:网站后台--采集管理--规则管理--点击某条采集规则后面的“编辑”按钮--所属分类--选择您的分类--点击下一步即可保存当前页面的设置。
如果不想在采集时保存远程图片到您的服务器,方法:网站后台--采集管理--规则管理--点击某条采集规则后面的“编辑”按钮--新闻设置--保存图片--取消勾选--点击下一步即可保存当前页面的设置。
设置默认固定的作者名,方法:网址后台--采集管理-规则管理--点击某条采集规则后面的“编辑”按钮--下一步--下一步--作者设置--填写固定的字符就可以。
采集之后的数据如何发布到网站中?方法:网站后台--采集管理--数据入库,可在此选择入库所有内容或勾选部份内容入库,也可删掉全部内容或删掉部份勾选的内容。
为什么采集之后,再采集部分内容会提示重复?因为:防止重复采集浪费不必要的时间与资源,如果想重新采集已经采集过的数据,请到网站后台--采集管理--历史记录,可在此删掉历史记录也可有选择性的删掉“成功的记录”、“失败的记录”、“失效的记录”,在浏览器内部页面底部的标题栏中进行筛选。
常见问题:
安装的采集规则可以更改么?
答:“目标网页编码”、“远程列表URL”不能更改,其他内容请慎重更改,否则容易未能采集。
为什么采集的时侯,提示“服务器资源有限,无法直接浏览该文章,请安装或升级采集插件批量采集即可。”?
答:1、“目标网页编码”、“远程列表URL”不能更改,其他内容请慎重更改,否则容易未能采集。。2、检查您所登陆后台的域名是否获取了采集规则插件的注册码。3、请直接进行采集,不要点测试按键,测试的时侯才会有此提示。正常采集就可以了。4、请使用你安装此插件时使用的域名来登入后台进行采集。
此插件的优势:
自动采集平台上每日更新的内容,并且所有的内容均手动完成排版,无需重新编辑。
天人系列管理系统的所有系统均可使用,并且手动匹配按键款式。
此插件不是手动采集插件,需要点击一下按键触发批量采集
安装流程
点击里面的立刻安装按键(如下图):

等1分钟以后会出现“正在加载”的红色背景黄色字体页面(如下图)

然后又等一会页面会弄成红色背景红色字体的“天人系列管理系统项目手动布署工具”(如下图)
如果页面中的权限检查全部通过,如果没有出现白色字体的“无法读”“无法写”“无法删除”字样,就会手动安装,等几分钟,会提示安装完毕,不要关掉页面,8秒后会跳转到官网获取注册码,然后就可以使用此应用了。

获取注册码页面,点击按键“生成注册码”即可(如下图)

这时系统都会手动按照您的域名生成注册码了(如下图)

值得一的是,注册码不需要单独的填写到网站中,你所安装的应用会手动获取注册码,你刷新一下刚才提示须要注册码的页面看是不是可以正常使用了。
常见问题
Q:免费的应用为什么要获取注册码,需要付费么?
A:注册码是为了激活您所安装的插件,不需要付费,在下一步的页面中输入网站的一级域名即可手动生成注册码,注册码是按照一级域名生成的,更换域名后重新获取注册码即可,并不会象他人的网站程序或插件那样更换域名程序就废黜了。另外值得一提的是,一般情况下注册码并不需要自动输入到你的后台中,在后台更新缓存都会手动获取到所有你已然获得的注册码,很方便快捷。
Q:付费的应用怎样获取注册码?
A:付费的应用须要使用现金订购注册码,按照页面的提示点击“获取注册码”按钮,然后到付款页面支付相应的金额以后还会手动生成注册码了。
Q:注册码须要我单独保存么?丢了如何办?怎么在我的网站输入注册码?
A:注册码通常不需要您单独保存的,因为获取过注册码的域名就会手动保存到官网的数据库中,同时您的网站会手动从官网获取注册码,即使注册码遗失的话,只要在后台更新一下缓存都会立刻寻回你的注册码,当然假如你乐意自动输入注册码的话,可以在后台“注册码管理”中输入注册码,效果与更新缓存获取到的注册码一样。
Q:我的注册码会不会被他人窃取?
A:注册码是按照您网站的一级域名生成的,每个网站的域名在这个世界上都是独一无二的,所以注册码也是独一无二的,别人是未能窃取你的注册码的。
Q:没有通过我网站后台应用中心下载的应用该怎么获取注册码?
A:获取注册码可以在你网站后台“我的应用”或“我的模板”中找到刚才安装的应用或模板对应的“点击查看”按钮,跳转到官网(如下图)

跳转到官网应用对应的详情页面后,在黑色字体“您的一级域名”中填入您的域名,不填写1级域名也可以的,系统会手动设置为1级域名,然后点击“获取注册码”按钮,按照提示进行操作即可。(如下图)
操作指南
采集交流 • 优采云 发表了文章 • 0 个评论 • 184 次浏览 • 2020-08-11 01:01
编辑预警状态
查勘预警的详尽情况-走势图
2、导出案例
导出案例:这个功能是给数据组的朋友使用的,用于导入早已标准化的数据。
导出上海市案例
3、任务管理
任务管理:这个是给开发的同学使用的,用于各个网站的的数据采集。建立任务以及管理任务。
特别提醒的是任务描述上面不仅可以依照任务描述来搜索外,还可以依照任务的参数进行搜索。
列表上面的各个操作按键:
启动:启动系统调度,不是立刻执行任务
停止:停止系统调度
执行:立即执行任务,不用等系统调度。
日志:点击后查看这个任务近来的执行日志
任务列表
4、调度日志
调度日志:这个是给开发同学使用的,用于查看各个任务的日志,方便找问题。在Python爬虫中的printf复印下来的内容还会被记录到日志里
5、字段标准化规则
字段标准化规则:这个是给开发的同学使用的,用于管理标准化的时侯数组管理条例。分了城市、行政区的映射以及一些案例数组的映射标准。可以新增、编辑、删除这种映射数组。
字段标准化时的映射
新增映射数组
修改和删掉
6、楼盘座标管理
楼盘座标管理:是用于辅助 处理、纠正、核查新盘座标的工具。
查询城市-网站楼盘集合列表
这个地方有导出、进入编辑、自动估算、导出。
上传Excel文件导出数据
导入新盘数据文件的格式
“上传”导入功能:就是在如今我们将新盘,按照如下的格式整理好,然后通过上传Excel文件,导入我们待处理的新盘数据。注意状态:0标示须要人工处理的,1标示待初审的,2标示早已经过人工初审了的。
自动估算待人工处理的案例
自动估算:这个是针对于须要人工处理的,服务器后台有一套手动找座标的方式,能依照新盘名——城市,自动找座标。以此减少人工处理的工作量。服务器手动估算下来的新盘,会由“人工处理”状态变更为“待初审”的状态
导出:导出我们数据库上面这个城市-网站所有的新盘数据。导出文件为Excel格式的
导出的新盘数据Excel文件格式
“进入编辑”:进入辅助采集楼盘座标工具,本工具的座标都是通过百度地图的座标估算而出。以后会加入其它的座标数据源。
处理新盘座标
人工处理:点击人工处理的选项,然后在新盘列表点击新盘名,在两侧会手动搜索百度,并弹出结果。并且会手动选出最合适的装入到编辑区。然后点击保存更改即可。(修改成功后,案例会手动步入到已初审里)
审核新盘座标
待初审:就是对手动估算下来的新盘座标进行查看,如果是正确的,那么就点击保存更改,表明早已初审过了。
已初审:表明这个案例是经过觉得的去确认或则更改的。
7、楼盘名标准化规则
待开发,用于各个网站的新盘,跟FDC中的新盘做管联的工具。
8、系统设置
这个上面的功能有预警的标准设置,通用设置,以及各个城市-网站的案例量预警量的设置。
1h案例最低抓取量:1h内,每个任务的最低采集量,采集低的都会发送预警。(根据MQ消息来进行判定的)
各数组最高缺失率:根据MQ消息,如果MQ里的关键数组缺失率低于这个值,那么都会发送预警
最低标准化率:设置最低标准化值,这个值是用于设置标准化时,如果标准化后案例数量相对于未标注化前的,降低的量低于这个值时,就报出预警,提示标准化时有问题(有可能是网站的数组内容改版造成的)
最低入库率:这个暂未启动
每月的案例量同比涨跌幅:这个是相对于上个月的案例,如果采集量很高月上个月或则高于上个月太多,那么就说明要么采集了太多的重复案例,或者是采集的案例缺位太多。报出预警通知开发人员,做好监控检测。
预警基础信息设置
城市基准采集量配置:这个值对应的是一个月的量,比如上海是2000条,如果年底统计出这个月的案例量高于1380=2000*(1-31%) 或者低于3000=2000*(1+50%),那就就报出预警。
同事这个2000值,适用于每晚的采集量预警。2000/30=66.6等于每晚的量,如果某日采集的量,低于66条,那么也会报出预警。
城市基准采集量配置
这个是编辑城市采集量的多少的预警开关和数值。
编辑城市基准量预计配置
9、执行器管理
给开发者使用的页面。用于降低采集机器的配置页面。
执行器管理页面 查看全部
查看日志:这个主要是给开发人员用的,出了预警后,点击查看日志能打开该预警对应的日志。方便找问题。

编辑预警状态

查勘预警的详尽情况-走势图
2、导出案例
导出案例:这个功能是给数据组的朋友使用的,用于导入早已标准化的数据。

导出上海市案例
3、任务管理
任务管理:这个是给开发的同学使用的,用于各个网站的的数据采集。建立任务以及管理任务。
特别提醒的是任务描述上面不仅可以依照任务描述来搜索外,还可以依照任务的参数进行搜索。
列表上面的各个操作按键:
启动:启动系统调度,不是立刻执行任务
停止:停止系统调度
执行:立即执行任务,不用等系统调度。
日志:点击后查看这个任务近来的执行日志

任务列表
4、调度日志
调度日志:这个是给开发同学使用的,用于查看各个任务的日志,方便找问题。在Python爬虫中的printf复印下来的内容还会被记录到日志里
5、字段标准化规则
字段标准化规则:这个是给开发的同学使用的,用于管理标准化的时侯数组管理条例。分了城市、行政区的映射以及一些案例数组的映射标准。可以新增、编辑、删除这种映射数组。

字段标准化时的映射

新增映射数组

修改和删掉
6、楼盘座标管理
楼盘座标管理:是用于辅助 处理、纠正、核查新盘座标的工具。

查询城市-网站楼盘集合列表
这个地方有导出、进入编辑、自动估算、导出。

上传Excel文件导出数据

导入新盘数据文件的格式
“上传”导入功能:就是在如今我们将新盘,按照如下的格式整理好,然后通过上传Excel文件,导入我们待处理的新盘数据。注意状态:0标示须要人工处理的,1标示待初审的,2标示早已经过人工初审了的。

自动估算待人工处理的案例
自动估算:这个是针对于须要人工处理的,服务器后台有一套手动找座标的方式,能依照新盘名——城市,自动找座标。以此减少人工处理的工作量。服务器手动估算下来的新盘,会由“人工处理”状态变更为“待初审”的状态
导出:导出我们数据库上面这个城市-网站所有的新盘数据。导出文件为Excel格式的

导出的新盘数据Excel文件格式
“进入编辑”:进入辅助采集楼盘座标工具,本工具的座标都是通过百度地图的座标估算而出。以后会加入其它的座标数据源。

处理新盘座标
人工处理:点击人工处理的选项,然后在新盘列表点击新盘名,在两侧会手动搜索百度,并弹出结果。并且会手动选出最合适的装入到编辑区。然后点击保存更改即可。(修改成功后,案例会手动步入到已初审里)

审核新盘座标
待初审:就是对手动估算下来的新盘座标进行查看,如果是正确的,那么就点击保存更改,表明早已初审过了。
已初审:表明这个案例是经过觉得的去确认或则更改的。
7、楼盘名标准化规则
待开发,用于各个网站的新盘,跟FDC中的新盘做管联的工具。
8、系统设置
这个上面的功能有预警的标准设置,通用设置,以及各个城市-网站的案例量预警量的设置。
1h案例最低抓取量:1h内,每个任务的最低采集量,采集低的都会发送预警。(根据MQ消息来进行判定的)
各数组最高缺失率:根据MQ消息,如果MQ里的关键数组缺失率低于这个值,那么都会发送预警
最低标准化率:设置最低标准化值,这个值是用于设置标准化时,如果标准化后案例数量相对于未标注化前的,降低的量低于这个值时,就报出预警,提示标准化时有问题(有可能是网站的数组内容改版造成的)
最低入库率:这个暂未启动
每月的案例量同比涨跌幅:这个是相对于上个月的案例,如果采集量很高月上个月或则高于上个月太多,那么就说明要么采集了太多的重复案例,或者是采集的案例缺位太多。报出预警通知开发人员,做好监控检测。

预警基础信息设置
城市基准采集量配置:这个值对应的是一个月的量,比如上海是2000条,如果年底统计出这个月的案例量高于1380=2000*(1-31%) 或者低于3000=2000*(1+50%),那就就报出预警。
同事这个2000值,适用于每晚的采集量预警。2000/30=66.6等于每晚的量,如果某日采集的量,低于66条,那么也会报出预警。

城市基准采集量配置
这个是编辑城市采集量的多少的预警开关和数值。

编辑城市基准量预计配置
9、执行器管理
给开发者使用的页面。用于降低采集机器的配置页面。

执行器管理页面
电影网站程序源码--带一键采集(加入优酷采集规则)
采集交流 • 优采云 发表了文章 • 0 个评论 • 597 次浏览 • 2020-08-11 00:49
添加了一键采集工具(采集的是QVOD格式的)。 后台首页——2010采集工具 里面有7条采集规则,其中第一条早已和网站的对应分类绑定好,可以直接采集
如果想采集其他几个,先点击对应采集规则前面的视频列表,把对应分类绑定好后在采集。第一次采集点一键采集所有,后面每晚点采集当天就行了
另外,本人添加了优酷的采集规则,在采集目录下可以看见。应经绑定好对应的分类,直接采集就可以,
采集完后,点击采集数据库,然后导出采集的内容就OK了,
程序还有新闻模块,本人也早已添加好新浪的采集规则, 和前面采集优酷的方式一样,先采集,后导出。
本程序傻蛋般操作,一看就懂,而且后台功能强悍,一切操作都可直接从后台进行。
注意:本程序完美无错,但不支持本地调试,只能上传到服务器后操作,有的同事假如发觉在本地调试难以使用,而以为程序有错,那你就亏大了
使用本程序的同学,请保留站内链接,尊重别人的劳动成果。(采集规则而且我一条一条添加起来的)
后台地址 ...../admin 用户名和密码都是admin
程序预览: 程序和预览的基本上一样,做了一点更改,比预览的稍稍要好一些。
源码下载地址:
如有问题,可联系本人QQ591060816 另外,本人代理网站服务器和代刷百度指数,超低价钱。
查看全部
本程序是由马克斯4.0更改而至。 程序做了内部优化,易于搜索引擎收录。加入多个广告位,后台可直接管理。
添加了一键采集工具(采集的是QVOD格式的)。 后台首页——2010采集工具 里面有7条采集规则,其中第一条早已和网站的对应分类绑定好,可以直接采集
如果想采集其他几个,先点击对应采集规则前面的视频列表,把对应分类绑定好后在采集。第一次采集点一键采集所有,后面每晚点采集当天就行了
另外,本人添加了优酷的采集规则,在采集目录下可以看见。应经绑定好对应的分类,直接采集就可以,
采集完后,点击采集数据库,然后导出采集的内容就OK了,
程序还有新闻模块,本人也早已添加好新浪的采集规则, 和前面采集优酷的方式一样,先采集,后导出。
本程序傻蛋般操作,一看就懂,而且后台功能强悍,一切操作都可直接从后台进行。
注意:本程序完美无错,但不支持本地调试,只能上传到服务器后操作,有的同事假如发觉在本地调试难以使用,而以为程序有错,那你就亏大了
使用本程序的同学,请保留站内链接,尊重别人的劳动成果。(采集规则而且我一条一条添加起来的)
后台地址 ...../admin 用户名和密码都是admin
程序预览: 程序和预览的基本上一样,做了一点更改,比预览的稍稍要好一些。
源码下载地址:
如有问题,可联系本人QQ591060816 另外,本人代理网站服务器和代刷百度指数,超低价钱。


深维全能信息采集软件 2.5.3.9 官方版
采集交流 • 优采云 发表了文章 • 0 个评论 • 345 次浏览 • 2020-08-10 17:55
深维全能信息采集软件特征
1.强大的信息采集功能。可采集几乎任何类型的网站信息,包括静态htm,html类型和动态ASP,ASPX,JSP等。可N级页面采集。可手动下载二进制文件,比如图片,软件,mp3等。
2.网站登录。需要登入能够看见的信息,先在任务的'登录设置'处进行登陆,就可采集登录后就能看见的信息。
3.速度快,运行稳定。真正的多线程,多任务,运行时占用系统资源甚少,可稳定地长时间运行。(明显区别于其他软件)
4.数据保存格式丰富。可把采集的数据,保存为Txt,Excel和多种数据库格式(Access sqlserver Oracle Mysql等)。
5.强大的新闻采集,自动化处理功能。可手动保留新闻的格式,包括图片等。可通过设置,自动下载图片 ,自动把正文里图片的网路路径改为本地文件路径(也可保留原貌);可把采集的新闻手动处理成自己设计的模板格式;可采集具有分页方式的新闻。 通过这种功能,简单设置后即可在本地构建一个强悍的新闻系统,无需人工干预。
6.强大的信息手动再加工功能。对采集的信息,可进行二次批量再加工,使之愈加符合您的实际要求。也可设置手动加工公式,在采集的过程中,按照公式手动加工处理,包括数据合并和数据替换等。
深维全能信息采集软件优点
A、通用:根据拟定采集规则,可以采集任何通过浏览器看得到的东西;
B、灵活:支持网站登录采集、网站跨层采集、POST采集、脚本采集、动态页面采集等中级功能;
C、扩展性强:支持存储过程、插件等,可由用户自由扩充功能,进行二次开发;
D、高效:为了使用户节约一分钟去做其它事情,软件做了悉心设计;
E、速度快:速度最快、效率高到的采集软件;
F、稳定:系统资源占用少、有详尽的运行报告、采集性能稳定; G、人性化:注重软件细节、强调人性化体验。 更多功能,有待您的体验试用,请下载试用。 查看全部
深维全能信息采集软件(以下简称全能采集)面向国外广大的市场应用,以先进的技术服务国外用户。该软件是基于多年从事网路信息采集软件开发的经验和成果,成功推出的一套自助式网路信息采集和监控软件。以往采集软件常常须要复杂的配置操作能够工作,导致用户不能精确配置和更改采集内容,并最终造成软件系统不能正常使用,而该软件专门开发了自助图形化配置工具,采用交互式策略和机器学习算法,极大简化了配置操作,普通用户几分钟内即可学习把握。通过简单的配置,还可以将所采集网页中的非结构化文本数据保存为结构化的数据。另外,该系统还支持用户名密码手动登入、自动参数递交、自动翻页、自动生成模板等多种功能,可以完整、准确地采集各种静态页面、动态页面、文件和数据库。对于采集到的数据,可以通过该系统提供的插口,方便地实现与其他系统的集成应用。
深维全能信息采集软件特征
1.强大的信息采集功能。可采集几乎任何类型的网站信息,包括静态htm,html类型和动态ASP,ASPX,JSP等。可N级页面采集。可手动下载二进制文件,比如图片,软件,mp3等。
2.网站登录。需要登入能够看见的信息,先在任务的'登录设置'处进行登陆,就可采集登录后就能看见的信息。
3.速度快,运行稳定。真正的多线程,多任务,运行时占用系统资源甚少,可稳定地长时间运行。(明显区别于其他软件)
4.数据保存格式丰富。可把采集的数据,保存为Txt,Excel和多种数据库格式(Access sqlserver Oracle Mysql等)。
5.强大的新闻采集,自动化处理功能。可手动保留新闻的格式,包括图片等。可通过设置,自动下载图片 ,自动把正文里图片的网路路径改为本地文件路径(也可保留原貌);可把采集的新闻手动处理成自己设计的模板格式;可采集具有分页方式的新闻。 通过这种功能,简单设置后即可在本地构建一个强悍的新闻系统,无需人工干预。
6.强大的信息手动再加工功能。对采集的信息,可进行二次批量再加工,使之愈加符合您的实际要求。也可设置手动加工公式,在采集的过程中,按照公式手动加工处理,包括数据合并和数据替换等。
深维全能信息采集软件优点
A、通用:根据拟定采集规则,可以采集任何通过浏览器看得到的东西;
B、灵活:支持网站登录采集、网站跨层采集、POST采集、脚本采集、动态页面采集等中级功能;
C、扩展性强:支持存储过程、插件等,可由用户自由扩充功能,进行二次开发;
D、高效:为了使用户节约一分钟去做其它事情,软件做了悉心设计;
E、速度快:速度最快、效率高到的采集软件;
F、稳定:系统资源占用少、有详尽的运行报告、采集性能稳定; G、人性化:注重软件细节、强调人性化体验。 更多功能,有待您的体验试用,请下载试用。
WP手动采集插件wp-autopost-pro3.7.8最新版本无何限制版
采集交流 • 优采云 发表了文章 • 0 个评论 • 349 次浏览 • 2020-08-10 17:50
官网直达链接:此版本与官方的功能没有任何区别;
采集插件适用对象
1、刚建的 wordpress 站点内容比较少,希望早日有比较丰富的内容;
2、热点内容手动采集并手动发布;
3、定时采集,手动采集发布或保存到草稿;
4、css 样式规则,能更精确的采集需要的内容。
5、伪原创与翻译、代理 IP 进行采集、保存 Cookie 记录;
6、可采集内容到自定义栏目
WP-AutoBlog 为全新开发插件(原 WP-AutoPost 将不再更新和维护),全面支持 PHP7.3 更快更稳定
全新构架和设计,采集设置愈发全面及灵活;支持多层级文章列表、多层级文章内容采集
全新支持 Google 神经网路翻译,有道神经网路翻译,轻松获取高质量原创文章
全面支持市面上所有主流对象储存服务,七牛云、阿里云 OSS 等。
可采集微信公众号、头条号等自媒体内容,因百度不收录公众号,头条文章等,可轻松获取高质量“原创”文章,增加百度收录量及网站权重
可采集任何网站的内容,采集信息一目了然
通过简单设置可采集来自于任何网站的内容,并可设置多个采集任务同时进行,可设置任务为手动运行或自动运行,主任务列表显示每位采集任务的状况:上次测量采集时间,预计上次测量采集时间,最近采集文章,已采集更新的文章数等信息,方便查看管理。
文章管理功能便捷查询、搜索、删除已采集文章,改进算法已从根本上避免了重复采集相同文章,日志功能记录采集过程中出现的异常和抓取错误,方便检测设置错误便于进行修补。
启用任务后,全手动采集更新,无需人工干预
启用任务后,定时检查是否有新文章可更新,检测文章是否重复,导入更新文章,这一切操作程序都是全手动完成,无需人工干预。
有两种触发采集更新方法,一种是在页面内添加代码由用户访问触发采集更新(后台异步进行,不影响用户体验,也不影响网站效率),另外可以用 Cron 计划任务定时触发采集更新任务
定向采集,支持键值匹配、或 CSS 选择器精确采集任何内容,支持采集多层级文章列表、支持采集正文分页内容、支持采集多层级正文内容
支持市面上所有主流对象储存服务,包括七牛云、阿里云 OSS、腾讯云 COS、百度云 BOS、又拍云、Amazon AWS S3、Google Cloud Storage,可将文章中图片及附件手动上传到云对象存储服务,节省带宽及空间,提高网站访问速率
只需简单配置好相关信息,即可手动上传,通过 WordPress 后台也能直接查看或管理已上传到云对象储存的图片及文件。
恭喜,此资源为免费资源,请先登入
下载价钱:免费
更新时间:05/26/2020
更新版本:V3.7.8
资源大小:6M
所需类别:采集插件 查看全部
如果是菜鸟,请查看采集教程:
官网直达链接:此版本与官方的功能没有任何区别;
采集插件适用对象
1、刚建的 wordpress 站点内容比较少,希望早日有比较丰富的内容;
2、热点内容手动采集并手动发布;
3、定时采集,手动采集发布或保存到草稿;
4、css 样式规则,能更精确的采集需要的内容。
5、伪原创与翻译、代理 IP 进行采集、保存 Cookie 记录;
6、可采集内容到自定义栏目
WP-AutoBlog 为全新开发插件(原 WP-AutoPost 将不再更新和维护),全面支持 PHP7.3 更快更稳定
全新构架和设计,采集设置愈发全面及灵活;支持多层级文章列表、多层级文章内容采集
全新支持 Google 神经网路翻译,有道神经网路翻译,轻松获取高质量原创文章
全面支持市面上所有主流对象储存服务,七牛云、阿里云 OSS 等。
可采集微信公众号、头条号等自媒体内容,因百度不收录公众号,头条文章等,可轻松获取高质量“原创”文章,增加百度收录量及网站权重
可采集任何网站的内容,采集信息一目了然
通过简单设置可采集来自于任何网站的内容,并可设置多个采集任务同时进行,可设置任务为手动运行或自动运行,主任务列表显示每位采集任务的状况:上次测量采集时间,预计上次测量采集时间,最近采集文章,已采集更新的文章数等信息,方便查看管理。
文章管理功能便捷查询、搜索、删除已采集文章,改进算法已从根本上避免了重复采集相同文章,日志功能记录采集过程中出现的异常和抓取错误,方便检测设置错误便于进行修补。
启用任务后,全手动采集更新,无需人工干预
启用任务后,定时检查是否有新文章可更新,检测文章是否重复,导入更新文章,这一切操作程序都是全手动完成,无需人工干预。
有两种触发采集更新方法,一种是在页面内添加代码由用户访问触发采集更新(后台异步进行,不影响用户体验,也不影响网站效率),另外可以用 Cron 计划任务定时触发采集更新任务
定向采集,支持键值匹配、或 CSS 选择器精确采集任何内容,支持采集多层级文章列表、支持采集正文分页内容、支持采集多层级正文内容
支持市面上所有主流对象储存服务,包括七牛云、阿里云 OSS、腾讯云 COS、百度云 BOS、又拍云、Amazon AWS S3、Google Cloud Storage,可将文章中图片及附件手动上传到云对象存储服务,节省带宽及空间,提高网站访问速率
只需简单配置好相关信息,即可手动上传,通过 WordPress 后台也能直接查看或管理已上传到云对象储存的图片及文件。

恭喜,此资源为免费资源,请先登入
下载价钱:免费
更新时间:05/26/2020
更新版本:V3.7.8
资源大小:6M
所需类别:采集插件
威胜装配号综合采集软件v1.0最新版本采集软件
采集交流 • 优采云 发表了文章 • 0 个评论 • 305 次浏览 • 2020-08-09 05:42
软件说明
威胜装配号综合采集软件的正式版可以选择网站,选择城市,选择行业分类和其他条件,以搜索您需要的数据. 这些属性包括“联系方式,联系方式,标题内容,行业分类,省份城市,联系地址,来源网站,来源URL等”.
傻瓜式操作,只需用鼠标单击,无需编写任何采集规则.
功能介绍
采集功能
自动过滤器重复功能
号码归因过滤功能
反限制采集设置功能(在大多数情况下可以避免不受限制)
自动ADLS拨号功能(只有使用Internet拨号的客户才能使用)
导出Excel文件功能
导出TXT文件功能
时间段过滤信息功能(此功能仅适用于“更新时间”时间段内的信息)
历史数据查询功能(只要您采集了信息,就可以转到“搜索查询”中进行查询)
使用说明
1下载完成后,请勿运行压缩包中的软件并直接使用,请先将其解压缩;
2该软件同时支持32位/ 64位操作环境,因此无需担心系统操作环境;
3如果无法正常打开该软件,请右键单击并使用管理员模式运行;
常见问题
问: 支持哪些系统?
回答: 建议Win7及更高版本的系统与Win10兼容
问: 所采集数据的准确性?
回答: 我们保证数据来自相关网站,并且数据的质量由网站本身决定. 您可以登录到相关网站进行实际了解.
问: 微生系列软件会及时升级吗?
答案: 微生微市场营销已深入参与营销软件行业多年,并拥有一支专业的技术团队. 在软件服务期间提供免费升级支持. 查看全部
威胜总装号综合采集软件是一款非常专业的数据采集软件. 该软件支持重复功能的自动过滤,号码所有权过滤,反限制采集设置和自动ADLS拨号. 功能丰富.

软件说明
威胜装配号综合采集软件的正式版可以选择网站,选择城市,选择行业分类和其他条件,以搜索您需要的数据. 这些属性包括“联系方式,联系方式,标题内容,行业分类,省份城市,联系地址,来源网站,来源URL等”.
傻瓜式操作,只需用鼠标单击,无需编写任何采集规则.

功能介绍
采集功能
自动过滤器重复功能
号码归因过滤功能
反限制采集设置功能(在大多数情况下可以避免不受限制)
自动ADLS拨号功能(只有使用Internet拨号的客户才能使用)
导出Excel文件功能
导出TXT文件功能
时间段过滤信息功能(此功能仅适用于“更新时间”时间段内的信息)
历史数据查询功能(只要您采集了信息,就可以转到“搜索查询”中进行查询)
使用说明
1下载完成后,请勿运行压缩包中的软件并直接使用,请先将其解压缩;
2该软件同时支持32位/ 64位操作环境,因此无需担心系统操作环境;
3如果无法正常打开该软件,请右键单击并使用管理员模式运行;

常见问题
问: 支持哪些系统?
回答: 建议Win7及更高版本的系统与Win10兼容
问: 所采集数据的准确性?
回答: 我们保证数据来自相关网站,并且数据的质量由网站本身决定. 您可以登录到相关网站进行实际了解.
问: 微生系列软件会及时升级吗?
答案: 微生微市场营销已深入参与营销软件行业多年,并拥有一支专业的技术团队. 在软件服务期间提供免费升级支持.
优采云采集器免费版本V9.10
采集交流 • 优采云 发表了文章 • 0 个评论 • 414 次浏览 • 2020-08-08 14:35
采集器教程1.新的新任务
2. 添加URL +编辑获取URL的规则
在ul的li中选择链接,注意排除重复的地址,您可以单击下面的测试URL来获取它.
您可以看到其中收录所采集文章的链接.
3. 馆藏内容规则
我需要采集下图所示的数据(catid是列ID,您可以将采集的数据放入相应的列中并设置一个固定值)
关注内容和图片的采集,标题和描述与内容采集相同
内容采集:
打开采集的文章页面并查看源代码(您可以通过右键单击f11或在URL前面添加view-source: 来查看该源代码): 在文章开头选择一个位置,然后截取一个查看段落是否唯一一个段落,如果存在,可以将其放置在图1所示的位置,并且结尾与开头相同. 我不想使用可以由数据处理的链接图片来拦截内容,请添加--html标记排除-选择确定-确定
还需要下载页面图片,检查并填写以下选项
图片集:
(1)所选范围与内容(文章中的图片)相同
(2)数据处理选项提取第一张图片,内容为:
(3)只要对aa.jpg进行定期过滤,即可得到内容: aa.jpg
(4)数据库带有前缀存储,添加后,上载/ xxxxx /
找到一个页面并进行测试. 您可以看到所有的对应项都已获得.
4. 发布内容设置,这里以发布到数据库为例,在编辑后,返回此处并检查刚刚定义的模块:
5. 我需要在本地保存图片,并且需要设置保存文件的路径(ftp稍后将尝试使用它).
6. 保存,查看新创建的任务,右键单击以启动任务,您可以看到此处已下载文本和图片,并且可以在数据库中看到它们.
功能介绍1. URL采集
1. 您可以通过设置URL采集规则来快速采集所需的URL信息. 您可以手动输入,批量添加或直接从文本导入URL,并且可以自动过滤出重复的URL信息.
2. 它支持采集多级页面URL,可以使用页面分析以两种方式自动获取地址和手动填写规则. 为了应对多级分页中具有不同内容但地址相同的页面的URL的采集,该软件设置了三种HTTP请求方法: GET,POST和ASPXPOST.
3. 它支持网站采集测试,可以验证操作的正确性,避免操作不当而导致采集结果不准确.
第二,内容采集
1. 通过分析网页的源代码,可以设置内容采集规则,以准确采集网页中分散的内容数据,并支持在多级和多页等复杂页面中进行内容采集.
2. 通过定义标签,可以对数据进行分类和采集,例如,可以分别采集文章内容的标题和文章正文. 该软件配备了三种内容提取方法: 拦截前后,常规提取和文本提取. 选择性很强,用户可以根据自己的需要进行选择.
3. 内容集合还支持测试功能. 可以选择一个典型的页面来测试内容采集的正确性,以便及时更正并执行下一个数据处理.
三,数据处理
对于采集的信息数据,该软件可以对其执行一系列智能处理,以使采集的数据更符合我们的使用标准. 主要包括1)标签过滤: 过滤掉内容中不必要的空格,链接和其他标签; 2)替换: 支持同义词和同义词的替换; 3)数据转换: 支持中文到英文,简体到繁体,拼音等转换; 4)自动汇总和自动分词: 支持自动生成汇总和自动分词; 5)下载选项: 支持任何格式的文件检测下载,并且可以智能地将相对地址完整为绝对地址.
四,数据发布
1. 采集数据后,默认情况下,数据将保存在本地数据库(sqlite,mysql,sqlserver)中. 用户可以根据自己的需要选择对数据进行后续操作,以完成数据发布,支持直接查看数据,以及在线将数据发布到数据库中,并支持用户使用和开发发布界面.
2. 根据数据库类型,可以使用相关软件将其打开以直接查看数据,配置发布模块以将数据在线发布到网站,可以设置自动登录网站,获取列列表等;如果将其输入到用户自己的数据库中,则用户只需编写一些SQL语句,程序便会根据用户的SQL语句导入数据;另存为本地文件时,它支持本地SQL或文本文件(word,excel,html,txt)格式.
五,多任务和多线程操作
您可以选择同时运行多个任务,支持同时采集不同的网站或同一站点的不同部分,并以计划的方式安排任务. 采集和发布内容时,一个任务可以使用多个线程来运行,从而提高了操作效率. 查看全部
www.ucaiyun.com的英文名称是www.ucaiyun.com. 它是一个专业的Internet数据捕获,处理,分析和挖掘软件. 它具有网站采集,内容采集,数据处理,数据发布,日志管理等功能. 它支持多个数据库,能够无限制地进行多页采集,全自动运行,分布式高速采集,多标识系统采集监控系统,可以很好地帮助网站管理和优化人员分析和优化网站. 现在,它已被各行各业的人们所使用,例如电子商务运营商,公司人员和网站所有者. 有需要的用户可以下载免费版本的优采云采集器,下面的编辑器还为所有人提供了一个简单的教程!

采集器教程1.新的新任务

2. 添加URL +编辑获取URL的规则

在ul的li中选择链接,注意排除重复的地址,您可以单击下面的测试URL来获取它.

您可以看到其中收录所采集文章的链接.

3. 馆藏内容规则
我需要采集下图所示的数据(catid是列ID,您可以将采集的数据放入相应的列中并设置一个固定值)

关注内容和图片的采集,标题和描述与内容采集相同

内容采集:
打开采集的文章页面并查看源代码(您可以通过右键单击f11或在URL前面添加view-source: 来查看该源代码): 在文章开头选择一个位置,然后截取一个查看段落是否唯一一个段落,如果存在,可以将其放置在图1所示的位置,并且结尾与开头相同. 我不想使用可以由数据处理的链接图片来拦截内容,请添加--html标记排除-选择确定-确定

还需要下载页面图片,检查并填写以下选项

图片集:
(1)所选范围与内容(文章中的图片)相同
(2)数据处理选项提取第一张图片,内容为:
(3)只要对aa.jpg进行定期过滤,即可得到内容: aa.jpg
(4)数据库带有前缀存储,添加后,上载/ xxxxx /

找到一个页面并进行测试. 您可以看到所有的对应项都已获得.

4. 发布内容设置,这里以发布到数据库为例,在编辑后,返回此处并检查刚刚定义的模块:


5. 我需要在本地保存图片,并且需要设置保存文件的路径(ftp稍后将尝试使用它).

6. 保存,查看新创建的任务,右键单击以启动任务,您可以看到此处已下载文本和图片,并且可以在数据库中看到它们.

功能介绍1. URL采集
1. 您可以通过设置URL采集规则来快速采集所需的URL信息. 您可以手动输入,批量添加或直接从文本导入URL,并且可以自动过滤出重复的URL信息.
2. 它支持采集多级页面URL,可以使用页面分析以两种方式自动获取地址和手动填写规则. 为了应对多级分页中具有不同内容但地址相同的页面的URL的采集,该软件设置了三种HTTP请求方法: GET,POST和ASPXPOST.
3. 它支持网站采集测试,可以验证操作的正确性,避免操作不当而导致采集结果不准确.
第二,内容采集
1. 通过分析网页的源代码,可以设置内容采集规则,以准确采集网页中分散的内容数据,并支持在多级和多页等复杂页面中进行内容采集.
2. 通过定义标签,可以对数据进行分类和采集,例如,可以分别采集文章内容的标题和文章正文. 该软件配备了三种内容提取方法: 拦截前后,常规提取和文本提取. 选择性很强,用户可以根据自己的需要进行选择.
3. 内容集合还支持测试功能. 可以选择一个典型的页面来测试内容采集的正确性,以便及时更正并执行下一个数据处理.
三,数据处理
对于采集的信息数据,该软件可以对其执行一系列智能处理,以使采集的数据更符合我们的使用标准. 主要包括1)标签过滤: 过滤掉内容中不必要的空格,链接和其他标签; 2)替换: 支持同义词和同义词的替换; 3)数据转换: 支持中文到英文,简体到繁体,拼音等转换; 4)自动汇总和自动分词: 支持自动生成汇总和自动分词; 5)下载选项: 支持任何格式的文件检测下载,并且可以智能地将相对地址完整为绝对地址.
四,数据发布
1. 采集数据后,默认情况下,数据将保存在本地数据库(sqlite,mysql,sqlserver)中. 用户可以根据自己的需要选择对数据进行后续操作,以完成数据发布,支持直接查看数据,以及在线将数据发布到数据库中,并支持用户使用和开发发布界面.
2. 根据数据库类型,可以使用相关软件将其打开以直接查看数据,配置发布模块以将数据在线发布到网站,可以设置自动登录网站,获取列列表等;如果将其输入到用户自己的数据库中,则用户只需编写一些SQL语句,程序便会根据用户的SQL语句导入数据;另存为本地文件时,它支持本地SQL或文本文件(word,excel,html,txt)格式.
五,多任务和多线程操作
您可以选择同时运行多个任务,支持同时采集不同的网站或同一站点的不同部分,并以计划的方式安排任务. 采集和发布内容时,一个任务可以使用多个线程来运行,从而提高了操作效率.
小岛娱乐网的日常文章采集规则
采集交流 • 优采云 发表了文章 • 0 个评论 • 504 次浏览 • 2020-08-07 19:44
此插件可以通过天仁官方采集平台进行转移,以获取小岛娱乐网每天更新的文章(不采集旧文章),这意味着您可以在小岛娱乐网的整个网站上获取最新文章. 可配合自动收款插件实现全自动免维护更新网站功能. 并通过自动网络磁盘按钮生成插件自动为文章中的网络磁盘链接生成下载按钮.
之前发言:
这种采集规则插件消耗了我们大量的服务器资源和成本,因此该插件需要每年进行更新. 对于具有授权软件包2和更高版本的用户,授权中的任何域名在安装此插件后将免费使用一年. 之后,该插件可以每年以半价连续使用.
尚未购买授权用户或授权级别低于套餐2的用户需要单独购买并更新原创价格.
授权用户只需要以半价更新最高价的二手采集规则插件即可. 在所有用户授权下,可以在网站上免费使用所有采集规则插件. 例如,您每年只需要更新一个99元的收款规则插件,半价为49.5元. 所有网站都可以继续免费使用所有99元及以下采集规则的插件,为期一年.
使用方法:
安装后,在网站后台采集管理规则管理中,您可以单击规则前面的采集按钮以单独采集,也可以选择多个采集.
编辑方法:
安装后,您将在网站背景采集管理规则管理中看到多个采集规则. 这些采集规则的归因列默认为ID为1的网站列,默认设置是将远程图片保存到服务器. 因此,请根据实际情况,将采集规则的归属列设置为其他列,方法是: 网站背景-采集管理-规则管理-单击采集规则所属类别前的“编辑”按钮-选择您的分类-单击“下一步”保存当前页面的设置.
如果您不想在采集过程中将远程图片保存到服务器,请使用以下方法: 网站背景-采集管理-规则管理-单击采集规则前的“编辑”按钮-新闻设置-保存图片- -取消选中“下一步”以保存当前页面的设置.
设置默认和固定的作者姓名,方法: 网站背景-采集夹管理-规则管理-单击某个采集夹规则前面的“编辑”按钮-下一个-下一个-作者设置-填写固定的字符.
如何将采集的数据发布到网站?方法: 网站后台采集管理数据存储,可以选择存储所有内容或选中部分内容存储在此处,也可以删除所有内容或删除部分选中的内容.
为什么采集一些内容后提示重复?因为: 为了防止重复采集并浪费不必要的时间和资源,如果要重新采集已采集的数据,请转到网站采集管理历史记录的后台,您可以在此处删除历史记录或有选择地删除浏览器内部页面顶部的标题栏中会过滤“成功记录”,“失败记录”和“无效记录”.
常见问题:
可以修改已安装的采集规则吗?
回答: 不能修改“目标网页编码”和“远程列表URL”. 请谨慎修改其他内容,否则很容易采集失败.
为什么提示“服务器资源有限,并且文章无法直接浏览. 请安装或升级用于批次采集的采集插件. ”
回答: 1.无法修改“目标网页编码”和“远程列表URL”. 请小心修改其他内容,否则很容易采集失败. . 2.检查您登录到后端的域名是否已获取采集规则插件的注册码. 3.请直接采集,请勿点击测试按钮,测试过程中会出现此提示. 正常采集. 4.请使用您在安装此插件时使用的域名登录后台进行采集.
此插件的优点:
自动在平台上采集每日更新的内容,并且无需重新编辑即可自动排版所有内容.
可以使用天人系列管理系统的所有系统,并且按钮样式自动匹配.
此插件不是自动采集插件,您需要单击一个按钮以触发批量采集
安装过程
点击上方的“立即安装”按钮(如下所示):
1分钟后,将显示一个带有黑色背景的“正在加载”蓝色字体页面(如下所示)
稍等片刻,页面将变为黑色背景和绿色字体的“天人系列管理系统项目自动部署工具”(如下所示)
如果页面上的所有权限检查均通过,并且没有红色字体“无法读取”,“无法写入”和“无法删除”,则会自动安装. 几分钟后,将提示您安装完成. 不要关闭页面. 8秒后,您将跳至官方网站获取注册码,然后可以使用此应用程序.
获取注册码页面,单击“生成注册码”按钮(如下所示)
这时,系统将根据您的域名自动生成注册码(如下所示)
值得注意的是,不需要在网站上单独填写注册码. 您安装的应用程序将自动获取注册码. 您刷新刚刚提示注册码的页面,以查看其是否可以正常使用.
常见问题
问: 为什么我需要获得免费申请的注册码?我需要付款吗?
A: 注册码是用于激活您已安装的插件的. 无需付款. 在下一页输入网站的一级域名以自动生成注册码. 注册代码是根据一级域名生成的. 更改域名之后,您可以再次获得注册码,如果您像其他人的网站程序或插件一样更改域名,则注册码不会被废除. 还值得一提的是,在正常情况下,不需要手动在后端输入注册码. 在后台更新缓存时,将自动获取您获取的所有注册码,非常方便,快捷.
问: 如何获取付费应用程序的注册代码?
A: 付费应用程序需要使用现金购买注册码. 请按照页面上的说明单击“获取注册码”按钮,然后转到付款页面以支付相应的金额,注册码将自动生成.
问: 我需要单独保存注册码吗?如果丢失了该怎么办?如何在我的网站上输入注册码?
A: 通常,您不需要单独保存注册码,因为获得注册码的域名将自动保存在官方网站的数据库中,并且您的网站将自动获取注册码. 官方网站上的注册码. 即使注册码丢失,只要在后台更新缓存,您的注册码也会立即被检索. 当然,如果您愿意手动输入注册码,则可以在后台的“注册码管理”中输入注册码. 其效果与通过更新缓存获得的注册码相同.
问: 我的注册码是否会被他人盗用?
A: 注册代码是根据您网站的一级域名生成的. 每个网站的域名在这个世界上都是唯一的,因此注册码也是唯一的,其他人无法窃取您的注册码.
问: 如何获取尚未通过我的网站的后端应用程序中心下载的应用程序的注册码?
A: 要获取注册码,您可以在网站后端的“我的应用程序”或“我的模板”中找到与您刚安装的应用程序或模板相对应的“单击查看”按钮,然后跳至官方网站(如下所示)
跳至对应于官方网站应用程序的详细信息页面后,以红色字体“您的一级域名”填写您的域名. 可以不填写一级域名. 系统将自动设置第一级域名,然后单击“获取注册码”按钮并按照提示进行操作. (如下图所示) 查看全部
详细介绍
此插件可以通过天仁官方采集平台进行转移,以获取小岛娱乐网每天更新的文章(不采集旧文章),这意味着您可以在小岛娱乐网的整个网站上获取最新文章. 可配合自动收款插件实现全自动免维护更新网站功能. 并通过自动网络磁盘按钮生成插件自动为文章中的网络磁盘链接生成下载按钮.
之前发言:
这种采集规则插件消耗了我们大量的服务器资源和成本,因此该插件需要每年进行更新. 对于具有授权软件包2和更高版本的用户,授权中的任何域名在安装此插件后将免费使用一年. 之后,该插件可以每年以半价连续使用.
尚未购买授权用户或授权级别低于套餐2的用户需要单独购买并更新原创价格.
授权用户只需要以半价更新最高价的二手采集规则插件即可. 在所有用户授权下,可以在网站上免费使用所有采集规则插件. 例如,您每年只需要更新一个99元的收款规则插件,半价为49.5元. 所有网站都可以继续免费使用所有99元及以下采集规则的插件,为期一年.
使用方法:
安装后,在网站后台采集管理规则管理中,您可以单击规则前面的采集按钮以单独采集,也可以选择多个采集.
编辑方法:
安装后,您将在网站背景采集管理规则管理中看到多个采集规则. 这些采集规则的归因列默认为ID为1的网站列,默认设置是将远程图片保存到服务器. 因此,请根据实际情况,将采集规则的归属列设置为其他列,方法是: 网站背景-采集管理-规则管理-单击采集规则所属类别前的“编辑”按钮-选择您的分类-单击“下一步”保存当前页面的设置.
如果您不想在采集过程中将远程图片保存到服务器,请使用以下方法: 网站背景-采集管理-规则管理-单击采集规则前的“编辑”按钮-新闻设置-保存图片- -取消选中“下一步”以保存当前页面的设置.
设置默认和固定的作者姓名,方法: 网站背景-采集夹管理-规则管理-单击某个采集夹规则前面的“编辑”按钮-下一个-下一个-作者设置-填写固定的字符.
如何将采集的数据发布到网站?方法: 网站后台采集管理数据存储,可以选择存储所有内容或选中部分内容存储在此处,也可以删除所有内容或删除部分选中的内容.
为什么采集一些内容后提示重复?因为: 为了防止重复采集并浪费不必要的时间和资源,如果要重新采集已采集的数据,请转到网站采集管理历史记录的后台,您可以在此处删除历史记录或有选择地删除浏览器内部页面顶部的标题栏中会过滤“成功记录”,“失败记录”和“无效记录”.
常见问题:
可以修改已安装的采集规则吗?
回答: 不能修改“目标网页编码”和“远程列表URL”. 请谨慎修改其他内容,否则很容易采集失败.
为什么提示“服务器资源有限,并且文章无法直接浏览. 请安装或升级用于批次采集的采集插件. ”
回答: 1.无法修改“目标网页编码”和“远程列表URL”. 请小心修改其他内容,否则很容易采集失败. . 2.检查您登录到后端的域名是否已获取采集规则插件的注册码. 3.请直接采集,请勿点击测试按钮,测试过程中会出现此提示. 正常采集. 4.请使用您在安装此插件时使用的域名登录后台进行采集.
此插件的优点:
自动在平台上采集每日更新的内容,并且无需重新编辑即可自动排版所有内容.
可以使用天人系列管理系统的所有系统,并且按钮样式自动匹配.
此插件不是自动采集插件,您需要单击一个按钮以触发批量采集
安装过程
点击上方的“立即安装”按钮(如下所示):

1分钟后,将显示一个带有黑色背景的“正在加载”蓝色字体页面(如下所示)

稍等片刻,页面将变为黑色背景和绿色字体的“天人系列管理系统项目自动部署工具”(如下所示)
如果页面上的所有权限检查均通过,并且没有红色字体“无法读取”,“无法写入”和“无法删除”,则会自动安装. 几分钟后,将提示您安装完成. 不要关闭页面. 8秒后,您将跳至官方网站获取注册码,然后可以使用此应用程序.

获取注册码页面,单击“生成注册码”按钮(如下所示)

这时,系统将根据您的域名自动生成注册码(如下所示)

值得注意的是,不需要在网站上单独填写注册码. 您安装的应用程序将自动获取注册码. 您刷新刚刚提示注册码的页面,以查看其是否可以正常使用.
常见问题
问: 为什么我需要获得免费申请的注册码?我需要付款吗?
A: 注册码是用于激活您已安装的插件的. 无需付款. 在下一页输入网站的一级域名以自动生成注册码. 注册代码是根据一级域名生成的. 更改域名之后,您可以再次获得注册码,如果您像其他人的网站程序或插件一样更改域名,则注册码不会被废除. 还值得一提的是,在正常情况下,不需要手动在后端输入注册码. 在后台更新缓存时,将自动获取您获取的所有注册码,非常方便,快捷.
问: 如何获取付费应用程序的注册代码?
A: 付费应用程序需要使用现金购买注册码. 请按照页面上的说明单击“获取注册码”按钮,然后转到付款页面以支付相应的金额,注册码将自动生成.
问: 我需要单独保存注册码吗?如果丢失了该怎么办?如何在我的网站上输入注册码?
A: 通常,您不需要单独保存注册码,因为获得注册码的域名将自动保存在官方网站的数据库中,并且您的网站将自动获取注册码. 官方网站上的注册码. 即使注册码丢失,只要在后台更新缓存,您的注册码也会立即被检索. 当然,如果您愿意手动输入注册码,则可以在后台的“注册码管理”中输入注册码. 其效果与通过更新缓存获得的注册码相同.
问: 我的注册码是否会被他人盗用?
A: 注册代码是根据您网站的一级域名生成的. 每个网站的域名在这个世界上都是唯一的,因此注册码也是唯一的,其他人无法窃取您的注册码.
问: 如何获取尚未通过我的网站的后端应用程序中心下载的应用程序的注册码?
A: 要获取注册码,您可以在网站后端的“我的应用程序”或“我的模板”中找到与您刚安装的应用程序或模板相对应的“单击查看”按钮,然后跳至官方网站(如下所示)

跳至对应于官方网站应用程序的详细信息页面后,以红色字体“您的一级域名”填写您的域名. 可以不填写一级域名. 系统将自动设置第一级域名,然后单击“获取注册码”按钮并按照提示进行操作. (如下图所示)
[免费发布] wp-auto-post 3.6.2完全修复版本(包括翻译)
采集交流 • 优采云 发表了文章 • 0 个评论 • 185 次浏览 • 2020-08-07 18:28
收费是50元,这是一个完全修复的版本. 博主已启动该网站,并且正在正常使用. 基于真实的3.6.2解码,
此版本主要修复: 正确的规则后,无法在集合中找到文章的内容和标题(整个页面集合的第二个验证问题),无法使用翻译功能(技术支持)未提供)
它不会像在市场上那样在两天内暂停采集,或者只会添加一个BUG的采集规则. 打开下载地址本地下载百度网盘
规则写成每张十元. 不要说购买时无法使用它. 建议从有基础知识的朋友那里购买.
官方介绍:
WP-AutoPost插件可以从任何网站采集内容并自动更新WordPress网站. 它非常易于使用,不需要复杂的设置,并且功能强大且稳定,足以支持wordpress的所有功能.
一键安装,自动采集和更新,无需人工干预
WP-AutoPost的安装非常简单方便. 只需几分钟即可开始自动采集和更新您的网站,并与开源WordPress程序结合使用,新手可以快速上手,根据设置的采集方法采集URL,然后自动抓取Web内容,检测文章是否复制并导入更新的文章,所有这些操作将自动完成,无需人工干预. 我们还提供专门的客户服务,为商业客户提供技术支持.
目标集合,支持通配符,CSS选择器和其他方法来准确采集任何内容
目标采集仅需提供文章列表URL,即可从任何网站或专栏智能地采集内容,这既方便又简单. 设置简单的规则可以准确地采集标题,正文和任何其他内容.
完美支持Wordpress的各种功能,自动设置类别,标签,摘要,特色图片,支持自定义列,自定义文章类型等.
完全支持Wordpress的各种功能,您可以选择要发布的类别,自动添加标签,自动生成摘要以及自动设置特色图片. 支持自定义文章类型,自定义分类,文章格式. 您甚至可以抓取任何内容并将其添加到“ Wordpress自定义列”,以方便扩展. 查看全部
最初计划免费发布该版本,但是由于维护该版本会占用博客作者大量时间和精力,因此暂定要收费发行.
收费是50元,这是一个完全修复的版本. 博主已启动该网站,并且正在正常使用. 基于真实的3.6.2解码,
此版本主要修复: 正确的规则后,无法在集合中找到文章的内容和标题(整个页面集合的第二个验证问题),无法使用翻译功能(技术支持)未提供)
它不会像在市场上那样在两天内暂停采集,或者只会添加一个BUG的采集规则. 打开下载地址本地下载百度网盘
规则写成每张十元. 不要说购买时无法使用它. 建议从有基础知识的朋友那里购买.
官方介绍:
WP-AutoPost插件可以从任何网站采集内容并自动更新WordPress网站. 它非常易于使用,不需要复杂的设置,并且功能强大且稳定,足以支持wordpress的所有功能.

一键安装,自动采集和更新,无需人工干预
WP-AutoPost的安装非常简单方便. 只需几分钟即可开始自动采集和更新您的网站,并与开源WordPress程序结合使用,新手可以快速上手,根据设置的采集方法采集URL,然后自动抓取Web内容,检测文章是否复制并导入更新的文章,所有这些操作将自动完成,无需人工干预. 我们还提供专门的客户服务,为商业客户提供技术支持.

目标集合,支持通配符,CSS选择器和其他方法来准确采集任何内容
目标采集仅需提供文章列表URL,即可从任何网站或专栏智能地采集内容,这既方便又简单. 设置简单的规则可以准确地采集标题,正文和任何其他内容.

完美支持Wordpress的各种功能,自动设置类别,标签,摘要,特色图片,支持自定义列,自定义文章类型等.
完全支持Wordpress的各种功能,您可以选择要发布的类别,自动添加标签,自动生成摘要以及自动设置特色图片. 支持自定义文章类型,自定义分类,文章格式. 您甚至可以抓取任何内容并将其添加到“ Wordpress自定义列”,以方便扩展.
Guanguan Collector V10 Unlimited Edition,2020 Advanced Function Guangguan Collector,Jieqi Novel Collector
采集交流 • 优采云 发表了文章 • 0 个评论 • 173 次浏览 • 2020-08-07 15:15
软件简介
Guanguan Collector V10 Unlimited Edition,2020 Advanced Function Guangguan Collector,Jieqi Novel Collector
此模型是经过数年不断更新和更改后制成的. 与市场上的摊位和悬浮动画不同,采集速度非常快,具有替换章节(自动修复),批处理一键修复和自动比较章节(该章节内容相同,请勿替换),突破列出反采集,代理循环,解开目录语音化,可以生成零距离内部链,QR代码URL生成,反采集设置...太多实用和SEO功能强大,每个人都可以亲自体验!
许多主要网站都使用该网站!
2020年高级功能关闭采集器的新功能和使用方法:
1. 收款规则
在采集规则管理中可见
绿色参数NovelListFilter设置为在采集书籍列表时不过滤多余的书籍ID. 它可以过滤要检索的html.
绿色参数PubContentPageUrl和PubContentPageKey设置为采集文章内容和分页. 您可以告别PHP插件.
红色参数PubContentChapterName,PubContentChapterNum在前几章中,某些站点使用乱码. 使用它来检索乱码的章节名称.
2. 静态生成整个网站
在生成静态HTML时可见
更改原创动态首页地址的名称,即要求其首页不要默认为伪静态首页,然后使用物理路径指向默认首页并生成新的首页.
带参数的是高级功能. 您可以调用{Page}替换参数并生成列表页面.
提示: 生成部分是因为采集器和网站位于同一服务器上,因此可以将localhost用作网站地址,以便可以在内部但不能在外部访问它.
使用自定义路径,您无需动态登录即可生成站点范围的html. 在搜索部分,您需要像以前一样使用动态功能,或者可以根据自己的技术与ajax合作.
如果您愿意付款,可以找到我,免费的是886.
3. 动态代理
与他在一起,您将不会害怕被禁止.
打开自动代理模式,然后输入URL获取代理ip(可以在快速代理,代理666和其他站点上购买代理ip,可以按月订阅)
打开一个或多个自动代理,以测试ip的可用性并将其存储. 当ip超过10时,您可以使用代理. 会自动连续不断地更改ip,呼叫目标占了意外.
4. 产生分页
为获得更好的引擎收录效果,它可以自动生成分页,可以在自定义路径中设置分页,而无需高级授权.
软件屏幕截图
软件下载 查看全部
关闭关闭采集器V10无限版,2020年高级功能关闭关闭采集器,采集器杰基小说已更新: 2019-12-07阅读(872)评论(1)
软件简介
Guanguan Collector V10 Unlimited Edition,2020 Advanced Function Guangguan Collector,Jieqi Novel Collector
此模型是经过数年不断更新和更改后制成的. 与市场上的摊位和悬浮动画不同,采集速度非常快,具有替换章节(自动修复),批处理一键修复和自动比较章节(该章节内容相同,请勿替换),突破列出反采集,代理循环,解开目录语音化,可以生成零距离内部链,QR代码URL生成,反采集设置...太多实用和SEO功能强大,每个人都可以亲自体验!
许多主要网站都使用该网站!
2020年高级功能关闭采集器的新功能和使用方法:
1. 收款规则
在采集规则管理中可见
绿色参数NovelListFilter设置为在采集书籍列表时不过滤多余的书籍ID. 它可以过滤要检索的html.
绿色参数PubContentPageUrl和PubContentPageKey设置为采集文章内容和分页. 您可以告别PHP插件.
红色参数PubContentChapterName,PubContentChapterNum在前几章中,某些站点使用乱码. 使用它来检索乱码的章节名称.
2. 静态生成整个网站
在生成静态HTML时可见
更改原创动态首页地址的名称,即要求其首页不要默认为伪静态首页,然后使用物理路径指向默认首页并生成新的首页.
带参数的是高级功能. 您可以调用{Page}替换参数并生成列表页面.
提示: 生成部分是因为采集器和网站位于同一服务器上,因此可以将localhost用作网站地址,以便可以在内部但不能在外部访问它.
使用自定义路径,您无需动态登录即可生成站点范围的html. 在搜索部分,您需要像以前一样使用动态功能,或者可以根据自己的技术与ajax合作.
如果您愿意付款,可以找到我,免费的是886.
3. 动态代理
与他在一起,您将不会害怕被禁止.
打开自动代理模式,然后输入URL获取代理ip(可以在快速代理,代理666和其他站点上购买代理ip,可以按月订阅)
打开一个或多个自动代理,以测试ip的可用性并将其存储. 当ip超过10时,您可以使用代理. 会自动连续不断地更改ip,呼叫目标占了意外.
4. 产生分页
为获得更好的引擎收录效果,它可以自动生成分页,可以在自定义路径中设置分页,而无需高级授权.
软件屏幕截图




软件下载
WP-AutoBlog(自动采集和发布插件)V1.2.9免费版
采集交流 • 优采云 发表了文章 • 0 个评论 • 292 次浏览 • 2020-08-07 08:21
[软件功能]
可以采集任何网站的内容,采集的信息一目了然
通过简单的设置,您可以从任何网站采集内容,还可以将多个采集任务设置为同时运行. 您可以将任务设置为自动或手动运行. 主任务列表显示每个采集任务的状态: 上次检测采集时间,下一次检测的估计采集时间,最新采集的文章,已采集和更新的文章数以及其他易于查看和查看的信息. 管理.
文章管理功能方便查询,搜索和删除采集的文章. 改进的算法从根本上消除了同一文章的重复采集. 日志功能记录采集过程中的异常和抓取错误,便于检查和设置维修错误.
可以采集任何网站的内容,并且所采集的信息一目了然. 文章管理功能完善,便于查询管理,并具有日志功能,可以记录馆藏异常情况.
启用任务后,它将自动采集和更新,而无需人工干预.
启用该任务后,检查是否有新文章要定期更新,检查文章是否重复,然后导入更新的文章. 所有这些操作都是自动完成的,无需人工干预.
触发采集和更新的方法有两种,一种是在页面中添加代码以通过用户访问来触发采集和更新(在后台异步,不影响用户体验,也不影响效率)的网站),并且可以使用Cron计划任务定期触发采集集更新任务
定向采集,支持通配符匹配,或CSS选择器以准确采集任何内容,支持采集多级文章列表,支持采集正文页面内容,支持采集多级正文内容
目标采集仅需提供文章列表URL,即可从任何网站或专栏智能地采集内容.
不仅支持“通配符匹配”来采集Web内容,而且还支持各种CSS选择器. 只需填写一个简单的CSS选择器(如#title h1)即可准确采集任何Web内容. (如何设置CSS选择器)
支持设置关键字,如果标题中收录关键字,则仅允许采集(或不允许过滤掉采集).
支持设置多个匹配规则以采集网页上的不同内容,甚至支持采集任何内容并将其添加到“ Wordpress自定义列”以方便扩展.
<p>定向集合,支持通配符匹配或CSS选择器以准确采集任何内容,支持正文页面内容的采集定向集合,支持通配符匹配或CSS选择器以准确采集任何内容,支持正文页面内容的采集 查看全部
WP-AutoBlog是一个自动采集和发布插件,可以从任何网站采集内容并自动更新WordPress网站. 它非常易于使用,不需要复杂的设置,并且功能强大且稳定,足以支持所有wordpress功能.

[软件功能]
可以采集任何网站的内容,采集的信息一目了然
通过简单的设置,您可以从任何网站采集内容,还可以将多个采集任务设置为同时运行. 您可以将任务设置为自动或手动运行. 主任务列表显示每个采集任务的状态: 上次检测采集时间,下一次检测的估计采集时间,最新采集的文章,已采集和更新的文章数以及其他易于查看和查看的信息. 管理.
文章管理功能方便查询,搜索和删除采集的文章. 改进的算法从根本上消除了同一文章的重复采集. 日志功能记录采集过程中的异常和抓取错误,便于检查和设置维修错误.
可以采集任何网站的内容,并且所采集的信息一目了然. 文章管理功能完善,便于查询管理,并具有日志功能,可以记录馆藏异常情况.
启用任务后,它将自动采集和更新,而无需人工干预.
启用该任务后,检查是否有新文章要定期更新,检查文章是否重复,然后导入更新的文章. 所有这些操作都是自动完成的,无需人工干预.
触发采集和更新的方法有两种,一种是在页面中添加代码以通过用户访问来触发采集和更新(在后台异步,不影响用户体验,也不影响效率)的网站),并且可以使用Cron计划任务定期触发采集集更新任务
定向采集,支持通配符匹配,或CSS选择器以准确采集任何内容,支持采集多级文章列表,支持采集正文页面内容,支持采集多级正文内容
目标采集仅需提供文章列表URL,即可从任何网站或专栏智能地采集内容.
不仅支持“通配符匹配”来采集Web内容,而且还支持各种CSS选择器. 只需填写一个简单的CSS选择器(如#title h1)即可准确采集任何Web内容. (如何设置CSS选择器)

支持设置关键字,如果标题中收录关键字,则仅允许采集(或不允许过滤掉采集).
支持设置多个匹配规则以采集网页上的不同内容,甚至支持采集任何内容并将其添加到“ Wordpress自定义列”以方便扩展.
<p>定向集合,支持通配符匹配或CSS选择器以准确采集任何内容,支持正文页面内容的采集定向集合,支持通配符匹配或CSS选择器以准确采集任何内容,支持正文页面内容的采集
具有自己的采集规则的全自动,带有wap移动版本的梦幻编织DEDE小说,seo优化,快速采集,百度图片
采集交流 • 优采云 发表了文章 • 0 个评论 • 279 次浏览 • 2020-08-07 01:14
安装环境
产品介绍
傻瓜式安装,自动采集,一次性安装和终生受益
不接受退款,如果您不同意,请勿射击
1. 源代码类型: 整个网站的源代码
2. 环境要求: PHP5.2 / 5.3 / 5.4 / 5.5 + MYSQL5(URLrewrite)
3. 服务器要求: 建议使用VPS或具有40G或更多数据磁盘的独立服务器. 建议系统使用Windows而不是Linux. 新颖的站点服务器中有99%使用Windows系统,这便于文件管理和备份. 站空间使用: 6.5G数据库+ 5G网站空间,经团体网站验证: 4核CPU + 4G内存的Xen架构VPS每天可承受50,000个IP和500,000个PV流量,每天可赚取700元)
4. 原创程序: 织梦DEDECMS 5.7SP1
5. 编码类型: GBK
6. 可以采集: 自动采集,赠送三个规则
7. 其他功能:
(1)自动为主页,类别,目录,作者,排名和站点地图页面生成静态html.
(2)全站点拼音目录(可以自定义URL格式),章节页面是伪静态的.
(3)支持下载功能,可以自动生成相应的文本文件,并可以在文件中设置广告.
(4)自动生成关键字和关键字自动内部链接.
(5)自动伪原创单词替换(可以在采集和输出期间替换).
(6)使用CNZZ的统计插件,可以方便地下载详细统计信息和采集详细统计信息.
(7)该程序的自动采集在市场上并不普遍,例如关冠,聚会者等,而是在DEDE原创采集功能的基础上二次开发的采集模块,可以有效地确保章节内容的完整性可以避免章节重复,章节内容没有内容,章节乱码等;每天24小时可以采集250,000至300,000个章节.
查看全部
产品属性
安装环境
产品介绍
傻瓜式安装,自动采集,一次性安装和终生受益
不接受退款,如果您不同意,请勿射击
1. 源代码类型: 整个网站的源代码
2. 环境要求: PHP5.2 / 5.3 / 5.4 / 5.5 + MYSQL5(URLrewrite)
3. 服务器要求: 建议使用VPS或具有40G或更多数据磁盘的独立服务器. 建议系统使用Windows而不是Linux. 新颖的站点服务器中有99%使用Windows系统,这便于文件管理和备份. 站空间使用: 6.5G数据库+ 5G网站空间,经团体网站验证: 4核CPU + 4G内存的Xen架构VPS每天可承受50,000个IP和500,000个PV流量,每天可赚取700元)
4. 原创程序: 织梦DEDECMS 5.7SP1
5. 编码类型: GBK
6. 可以采集: 自动采集,赠送三个规则
7. 其他功能:
(1)自动为主页,类别,目录,作者,排名和站点地图页面生成静态html.
(2)全站点拼音目录(可以自定义URL格式),章节页面是伪静态的.
(3)支持下载功能,可以自动生成相应的文本文件,并可以在文件中设置广告.
(4)自动生成关键字和关键字自动内部链接.
(5)自动伪原创单词替换(可以在采集和输出期间替换).
(6)使用CNZZ的统计插件,可以方便地下载详细统计信息和采集详细统计信息.
(7)该程序的自动采集在市场上并不普遍,例如关冠,聚会者等,而是在DEDE原创采集功能的基础上二次开发的采集模块,可以有效地确保章节内容的完整性可以避免章节重复,章节内容没有内容,章节乱码等;每天24小时可以采集250,000至300,000个章节.

用于日常棋牌信息采集规则的五种插件
采集交流 • 优采云 发表了文章 • 0 个评论 • 589 次浏览 • 2020-08-07 00:09
此插件可以通过天人官方采集平台进行转移,以获取五类棋牌信息下的每日更新文章(不采集旧文章),这意味着您可以获得在在整个网络上实时显示. 可配合自动收款插件实现全自动免维护更新网站功能.
之前发言:
这种采集规则插件消耗了我们大量的服务器资源和成本,因此该插件需要每年进行更新. 对于具有授权软件包2和更高版本的用户,授权中的任何域名在安装此插件后将免费使用一年. 之后,该插件可以每年以半价连续使用.
尚未购买授权用户或授权级别低于套餐2的用户需要单独购买并更新原创价格.
授权用户只需要以半价更新最高价的二手采集规则插件即可. 在所有用户授权下,可以在网站上免费使用所有采集规则插件. 例如,您每年只需要更新一个99元的收款规则插件,半价为49.5元. 所有网站都可以继续免费使用所有99元及以下采集规则的插件,为期一年.
使用方法:
安装后,在网站后台采集管理规则管理中,您可以单击规则前面的采集按钮以单独采集,也可以选择多个采集.
编辑方法:
安装后,您将在网站背景采集管理规则管理中看到多个采集规则. 这些采集规则的归因列默认为ID为1的网站列,默认设置是将远程图片保存到服务器. 因此,请根据实际情况,将采集规则的归属列设置为其他列,方法是: 网站背景-采集管理-规则管理-单击采集规则所属类别前的“编辑”按钮-选择您的分类-单击“下一步”保存当前页面的设置.
如果您不想在采集过程中将远程图片保存到服务器,请使用以下方法: 网站背景-采集管理-规则管理-单击采集规则前的“编辑”按钮-新闻设置-保存图片- -取消选中“下一步”以保存当前页面的设置.
设置默认和固定的作者姓名,方法: 网站背景-采集夹管理-规则管理-单击某个采集夹规则前面的“编辑”按钮-下一个-下一个-作者设置-填写固定的字符.
如何将采集的数据发布到网站?方法: 网站后台采集管理数据存储,可以选择存储所有内容或选中部分内容存储在此处,也可以删除所有内容或删除部分选中的内容.
为什么采集一些内容后提示重复?因为: 为了防止重复采集并浪费不必要的时间和资源,如果要重新采集已采集的数据,请转到网站采集管理历史记录的后台,您可以在此处删除历史记录或有选择地删除浏览器内部页面顶部的标题栏中会过滤“成功记录”,“失败记录”和“无效记录”.
常见问题:
可以修改已安装的采集规则吗?
回答: 不能修改“目标网页编码”和“远程列表URL”. 请谨慎修改其他内容,否则很容易采集失败.
为什么提示“服务器资源有限,并且文章无法直接浏览. 请安装或升级用于批次采集的采集插件. ”
回答: 1.无法修改“目标网页编码”和“远程列表URL”. 请小心修改其他内容,否则很容易采集失败. . 2.检查您登录到后端的域名是否已获取采集规则插件的注册码. 3.请直接采集,请勿点击测试按钮,测试过程中会出现此提示. 正常采集. 4.请使用您在安装此插件时使用的域名登录后台进行采集.
此插件的优点:
自动在平台上采集每日更新的内容,并且无需重新编辑即可自动排版所有内容.
可以使用天人系列管理系统的所有系统,并且按钮样式自动匹配.
此插件不是自动采集插件,您需要单击一个按钮以触发批量采集
安装过程
点击上方的“立即安装”按钮(如下所示):
1分钟后,将显示一个带有黑色背景的“正在加载”蓝色字体页面(如下所示)
稍等片刻,页面将变为黑色背景和绿色字体的“天人系列管理系统项目自动部署工具”(如下所示)
如果页面上的所有权限检查均通过,并且没有红色字体“无法读取”,“无法写入”和“无法删除”,则会自动安装. 几分钟后,将提示您安装完成. 不要关闭页面. 8秒后,您将跳至官方网站获取注册码,然后可以使用此应用程序.
获取注册码页面,单击“生成注册码”按钮(如下所示)
这时,系统将根据您的域名自动生成注册码(如下所示)
值得注意的是,不需要在网站上单独填写注册码. 您安装的应用程序将自动获取注册码. 您刷新刚刚提示注册码的页面,以查看其是否可以正常使用.
常见问题
问: 为什么我需要获得免费申请的注册码?我需要付款吗?
A: 注册码是用于激活您已安装的插件的. 无需付款. 在下一页输入网站的一级域名以自动生成注册码. 注册代码是根据一级域名生成的. 更改域名之后,您可以再次获得注册码,如果您像其他人的网站程序或插件一样更改域名,则注册码不会被废除. 还值得一提的是,在正常情况下,不需要手动在后端输入注册码. 在后台更新缓存时,将自动获取您获取的所有注册码,非常方便,快捷.
问: 如何获取付费应用程序的注册代码?
A: 付费应用程序需要使用现金购买注册码. 请按照页面上的说明单击“获取注册码”按钮,然后转到付款页面以支付相应的金额,注册码将自动生成.
问: 我需要单独保存注册码吗?如果丢失了该怎么办?如何在我的网站上输入注册码?
A: 通常,您不需要单独保存注册码,因为获得注册码的域名将自动保存在官方网站的数据库中. 同时,您的网站将自动从官方网站获取注册码. 即使注册码丢失,只要在后台更新缓存,您的注册码也会立即被检索. 当然,如果您愿意手动输入注册码,则可以在后台的“注册码管理”中输入注册码. 其效果与通过更新缓存获得的注册码相同.
问: 我的注册码是否会被他人盗用?
A: 注册代码是根据您网站的一级域名生成的. 每个网站的域名在这个世界上都是唯一的,因此注册码也是唯一的,其他人无法窃取您的注册码.
问: 如何获取尚未通过我的网站的后端应用程序中心下载的应用程序的注册码?
A: 要获取注册码,您可以在网站后端的“我的应用程序”或“我的模板”中找到与您刚安装的应用程序或模板相对应的“单击查看”按钮,然后跳至官方网站(如下所示)
跳至对应于官方网站应用程序的详细信息页面后,以红色字体“您的一级域名”填写您的域名. 可以不填写一级域名. 系统将自动设置第一级域名,然后单击“获取注册码”按钮并按照提示进行操作. (如下图所示) 查看全部
详细介绍
此插件可以通过天人官方采集平台进行转移,以获取五类棋牌信息下的每日更新文章(不采集旧文章),这意味着您可以获得在在整个网络上实时显示. 可配合自动收款插件实现全自动免维护更新网站功能.
之前发言:
这种采集规则插件消耗了我们大量的服务器资源和成本,因此该插件需要每年进行更新. 对于具有授权软件包2和更高版本的用户,授权中的任何域名在安装此插件后将免费使用一年. 之后,该插件可以每年以半价连续使用.
尚未购买授权用户或授权级别低于套餐2的用户需要单独购买并更新原创价格.
授权用户只需要以半价更新最高价的二手采集规则插件即可. 在所有用户授权下,可以在网站上免费使用所有采集规则插件. 例如,您每年只需要更新一个99元的收款规则插件,半价为49.5元. 所有网站都可以继续免费使用所有99元及以下采集规则的插件,为期一年.
使用方法:
安装后,在网站后台采集管理规则管理中,您可以单击规则前面的采集按钮以单独采集,也可以选择多个采集.
编辑方法:
安装后,您将在网站背景采集管理规则管理中看到多个采集规则. 这些采集规则的归因列默认为ID为1的网站列,默认设置是将远程图片保存到服务器. 因此,请根据实际情况,将采集规则的归属列设置为其他列,方法是: 网站背景-采集管理-规则管理-单击采集规则所属类别前的“编辑”按钮-选择您的分类-单击“下一步”保存当前页面的设置.
如果您不想在采集过程中将远程图片保存到服务器,请使用以下方法: 网站背景-采集管理-规则管理-单击采集规则前的“编辑”按钮-新闻设置-保存图片- -取消选中“下一步”以保存当前页面的设置.
设置默认和固定的作者姓名,方法: 网站背景-采集夹管理-规则管理-单击某个采集夹规则前面的“编辑”按钮-下一个-下一个-作者设置-填写固定的字符.
如何将采集的数据发布到网站?方法: 网站后台采集管理数据存储,可以选择存储所有内容或选中部分内容存储在此处,也可以删除所有内容或删除部分选中的内容.
为什么采集一些内容后提示重复?因为: 为了防止重复采集并浪费不必要的时间和资源,如果要重新采集已采集的数据,请转到网站采集管理历史记录的后台,您可以在此处删除历史记录或有选择地删除浏览器内部页面顶部的标题栏中会过滤“成功记录”,“失败记录”和“无效记录”.
常见问题:
可以修改已安装的采集规则吗?
回答: 不能修改“目标网页编码”和“远程列表URL”. 请谨慎修改其他内容,否则很容易采集失败.
为什么提示“服务器资源有限,并且文章无法直接浏览. 请安装或升级用于批次采集的采集插件. ”
回答: 1.无法修改“目标网页编码”和“远程列表URL”. 请小心修改其他内容,否则很容易采集失败. . 2.检查您登录到后端的域名是否已获取采集规则插件的注册码. 3.请直接采集,请勿点击测试按钮,测试过程中会出现此提示. 正常采集. 4.请使用您在安装此插件时使用的域名登录后台进行采集.
此插件的优点:
自动在平台上采集每日更新的内容,并且无需重新编辑即可自动排版所有内容.
可以使用天人系列管理系统的所有系统,并且按钮样式自动匹配.
此插件不是自动采集插件,您需要单击一个按钮以触发批量采集
安装过程
点击上方的“立即安装”按钮(如下所示):

1分钟后,将显示一个带有黑色背景的“正在加载”蓝色字体页面(如下所示)

稍等片刻,页面将变为黑色背景和绿色字体的“天人系列管理系统项目自动部署工具”(如下所示)
如果页面上的所有权限检查均通过,并且没有红色字体“无法读取”,“无法写入”和“无法删除”,则会自动安装. 几分钟后,将提示您安装完成. 不要关闭页面. 8秒后,您将跳至官方网站获取注册码,然后可以使用此应用程序.

获取注册码页面,单击“生成注册码”按钮(如下所示)

这时,系统将根据您的域名自动生成注册码(如下所示)

值得注意的是,不需要在网站上单独填写注册码. 您安装的应用程序将自动获取注册码. 您刷新刚刚提示注册码的页面,以查看其是否可以正常使用.
常见问题
问: 为什么我需要获得免费申请的注册码?我需要付款吗?
A: 注册码是用于激活您已安装的插件的. 无需付款. 在下一页输入网站的一级域名以自动生成注册码. 注册代码是根据一级域名生成的. 更改域名之后,您可以再次获得注册码,如果您像其他人的网站程序或插件一样更改域名,则注册码不会被废除. 还值得一提的是,在正常情况下,不需要手动在后端输入注册码. 在后台更新缓存时,将自动获取您获取的所有注册码,非常方便,快捷.
问: 如何获取付费应用程序的注册代码?
A: 付费应用程序需要使用现金购买注册码. 请按照页面上的说明单击“获取注册码”按钮,然后转到付款页面以支付相应的金额,注册码将自动生成.
问: 我需要单独保存注册码吗?如果丢失了该怎么办?如何在我的网站上输入注册码?
A: 通常,您不需要单独保存注册码,因为获得注册码的域名将自动保存在官方网站的数据库中. 同时,您的网站将自动从官方网站获取注册码. 即使注册码丢失,只要在后台更新缓存,您的注册码也会立即被检索. 当然,如果您愿意手动输入注册码,则可以在后台的“注册码管理”中输入注册码. 其效果与通过更新缓存获得的注册码相同.
问: 我的注册码是否会被他人盗用?
A: 注册代码是根据您网站的一级域名生成的. 每个网站的域名在这个世界上都是唯一的,因此注册码也是唯一的,其他人无法窃取您的注册码.
问: 如何获取尚未通过我的网站的后端应用程序中心下载的应用程序的注册码?
A: 要获取注册码,您可以在网站后端的“我的应用程序”或“我的模板”中找到与您刚安装的应用程序或模板相对应的“单击查看”按钮,然后跳至官方网站(如下所示)

跳至对应于官方网站应用程序的详细信息页面后,以红色字体“您的一级域名”填写您的域名. 可以不填写一级域名. 系统将自动设置第一级域名,然后单击“获取注册码”按钮并按照提示进行操作. (如下图所示)
小说源网站PHP伪静态,使用微信+移动终端自动采集,开源,无限交付规则
采集交流 • 优采云 发表了文章 • 0 个评论 • 350 次浏览 • 2020-08-06 12:16
安装环境
产品介绍
温馨提示: 由于本店业务繁忙,请提前联系我们的客服进行购买. 如果买家购买后需要提供安装服务,本店可能暂时不会处理!谢谢您的合作! !不要开枪小白.
####演示地址: pc: 移动终端:
服务器要求: 建议将VPS与40G数据磁盘或专用服务器一起使用.
重要提示: 如果源代码支持iis6,则需要添加ISAPI_Rewrite3破解版,并且此存储会将其分发. 支持apache. 支持Nginx,但是根目录中的伪静态规则.htaccess需要自己从apache转换为Nginx. 百度上有很多工具.
模板功能: 更新时间(2018年5月13日)
(1)自动为主页,类别,目录,排名,站点地图页面(类别页面,小说封面,作者页面)生成静态html,如果html文件在设置的时间后不存在或未更新,则将如果存在采集,则小说的封面和相应的分类页面将在采集期间自动更新),直接通过PHP调用html文件,而不是在根目录中生成该文件,访问速度为与纯静态文件不同,源文件管理可以很方便. 同时,它减轻了服务器压力,但也方便了访问统计信息并提高了搜索引擎的识别率.
(2)完整的拼音目录,章节页面是伪静态的.
(3)自动生成新颖的txt文件,或在后台重新生成txt文件. (默认关闭,现在百度正在打击下载,“清风算法seo”)(新)
(4)自动生成新颖的关键字和关键字自动内部链接.
(5)自动伪原创单词替换(采集期间替换).
(6)添加新功能,例如小说的总点击,每月点击,每周点击,总推荐,每月推荐,每周推荐统计和作者推荐统计.
(7)添加60个美观的盖子以减轻服务器压力,并在采集时自动生效. 整个网络. (新)
(8)开发符合百度360的智能摘要. (新)
(9)重新开发页面并更改背景. (新)
(10)移动版本实现了伪静态(新)
查看全部
产品属性
安装环境
产品介绍
温馨提示: 由于本店业务繁忙,请提前联系我们的客服进行购买. 如果买家购买后需要提供安装服务,本店可能暂时不会处理!谢谢您的合作! !不要开枪小白.
####演示地址: pc: 移动终端:
服务器要求: 建议将VPS与40G数据磁盘或专用服务器一起使用.
重要提示: 如果源代码支持iis6,则需要添加ISAPI_Rewrite3破解版,并且此存储会将其分发. 支持apache. 支持Nginx,但是根目录中的伪静态规则.htaccess需要自己从apache转换为Nginx. 百度上有很多工具.
模板功能: 更新时间(2018年5月13日)
(1)自动为主页,类别,目录,排名,站点地图页面(类别页面,小说封面,作者页面)生成静态html,如果html文件在设置的时间后不存在或未更新,则将如果存在采集,则小说的封面和相应的分类页面将在采集期间自动更新),直接通过PHP调用html文件,而不是在根目录中生成该文件,访问速度为与纯静态文件不同,源文件管理可以很方便. 同时,它减轻了服务器压力,但也方便了访问统计信息并提高了搜索引擎的识别率.
(2)完整的拼音目录,章节页面是伪静态的.
(3)自动生成新颖的txt文件,或在后台重新生成txt文件. (默认关闭,现在百度正在打击下载,“清风算法seo”)(新)
(4)自动生成新颖的关键字和关键字自动内部链接.
(5)自动伪原创单词替换(采集期间替换).
(6)添加新功能,例如小说的总点击,每月点击,每周点击,总推荐,每月推荐,每周推荐统计和作者推荐统计.
(7)添加60个美观的盖子以减轻服务器压力,并在采集时自动生效. 整个网络. (新)
(8)开发符合百度360的智能摘要. (新)
(9)重新开发页面并更改背景. (新)
(10)移动版本实现了伪静态(新)




WP-AutoPost-Pro WordPress自动采集和发布翻译插件支持5
采集交流 • 优采云 发表了文章 • 0 个评论 • 600 次浏览 • 2020-08-06 12:13
可以采集任何网站的内容,采集的信息一目了然
通过简单的设置,您可以从任何网站采集内容,还可以将多个采集任务设置为同时运行. 您可以将任务设置为自动或手动运行. 主任务列表显示每个采集任务的状态: 上次检测采集时间,下一次检测的估计采集时间,最新采集的文章,已采集和更新的文章数以及其他易于查看和查看的信息. 管理.
文章管理功能方便查询,搜索和删除采集的文章. 改进的算法从根本上消除了同一文章的重复采集. 日志功能记录采集过程中的异常和抓取错误,便于检查和设置维修错误.
启用任务后,它将自动采集和更新,而无需人工干预.
启用该任务后,检查是否有新文章要定期更新,检查文章是否重复,然后导入更新的文章. 所有这些操作都是自动完成的,无需人工干预.
触发采集和更新的方法有两种,一种是在页面中添加代码以通过用户访问来触发采集和更新(在后台异步,不影响用户体验,也不影响效率)的网站),并且可以使用Cron计划任务定期触发采集集更新任务
定向采集,支持通配符匹配,或CSS选择器以准确采集任何内容,支持采集多级文章列表,支持采集正文页面内容,支持采集多级正文内容
目标采集仅需提供文章列表URL,即可从任何网站或专栏智能地采集内容.
不仅支持“通配符匹配”来采集Web内容,而且还支持各种CSS选择器. 只需填写一个简单的CSS选择器(如#title h1)即可准确采集网络上的所有内容. (如何设置CSS选择器)
支持设置关键字,如果标题中收录关键字,则仅允许采集(或不允许过滤掉采集).
每个采集任务都可以选择发布到类别目录,发布作者,发布状态,检查和更新时间间隔,采集目标网站的字符集,以及选择下载图片还是附件.
支持自定义文章类型,自定义文章分类,文章格式
完全支持Wordpress的各种功能,自动添加标签,自动生成摘要,自动设置特色图片,支持自定义列等.
任何格式的远程图片和其他附件都可以下载到本地服务器,并自动为图片添加水印
支持将远程图像下载到本地服务器,并且可以选择自动添加文本水印或图像水印. 其他格式的附件和文档也可以轻松下载到本地服务器.
支持市场上所有主流对象存储服务,包括Qiniu Cloud,它可以自动将文章中的图片和附件上传到云对象存储服务,节省带宽和空间,并提高网站访问速度
支持内容过滤 查看全部

可以采集任何网站的内容,采集的信息一目了然
通过简单的设置,您可以从任何网站采集内容,还可以将多个采集任务设置为同时运行. 您可以将任务设置为自动或手动运行. 主任务列表显示每个采集任务的状态: 上次检测采集时间,下一次检测的估计采集时间,最新采集的文章,已采集和更新的文章数以及其他易于查看和查看的信息. 管理.
文章管理功能方便查询,搜索和删除采集的文章. 改进的算法从根本上消除了同一文章的重复采集. 日志功能记录采集过程中的异常和抓取错误,便于检查和设置维修错误.
启用任务后,它将自动采集和更新,而无需人工干预.
启用该任务后,检查是否有新文章要定期更新,检查文章是否重复,然后导入更新的文章. 所有这些操作都是自动完成的,无需人工干预.
触发采集和更新的方法有两种,一种是在页面中添加代码以通过用户访问来触发采集和更新(在后台异步,不影响用户体验,也不影响效率)的网站),并且可以使用Cron计划任务定期触发采集集更新任务
定向采集,支持通配符匹配,或CSS选择器以准确采集任何内容,支持采集多级文章列表,支持采集正文页面内容,支持采集多级正文内容
目标采集仅需提供文章列表URL,即可从任何网站或专栏智能地采集内容.
不仅支持“通配符匹配”来采集Web内容,而且还支持各种CSS选择器. 只需填写一个简单的CSS选择器(如#title h1)即可准确采集网络上的所有内容. (如何设置CSS选择器)
支持设置关键字,如果标题中收录关键字,则仅允许采集(或不允许过滤掉采集).
每个采集任务都可以选择发布到类别目录,发布作者,发布状态,检查和更新时间间隔,采集目标网站的字符集,以及选择下载图片还是附件.
支持自定义文章类型,自定义文章分类,文章格式
完全支持Wordpress的各种功能,自动添加标签,自动生成摘要,自动设置特色图片,支持自定义列等.
任何格式的远程图片和其他附件都可以下载到本地服务器,并自动为图片添加水印
支持将远程图像下载到本地服务器,并且可以选择自动添加文本水印或图像水印. 其他格式的附件和文档也可以轻松下载到本地服务器.
支持市场上所有主流对象存储服务,包括Qiniu Cloud,它可以自动将文章中的图片和附件上传到云对象存储服务,节省带宽和空间,并提高网站访问速度
支持内容过滤
云采集原理和规则加速设置
采集交流 • 优采云 发表了文章 • 0 个评论 • 476 次浏览 • 2020-08-13 16:32
云采集原理是哪些?什么样的规则可实现云加速?本文将详尽讲解。
一、云采集原理
云采集是指,使用由优采云提供的云服务集群进行数据采集。优采云拥有5000+云服务器,7*24小时不间断运行(一台云服务器可看做一个云节点)。
优采云的采集任务运行在云节点上时:
a. 在满足可分拆的情况下,1个任务最多拆成100个子任务。(3类任务可分拆,下文将详尽讲解)
b.1个任务/子任务需占用一个云节点进行采集。也就是说,1个云节点同时只能运行一个任务/子任务。
c.不同版本的云节点数是不一样的。旗舰版:6-10个动态云节点。旗舰+:8-12个动态云节点。
d. 基于以上信息,可能会出现任务/拆分子任务数>云节点数的情况。如果帐号内的云节点数已被运行中的任务/子任务占满,则新启动的任务/被分拆的子任务会步入等待队列,直到某个任务/子任务采集完成,释放出多余的节点资源,它们就会有节点进行采集。
如何查看任务的子任务分拆和运行情况?
在【我的任务】中找到已运行云采集的任务,点击【详情】,查看当前任务的子任务分拆和运行情况。如图,该任务分拆了30个子任务,其中1个在运行中,29个已完成。
子任务的状态有以下几种:
已分拆:当前任务分拆成了多少个子任务。为1时,表示该任务未进行分拆(任务本身不支持分拆或勾选了云采集不分拆)。大于1时,表示已进行分拆。图中任务分拆成了30个子任务。
等待中:还未运行采集的子任务个数。
运行中:当前正在采集数据的子任务个数。每个任务会占用一个云节点,故所有任务在运行的子任务数之和大于等于帐号节点数。
已完成:已完成采集的子任务个数。
已停止:程序手动停止采集或人为自动停止采集的子任务个数。
如果运行了某个云采集任务,但是仍然没有采集到数据, 可以在子任务状态中查看是否有子任务在运行,如果子任务都是等待中状态,说明该帐号的云节点已被其他任务占满。请等待多余的云节点资源释放下来。
二、云采集加速设置
由云采集原理可知,一个任务要分拆成多个子任务,使用更多的云节点同时运行多个子任务,才能实现加速采集的疗效。
任务假如要分拆成子任务,需满足一定条件。以下三类任务是可以分拆的:
1、URL循环
2、文本循环
3、固定元素循环
1、URL循环
URL循环类的规则,可分拆成多个子任务,同时运行在多个云节点上,实现加速。
当URL数100时,拆分成URL数/100的子任务数(取整数)。例,循环中有30个URL,将被分拆成30个子任务;循环中有278个URL,将被分拆成2个子任务。
示例网址:
.......
等30个易迅商品详情页网址,需要采集每个详情页中的数据。
Step1:建立URL循环
Step2:启动云采集,点击【详情】,可以见到此任务的30条URL,拆分成30个子任务同时采集,加快采集速度
常用场景:当有一个商品/文章列表,需要点击商品/文章链接,进入详情页采集时,我们可以做一个【循环-点击链接-提取详情数据】的规则,在一个任务中依次点击步入详情页采集数据。也可以先采集列表的商品/文章链接,然后使用URL循环,配合云采集将其分拆成多个子任务,分配到多个云节点上同时采集,极大推动采集速度。
示例网址:电子书&enc=utf-8&wq=电子书
先获得列表页商品网址,然后再用上文讲的方式,用URL循环,配合云采集加速采集。获得列表页网址演示如下:
2、文本循环
文本循环类的规则,可分拆成多个子任务,同时运行在多个云节点上,实现加速。
当输入的文本数100时,拆分成输入文本数/100的子任务数。
文本循环分拆原理和URL循环一致,通过对文本循环的分拆,达到加速采集的疗效。具体可见批量输入关键词查询,采集查询结果教程。
3、固定元素列表循环
固定元素列表类的规则,可分拆成多个子任务,同时运行在多个云节点上,实现加速。
当固定元素列表类数100时,拆分成固定元素列表数/100的子任务数。
值得注意的是,【循环-点击元素】类规则,使用【固定元素列表】的循环形式后云分拆,才会有显著加速疗效,如下图所示:
【循环-点击元素】有2种常见采集场景:①点击商品/文章链接步入详情页,采集详情页数据的情况。② 点击条件类链接进行分类采集。
如果是【循环-提取数据】类规则,没有点击步骤,则使用【固定元素列表】的循环形式后云分拆,加速疗效并不显著,如下图所示:
下面讲一个【循环-点击元素】类规则使用【固定元素列表】进行云分拆的实例:
示例网址:%E6%89%8B%E6%9C%BA&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=e8885bd7095549c19e11ae459702097d
采集需求:点击步入商品详情页,采集每个详情页中的数据。
Step1:建立循环列表,查看手动生成的循环形式。可以看见,循环形式为不固定元素列表循环:使用XPath定位,一条XPath对应循环列表中的一个列表。如图示例中,30条XPath对应30个商品列表。
Step2:启动云采集,点击【详情】,可以见到此任务的30条固定元素列表,拆分成30个子任务,加快采集速度。
【不固定元素列表】为【固定元素列表】的关系
对于【循环-点击元素】类规则,优采云自动生成的循环形式通常为【不固定元素列表】,以便于云上分拆加速。
本质上【不固定元素列表】和【固定元素列表】都是使用XPath进行定位,两者可以互相改写。下面看2个改写实例。
将【不固定元素列表】改为【固定元素列表】
示例网址:%B4%F3%CA%FD%BE%DD、
采集需求:采集页面前20个图片的地址
按照采集列表数据的方式,配置规则。自动生成的循环形式为【不固定元素列表】,定位XPath为://body/div[2]/div[2]/div[4]/div[1]/ul[1]/li。
将//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li 复制到在火狐浏览器中观察,LI代表列表,LI[1]是指第1个列表,LI[2]是指第2个列表......按照这个规律,20个列表的【固定元素列表】定位XPath为:
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[1]
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[2]
......
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[19]
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[20]
(如果固定元素列表好多,可以借助于Excel批量生成功能,根据数字变化规律,自动生成XPath。)
在优采云中做相应更改。选择循环形式为【固定元素列表】,并将以上XPath复制到文本框中,然后点击【应用】保存。可以看见,定位到页面中的全部20个图片列表。
将【固定元素列表】改为【不固定元素列表】
以上文中的易迅规则为例,观察以上固定元素列表循环中生成的XPath:
//UL[@class="gl-warp clearfix"]/LI[1]/DIV[1]/DIV[4]/A[1]
//UL[@class="gl-warp clearfix"]/LI[2]/DIV[1]/DIV[4]/A[1]
.......
//UL[@class="gl-warp clearfix"]/LI[29]/DIV[1]/DIV[4]/A[1]
//UL[@class="gl-warp clearfix"]/LI[30]/DIV[1]/DIV[4]/A[1]
30条XPath具有相同的特点:只有LI前面的数字不同(不同的数字代表不同的列表,LI[1]是指第1个列表,LI[2]是指第2个列表)。根据这个特点,我们可以写一条通用XPath://UL[@class="gl-warp clearfix"]/LI/DIV[1]/DIV[4]/A[1]。
在优采云中做相应更改。选择循环形式为【不固定元素列表】,并将//UL[@class="gl-warp clearfix"]/LI/DIV[1]/DIV[4]/A[1] 复制到文本框中。可以看见,定位到页面中的全部30个商品链接。 查看全部
通过优采云云采集,可以实现多个任务并发采集,极大提升采集效率。
云采集原理是哪些?什么样的规则可实现云加速?本文将详尽讲解。
一、云采集原理
云采集是指,使用由优采云提供的云服务集群进行数据采集。优采云拥有5000+云服务器,7*24小时不间断运行(一台云服务器可看做一个云节点)。
优采云的采集任务运行在云节点上时:
a. 在满足可分拆的情况下,1个任务最多拆成100个子任务。(3类任务可分拆,下文将详尽讲解)
b.1个任务/子任务需占用一个云节点进行采集。也就是说,1个云节点同时只能运行一个任务/子任务。
c.不同版本的云节点数是不一样的。旗舰版:6-10个动态云节点。旗舰+:8-12个动态云节点。
d. 基于以上信息,可能会出现任务/拆分子任务数>云节点数的情况。如果帐号内的云节点数已被运行中的任务/子任务占满,则新启动的任务/被分拆的子任务会步入等待队列,直到某个任务/子任务采集完成,释放出多余的节点资源,它们就会有节点进行采集。
如何查看任务的子任务分拆和运行情况?
在【我的任务】中找到已运行云采集的任务,点击【详情】,查看当前任务的子任务分拆和运行情况。如图,该任务分拆了30个子任务,其中1个在运行中,29个已完成。
子任务的状态有以下几种:
已分拆:当前任务分拆成了多少个子任务。为1时,表示该任务未进行分拆(任务本身不支持分拆或勾选了云采集不分拆)。大于1时,表示已进行分拆。图中任务分拆成了30个子任务。
等待中:还未运行采集的子任务个数。
运行中:当前正在采集数据的子任务个数。每个任务会占用一个云节点,故所有任务在运行的子任务数之和大于等于帐号节点数。
已完成:已完成采集的子任务个数。
已停止:程序手动停止采集或人为自动停止采集的子任务个数。

如果运行了某个云采集任务,但是仍然没有采集到数据, 可以在子任务状态中查看是否有子任务在运行,如果子任务都是等待中状态,说明该帐号的云节点已被其他任务占满。请等待多余的云节点资源释放下来。
二、云采集加速设置
由云采集原理可知,一个任务要分拆成多个子任务,使用更多的云节点同时运行多个子任务,才能实现加速采集的疗效。
任务假如要分拆成子任务,需满足一定条件。以下三类任务是可以分拆的:
1、URL循环
2、文本循环
3、固定元素循环
1、URL循环
URL循环类的规则,可分拆成多个子任务,同时运行在多个云节点上,实现加速。
当URL数100时,拆分成URL数/100的子任务数(取整数)。例,循环中有30个URL,将被分拆成30个子任务;循环中有278个URL,将被分拆成2个子任务。

示例网址:
.......
等30个易迅商品详情页网址,需要采集每个详情页中的数据。
Step1:建立URL循环

Step2:启动云采集,点击【详情】,可以见到此任务的30条URL,拆分成30个子任务同时采集,加快采集速度

常用场景:当有一个商品/文章列表,需要点击商品/文章链接,进入详情页采集时,我们可以做一个【循环-点击链接-提取详情数据】的规则,在一个任务中依次点击步入详情页采集数据。也可以先采集列表的商品/文章链接,然后使用URL循环,配合云采集将其分拆成多个子任务,分配到多个云节点上同时采集,极大推动采集速度。
示例网址:电子书&enc=utf-8&wq=电子书
先获得列表页商品网址,然后再用上文讲的方式,用URL循环,配合云采集加速采集。获得列表页网址演示如下:

2、文本循环
文本循环类的规则,可分拆成多个子任务,同时运行在多个云节点上,实现加速。
当输入的文本数100时,拆分成输入文本数/100的子任务数。
文本循环分拆原理和URL循环一致,通过对文本循环的分拆,达到加速采集的疗效。具体可见批量输入关键词查询,采集查询结果教程。

3、固定元素列表循环
固定元素列表类的规则,可分拆成多个子任务,同时运行在多个云节点上,实现加速。
当固定元素列表类数100时,拆分成固定元素列表数/100的子任务数。
值得注意的是,【循环-点击元素】类规则,使用【固定元素列表】的循环形式后云分拆,才会有显著加速疗效,如下图所示:
【循环-点击元素】有2种常见采集场景:①点击商品/文章链接步入详情页,采集详情页数据的情况。② 点击条件类链接进行分类采集。

如果是【循环-提取数据】类规则,没有点击步骤,则使用【固定元素列表】的循环形式后云分拆,加速疗效并不显著,如下图所示:

下面讲一个【循环-点击元素】类规则使用【固定元素列表】进行云分拆的实例:
示例网址:%E6%89%8B%E6%9C%BA&enc=utf-8&wq=%E6%89%8B%E6%9C%BA&pvid=e8885bd7095549c19e11ae459702097d
采集需求:点击步入商品详情页,采集每个详情页中的数据。
Step1:建立循环列表,查看手动生成的循环形式。可以看见,循环形式为不固定元素列表循环:使用XPath定位,一条XPath对应循环列表中的一个列表。如图示例中,30条XPath对应30个商品列表。

Step2:启动云采集,点击【详情】,可以见到此任务的30条固定元素列表,拆分成30个子任务,加快采集速度。

【不固定元素列表】为【固定元素列表】的关系
对于【循环-点击元素】类规则,优采云自动生成的循环形式通常为【不固定元素列表】,以便于云上分拆加速。
本质上【不固定元素列表】和【固定元素列表】都是使用XPath进行定位,两者可以互相改写。下面看2个改写实例。
将【不固定元素列表】改为【固定元素列表】
示例网址:%B4%F3%CA%FD%BE%DD、
采集需求:采集页面前20个图片的地址
按照采集列表数据的方式,配置规则。自动生成的循环形式为【不固定元素列表】,定位XPath为://body/div[2]/div[2]/div[4]/div[1]/ul[1]/li。

将//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li 复制到在火狐浏览器中观察,LI代表列表,LI[1]是指第1个列表,LI[2]是指第2个列表......按照这个规律,20个列表的【固定元素列表】定位XPath为:
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[1]
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[2]
......
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[19]
//body/div[2]/div[2]/div[4]/div[1]/ul[1]/li[20]
(如果固定元素列表好多,可以借助于Excel批量生成功能,根据数字变化规律,自动生成XPath。)

在优采云中做相应更改。选择循环形式为【固定元素列表】,并将以上XPath复制到文本框中,然后点击【应用】保存。可以看见,定位到页面中的全部20个图片列表。

将【固定元素列表】改为【不固定元素列表】
以上文中的易迅规则为例,观察以上固定元素列表循环中生成的XPath:
//UL[@class="gl-warp clearfix"]/LI[1]/DIV[1]/DIV[4]/A[1]
//UL[@class="gl-warp clearfix"]/LI[2]/DIV[1]/DIV[4]/A[1]
.......
//UL[@class="gl-warp clearfix"]/LI[29]/DIV[1]/DIV[4]/A[1]
//UL[@class="gl-warp clearfix"]/LI[30]/DIV[1]/DIV[4]/A[1]
30条XPath具有相同的特点:只有LI前面的数字不同(不同的数字代表不同的列表,LI[1]是指第1个列表,LI[2]是指第2个列表)。根据这个特点,我们可以写一条通用XPath://UL[@class="gl-warp clearfix"]/LI/DIV[1]/DIV[4]/A[1]。
在优采云中做相应更改。选择循环形式为【不固定元素列表】,并将//UL[@class="gl-warp clearfix"]/LI/DIV[1]/DIV[4]/A[1] 复制到文本框中。可以看见,定位到页面中的全部30个商品链接。
全手动 自带采集规则 织梦DEDE小说带wap手机版 seo优化 收录快 百度相
采集交流 • 优采云 发表了文章 • 0 个评论 • 334 次浏览 • 2020-08-12 21:55
不接受任何退票,不同意切勿拍
1、网站源码类型:整站网站源码
2、环境要求:PHP5.2/5.3/5.4/5.5+MYSQL5(URLrewrite)
3、服务器要求:建议用40G数据盘以上的VPS或则独立服务器,系统建议用Windows而不建议用Linux,99%的小说网站源码站服务器是用Windows系统,方便文件管理以及备份等(目前演示站空间使用情况:6.5G数据库+5G网页空间,经群内站友网站证实:4核CPU+4G显存的xen构架VPS能承受日5万IP、50万PV流量毫无压力,每天收入700元以上)
4、原创程序:织梦DEDECMS 5.7SP1
5、编码类型:GBK
6、可否采集:全手动采集,赠送三条规则
7、其他特征:
(1)自动生成首页、分类、目录、作者、排行榜、sitemap页面静态html。
(2)全站拼音目录化(可自定义URL格式),章节页面伪静态。
(3)支持下载功能,可以手动生成对应文本文件,可在文件中设置广告。
(4)自动生成关键词及关键词手动内链。
(5)自动伪原创成语替换(采集、输出时都可以替换)。
(6)配合CNZZ的统计插件,能便捷实现下载明细统计和被采集的明细统计等。
(7)本程序的手动采集并非市面上常见的优采云、关关、采集侠等,而是在DEDE原有采集功能的基础上二次开发的采集模块,可以有效的保证章节内容的完整性,避免章节重复、章节内容无内容、章节乱码等;一天24小时采集量能达到25~30万章节。
网页版截图:
手机WAP截图: 查看全部
傻瓜式安装 全手动采集 一次安装受惠终生
不接受任何退票,不同意切勿拍
1、网站源码类型:整站网站源码
2、环境要求:PHP5.2/5.3/5.4/5.5+MYSQL5(URLrewrite)
3、服务器要求:建议用40G数据盘以上的VPS或则独立服务器,系统建议用Windows而不建议用Linux,99%的小说网站源码站服务器是用Windows系统,方便文件管理以及备份等(目前演示站空间使用情况:6.5G数据库+5G网页空间,经群内站友网站证实:4核CPU+4G显存的xen构架VPS能承受日5万IP、50万PV流量毫无压力,每天收入700元以上)
4、原创程序:织梦DEDECMS 5.7SP1
5、编码类型:GBK
6、可否采集:全手动采集,赠送三条规则
7、其他特征:
(1)自动生成首页、分类、目录、作者、排行榜、sitemap页面静态html。
(2)全站拼音目录化(可自定义URL格式),章节页面伪静态。
(3)支持下载功能,可以手动生成对应文本文件,可在文件中设置广告。
(4)自动生成关键词及关键词手动内链。
(5)自动伪原创成语替换(采集、输出时都可以替换)。
(6)配合CNZZ的统计插件,能便捷实现下载明细统计和被采集的明细统计等。
(7)本程序的手动采集并非市面上常见的优采云、关关、采集侠等,而是在DEDE原有采集功能的基础上二次开发的采集模块,可以有效的保证章节内容的完整性,避免章节重复、章节内容无内容、章节乱码等;一天24小时采集量能达到25~30万章节。
网页版截图:
手机WAP截图:
有货iOS数据非侵入式手动采集探索实践
采集交流 • 优采云 发表了文章 • 0 个评论 • 377 次浏览 • 2020-08-12 14:37
\\
有货APP团队因此开发一套数据采集的SDK,主要的功能如下:
\\页面访问流。用户在使用APP期间浏览了什么页面。\\t浏览数据爆光。用户在某个页面上浏览了什么商品。\\t业务数据手动采集。用户在使用APP期间点击了什么位置,触发了什么操作。\\t性能数据手动采集。用户使用APP期间,页面加载时长是多少,图片加载时长多少,网络恳求时长多少等。\
此外,所有的数据采集要自动化,无侵入,即不需要人工埋点,集成SDK即可使用,不改动或尽量少改动原有代码。
\\
基于以上需求,AOP是技术方案的最佳选择,而iOS上实现AOP则须要借助Objective-C中runtime的黑魔法--Method Swizzle实现。漫漫的踩坑填坑的旅程由此开端,接下来我们一一尝尝实现思路和技巧吧。
\\页面访问流\\
用户访问页面统计须要解决的问题有两个:
\\统计风波切入点,即何时统计。\\t统计数据数组,即统计什么数据。\
整体流程如下图:
\\
\\统计风波切入点\\
用户访问页面统计的通常思路是在View Controller生命周期方式:
\\
即可得出用户访问页面路径,两个风波时间戳之差即为用户在页面逗留的时间。
\\
通常我们APP中的View Controller就会承继自某个泛型,我们在泛型的对应方式中进行统计即可,然而对于没有从泛型承继的View Controller就无能为力了。
\\
借助于AOP,我们可以更高贵的完成这项工作:在UIViewController的load方式里swizzle viewDidAppear和viewDidDisappear方式,原有代码无需改动。
\\统计数据数组\\
根据数据需求,设置了如下的统计数组:
\\
页面步入和退出的风波,均上报上述的数据结构。
\\
其中还有几个问题是须要考虑的:
\\1.PAGE_ID和SOURCE_ID怎样定义\\
因为须要统一iOS和Android的PAGE_ID,所以须要做配置下发。iOS端领到的是一份plist的文件,文件的key的View Controller的类名的字符串表示,value则是PAGE_ID。
\\2.PAGE_ID和SOURCE_ID怎么获取\\
PAGE_ID直接按照当前View Controller的class即可取到,SOURCE_ID稍显复杂,需要按照APP页面嵌套堆栈结构来确认具体的获取方式,通常是从UINavigationController的导航栈中取前一个View Controller的page id即可。
\\
至此,页面访问流统计已基本完成,根据页面步入退出的PAGE_ID和SOURCE_ID串出一条完整的用户浏览路径,并得出用户在每位页面的逗留时间。
\\浏览数据爆光\\
采集到用户的浏览路径,以及在每位页面的逗留时间后,在个别特定的页面,如首页、商品列表页面,我们还想晓得用户在页面上滑动了几屏,看了什么活动、商品,以便于更好的为用户推荐喜欢的商品。
\\
用户听到的屏幕上的一块区域,认为是资源位,那么用户听到的内容是由一个个资源位组成。那么爆光的含意如下:
\\
我们晓得iOS中页面元素的基本组成单位是view,因此我们只须要判定view是否在可视区域,即可知悉当前view上的资源位是否须要爆光,从而作出相应的爆光操作,采集数据,上报插口等。
\\
由以上的剖析可知,待解决的问题主要有两个:
\\view的可见性判断\\tview爆光数据采集\view的可见性判断\\
查询UIView Class Reference可以看见setFrame:和layoutSubivews方式,可用于设置subview的frame。每次view fame更新均会调用此方式。因此,我们可以通过runtime swizzle此方式实现,添加一些数据采集相关的操作。
\\
我们为UIView添加了以下属性:
\\
首先明晰下几个术语的定义和规则:
\\
1.view的subview可见须要同时满足的3个条件:
\\
反之,只要以上任何一个条件不满足,我们就觉得此subview当前是不可见的。
\\
2.设置view为可见
\\
3.设置view为不可见
\\
Swzzile setFrame:,执行以下操作:
\\
\\
Swzzile layoutSubivews,调用yh_updateVisibleSubViews方式,其中执行以下操作:
\\
\\
经过以上的那些操作,我们能够晓得某个view及其subview的是否可见。
\\view爆光数据采集\\
为了取到view对应的数据,同样为UIView添加了以下属性:
\\
那么还有两个问题存在:
\\view爆光数据的细度\\tview及其subview的节点的爆光数据组装时机\
view爆光数据的细度
\\
根据项目中的实践经验,一般以UITableViewCell或则UI采集ViewCell为最小细度。同时,在最末节点的yh_exposureData字典中,增加一个key:isEnd,用来标示是否早已是最末的节点。
\\
view及其subview的爆光数据组装时机
\\
一般是在最末节点的可见性变化时,由下向下的遍历最末节点的superview,组装所有数据。
\\
因此我们覆写了setYh_viewVisible:的方式,即yh_viewVisible的set技巧。执行以下操作:
\\
至此,我们早已解决了view的可见性判定和爆光数据采集的问题。数据上报及策略不在赘言。
\\
此方案有几个缺点
\\需要自动设置爆光数据。\\t须要在合适时机手工调用view.yh_viewVisible触发数据采集,如viewdidappear等。\\t须要消耗一定的资源进行可视区域估算和爆光数据采集。\
还有两个问题是值得注意的:
\\UITableView在setBounds:时会对view的frame导致改变,因此须要swizzle setBounds:方法,需要在设置bounds后,调用[self yh_updateVisibleSubViews];\\tUIScrollView在setContentInset:时会影响view的可见区域,因此须要swizzle setContentInset:方法,需要在设置contentInset后,调用self.yh_viewVisibleRect = UIEdgeInsetsInsetRect(self.frame, contentInset);\业务数据手动采集\\
业务数据手动采集即业界流行的无埋点数据采集。
\\
传统的客户端用户点击数据采集是基于手工埋点的,对那个位置的数据感兴趣,就在这打个点,用户操作以后,随即触发数据上报。手工埋点的缺点很明显:错埋、漏埋。新版本发布后,经常有数据部门的小伙伴来反馈说,某某点位没有上报,某某点位上报错误的问题,开发的朋友也苦不堪言。
\\
无埋点数据采集带来了新的改变。首先基本上避开了手工埋点,个别情况须要特殊处理。其次由选择性的采集数据,变成了全量采集用户的所有点击触摸数据。
\\
新的改变也会带来新的挑战,无埋点数据采集的成为现实的可能性依然是基于Objective-C的runtime特点。实践过程中,思路上我们借鉴了iOS无埋点数据SDK的整体设计与技术实现,实现上借鉴了Sensors Analytics iOS SDK和Mixpanel iPhone。接下来,结合具体实践,介绍下我们的实现思路和遇见的一些问题。主要分以下三方面:
\\自动采集的点位怎么确保唯一性。\\t不同的点位类型,需要swizzle什么方式。\\tswizzle过程中踩到的坑。\自动采集的点位怎么确保唯一性\\
自动采集脱离了手工埋点,因此也没了点位的惟一标示。那我们要如何惟一定位到手动采集的点位呢?很容易想到的一个方案是:基于页面view的树状结构。此方案可以分解为两个问题:
\\view惟一标示怎样定义。\\tview惟一标示怎样生成。\
view惟一标示(view path)的定义
\\
我们规定,一个典型的view path如下:
\\
\ViewController[0]/UIView[0]/UITableView[0]/UITableViewCell[0:2]/UIButton[0]
\\
其中:
\\通过此标示可以在当前页面view树状结构中惟一的确定此元素。\\t标示的每一项由两部份组成:一是当前元素的class的字符串表示,二是当前元素在同级元素中的序号,自0开始估算。如当前第二个UIImageView,则是UIImageView1。\\t标示不同项之间以/拼接。\\t标示的最顶楼是当前view所在的ViewController。\\t对于UITableViewCell和UI采集ViewCell及类似的自定义组件,序号部份由两部份组成:section和row,并以:拼接。\\t标示的最末端是当前被点击或触摸的元素。\
view惟一标示怎样生成
\\
view path生成过程:由触发操作的最末端元素向下查询,一直查到ViewController为止。假设当前点击view为A_View,从当前的A_View入手遍历view树,每一级的数据存入P_Array中,过程如下:
\\
\\如果A_View是UI采集ViewCell类型,获取A_View所处UI采集View的indexPath,P_Array push路径信息[NSString stringWithFormat:@\"%@[%ld:%ld]\ 查看全部
随着有货APP的不断迭代开发,数据和业务部门对于客户端用户行为数据的需求越来越多;为了更好的监控APP使用的状况,客户端团队对于APP自身的运行的数据需求也日渐急迫。迫切地须要一套客户端数据采集的工具,自动、全量采集用户行为数据,满足各个部门对于数据的需求。
\\
有货APP团队因此开发一套数据采集的SDK,主要的功能如下:
\\页面访问流。用户在使用APP期间浏览了什么页面。\\t浏览数据爆光。用户在某个页面上浏览了什么商品。\\t业务数据手动采集。用户在使用APP期间点击了什么位置,触发了什么操作。\\t性能数据手动采集。用户使用APP期间,页面加载时长是多少,图片加载时长多少,网络恳求时长多少等。\
此外,所有的数据采集要自动化,无侵入,即不需要人工埋点,集成SDK即可使用,不改动或尽量少改动原有代码。
\\
基于以上需求,AOP是技术方案的最佳选择,而iOS上实现AOP则须要借助Objective-C中runtime的黑魔法--Method Swizzle实现。漫漫的踩坑填坑的旅程由此开端,接下来我们一一尝尝实现思路和技巧吧。
\\页面访问流\\
用户访问页面统计须要解决的问题有两个:
\\统计风波切入点,即何时统计。\\t统计数据数组,即统计什么数据。\
整体流程如下图:
\\

\\统计风波切入点\\
用户访问页面统计的通常思路是在View Controller生命周期方式:
\\
即可得出用户访问页面路径,两个风波时间戳之差即为用户在页面逗留的时间。
\\
通常我们APP中的View Controller就会承继自某个泛型,我们在泛型的对应方式中进行统计即可,然而对于没有从泛型承继的View Controller就无能为力了。
\\
借助于AOP,我们可以更高贵的完成这项工作:在UIViewController的load方式里swizzle viewDidAppear和viewDidDisappear方式,原有代码无需改动。
\\统计数据数组\\
根据数据需求,设置了如下的统计数组:
\\
页面步入和退出的风波,均上报上述的数据结构。
\\
其中还有几个问题是须要考虑的:
\\1.PAGE_ID和SOURCE_ID怎样定义\\
因为须要统一iOS和Android的PAGE_ID,所以须要做配置下发。iOS端领到的是一份plist的文件,文件的key的View Controller的类名的字符串表示,value则是PAGE_ID。
\\2.PAGE_ID和SOURCE_ID怎么获取\\
PAGE_ID直接按照当前View Controller的class即可取到,SOURCE_ID稍显复杂,需要按照APP页面嵌套堆栈结构来确认具体的获取方式,通常是从UINavigationController的导航栈中取前一个View Controller的page id即可。
\\
至此,页面访问流统计已基本完成,根据页面步入退出的PAGE_ID和SOURCE_ID串出一条完整的用户浏览路径,并得出用户在每位页面的逗留时间。
\\浏览数据爆光\\
采集到用户的浏览路径,以及在每位页面的逗留时间后,在个别特定的页面,如首页、商品列表页面,我们还想晓得用户在页面上滑动了几屏,看了什么活动、商品,以便于更好的为用户推荐喜欢的商品。
\\
用户听到的屏幕上的一块区域,认为是资源位,那么用户听到的内容是由一个个资源位组成。那么爆光的含意如下:
\\
我们晓得iOS中页面元素的基本组成单位是view,因此我们只须要判定view是否在可视区域,即可知悉当前view上的资源位是否须要爆光,从而作出相应的爆光操作,采集数据,上报插口等。
\\
由以上的剖析可知,待解决的问题主要有两个:
\\view的可见性判断\\tview爆光数据采集\view的可见性判断\\
查询UIView Class Reference可以看见setFrame:和layoutSubivews方式,可用于设置subview的frame。每次view fame更新均会调用此方式。因此,我们可以通过runtime swizzle此方式实现,添加一些数据采集相关的操作。
\\
我们为UIView添加了以下属性:
\\
首先明晰下几个术语的定义和规则:
\\
1.view的subview可见须要同时满足的3个条件:
\\
反之,只要以上任何一个条件不满足,我们就觉得此subview当前是不可见的。
\\
2.设置view为可见
\\
3.设置view为不可见
\\
Swzzile setFrame:,执行以下操作:
\\

\\
Swzzile layoutSubivews,调用yh_updateVisibleSubViews方式,其中执行以下操作:
\\

\\
经过以上的那些操作,我们能够晓得某个view及其subview的是否可见。
\\view爆光数据采集\\
为了取到view对应的数据,同样为UIView添加了以下属性:
\\
那么还有两个问题存在:
\\view爆光数据的细度\\tview及其subview的节点的爆光数据组装时机\
view爆光数据的细度
\\
根据项目中的实践经验,一般以UITableViewCell或则UI采集ViewCell为最小细度。同时,在最末节点的yh_exposureData字典中,增加一个key:isEnd,用来标示是否早已是最末的节点。
\\
view及其subview的爆光数据组装时机
\\
一般是在最末节点的可见性变化时,由下向下的遍历最末节点的superview,组装所有数据。
\\
因此我们覆写了setYh_viewVisible:的方式,即yh_viewVisible的set技巧。执行以下操作:
\\
至此,我们早已解决了view的可见性判定和爆光数据采集的问题。数据上报及策略不在赘言。
\\
此方案有几个缺点
\\需要自动设置爆光数据。\\t须要在合适时机手工调用view.yh_viewVisible触发数据采集,如viewdidappear等。\\t须要消耗一定的资源进行可视区域估算和爆光数据采集。\
还有两个问题是值得注意的:
\\UITableView在setBounds:时会对view的frame导致改变,因此须要swizzle setBounds:方法,需要在设置bounds后,调用[self yh_updateVisibleSubViews];\\tUIScrollView在setContentInset:时会影响view的可见区域,因此须要swizzle setContentInset:方法,需要在设置contentInset后,调用self.yh_viewVisibleRect = UIEdgeInsetsInsetRect(self.frame, contentInset);\业务数据手动采集\\
业务数据手动采集即业界流行的无埋点数据采集。
\\
传统的客户端用户点击数据采集是基于手工埋点的,对那个位置的数据感兴趣,就在这打个点,用户操作以后,随即触发数据上报。手工埋点的缺点很明显:错埋、漏埋。新版本发布后,经常有数据部门的小伙伴来反馈说,某某点位没有上报,某某点位上报错误的问题,开发的朋友也苦不堪言。
\\
无埋点数据采集带来了新的改变。首先基本上避开了手工埋点,个别情况须要特殊处理。其次由选择性的采集数据,变成了全量采集用户的所有点击触摸数据。
\\
新的改变也会带来新的挑战,无埋点数据采集的成为现实的可能性依然是基于Objective-C的runtime特点。实践过程中,思路上我们借鉴了iOS无埋点数据SDK的整体设计与技术实现,实现上借鉴了Sensors Analytics iOS SDK和Mixpanel iPhone。接下来,结合具体实践,介绍下我们的实现思路和遇见的一些问题。主要分以下三方面:
\\自动采集的点位怎么确保唯一性。\\t不同的点位类型,需要swizzle什么方式。\\tswizzle过程中踩到的坑。\自动采集的点位怎么确保唯一性\\
自动采集脱离了手工埋点,因此也没了点位的惟一标示。那我们要如何惟一定位到手动采集的点位呢?很容易想到的一个方案是:基于页面view的树状结构。此方案可以分解为两个问题:
\\view惟一标示怎样定义。\\tview惟一标示怎样生成。\
view惟一标示(view path)的定义
\\
我们规定,一个典型的view path如下:
\\
\ViewController[0]/UIView[0]/UITableView[0]/UITableViewCell[0:2]/UIButton[0]
\\
其中:
\\通过此标示可以在当前页面view树状结构中惟一的确定此元素。\\t标示的每一项由两部份组成:一是当前元素的class的字符串表示,二是当前元素在同级元素中的序号,自0开始估算。如当前第二个UIImageView,则是UIImageView1。\\t标示不同项之间以/拼接。\\t标示的最顶楼是当前view所在的ViewController。\\t对于UITableViewCell和UI采集ViewCell及类似的自定义组件,序号部份由两部份组成:section和row,并以:拼接。\\t标示的最末端是当前被点击或触摸的元素。\
view惟一标示怎样生成
\\
view path生成过程:由触发操作的最末端元素向下查询,一直查到ViewController为止。假设当前点击view为A_View,从当前的A_View入手遍历view树,每一级的数据存入P_Array中,过程如下:
\\

\\如果A_View是UI采集ViewCell类型,获取A_View所处UI采集View的indexPath,P_Array push路径信息[NSString stringWithFormat:@\"%@[%ld:%ld]\
[原创插件]wordpress采集插件,自动辨识标题与正文,无规则化
采集交流 • 优采云 发表了文章 • 0 个评论 • 356 次浏览 • 2020-08-12 07:21
wordpress 20分钟快速搭建中等规模技术类网站,采集演示:
虚拟站长特色功能一览
无规则采集
无需填写任何规则即可采集,智能模块会手动提取标题与正文
伪原创化
多种伪原创插件使采集来的文章更象原创,增加索引量
实时全文翻译
将网页直接翻译成其他语言,不限字数、不限流量
离线定时发布
指定固定或随机间隔时间,即使死机了也能定时发布
实时网页监控
实时监控指定网页变化,一有更新立刻采集
微信公众号
可以采集微信公众号文章、同样不需要配置规则哦
搜狗博客
根据关键词手动搜索搜狗博客,启动智能采集直接采集
随手采
支持任意一款浏览器,直接选中要采集的文章可智能剖析提取
缩略图生成
自动查找文章中最佳图片生成缩略图并上传到对应站点
搜狗搜索
根据关键词手动搜索搜狗搜索,启动智能采集直接采集
好搜
根据关键词手动从好搜搜索,启动智能采集直接采集
百度新闻
根据关键词手动从百度新闻搜索,启动智能采集直接采集
百度搜索
根据关键词手动从百度搜索,启动智能采集直接采集
Bing
根据关键词手动从Bing搜索,启动智能采集直接采集
近义词替换
可将采集到的文章从反义词字典中手动匹配并替换反义词
简繁转换
支持将采集到的文章自动进行简简体互转
全角全角转换
支持将采集到的文章进行半角/半角符号的相互转换
无序采集
打乱采集顺序,欺骗搜索引擎
响应式加工
可以手动将采集来的文章加工成PC、手机、平板都适应的格式
图片下载
自动下载网页中的图片并手动更改src值
图片上传
自动上传文章中对应的图片到网站服务器
W3C检查
自动检查采集到的文章,如果不符合标准可主动舍弃
防重复采集
同一站点不会重复采集相同地址URL,节省程序、流量开支
防重复发布
即使从不同的网站上采集到相同的文章也不会被重复发布
TAG匹配
自动检查采集到的文章并手动匹配已有的TAG标签
草稿
可以将采集到的文章发布成草稿,方便事后手工更改再发布
审核
可以将采集到的文章发布为须要初审,方便二次初审
正序、倒序
倒序是指倒着采,与被采集站一样的发布次序,正序则想反
多线程
特别优化的多线程、同时运行上百个任务也不会占用资源
More标签
自动剖析采集到的文章并加入wordpress的More标签
HTML编辑器
内置可视化的HTML编辑器、修改文章更方便
多站点
可以同时联接多个网站、采集管理更有效率
可视化配置
可视化选定界面、直接在网页中点选提取部份、操作更容易
自动辨识站点
只需输入FTP帐号密码即可手动辨识站点所有配置信息
SEO过滤
匹配指定关键词,如不符合SEO密度要求(2%~10%)可手动抛弃
API
提供丰富的API支持,功能扩充更方便 查看全部
官网:
wordpress 20分钟快速搭建中等规模技术类网站,采集演示:
虚拟站长特色功能一览
无规则采集
无需填写任何规则即可采集,智能模块会手动提取标题与正文
伪原创化
多种伪原创插件使采集来的文章更象原创,增加索引量
实时全文翻译
将网页直接翻译成其他语言,不限字数、不限流量
离线定时发布
指定固定或随机间隔时间,即使死机了也能定时发布
实时网页监控
实时监控指定网页变化,一有更新立刻采集
微信公众号
可以采集微信公众号文章、同样不需要配置规则哦
搜狗博客
根据关键词手动搜索搜狗博客,启动智能采集直接采集
随手采
支持任意一款浏览器,直接选中要采集的文章可智能剖析提取
缩略图生成
自动查找文章中最佳图片生成缩略图并上传到对应站点
搜狗搜索
根据关键词手动搜索搜狗搜索,启动智能采集直接采集
好搜
根据关键词手动从好搜搜索,启动智能采集直接采集
百度新闻
根据关键词手动从百度新闻搜索,启动智能采集直接采集
百度搜索
根据关键词手动从百度搜索,启动智能采集直接采集
Bing
根据关键词手动从Bing搜索,启动智能采集直接采集
近义词替换
可将采集到的文章从反义词字典中手动匹配并替换反义词
简繁转换
支持将采集到的文章自动进行简简体互转
全角全角转换
支持将采集到的文章进行半角/半角符号的相互转换
无序采集
打乱采集顺序,欺骗搜索引擎
响应式加工
可以手动将采集来的文章加工成PC、手机、平板都适应的格式
图片下载
自动下载网页中的图片并手动更改src值
图片上传
自动上传文章中对应的图片到网站服务器
W3C检查
自动检查采集到的文章,如果不符合标准可主动舍弃
防重复采集
同一站点不会重复采集相同地址URL,节省程序、流量开支
防重复发布
即使从不同的网站上采集到相同的文章也不会被重复发布
TAG匹配
自动检查采集到的文章并手动匹配已有的TAG标签
草稿
可以将采集到的文章发布成草稿,方便事后手工更改再发布
审核
可以将采集到的文章发布为须要初审,方便二次初审
正序、倒序
倒序是指倒着采,与被采集站一样的发布次序,正序则想反
多线程
特别优化的多线程、同时运行上百个任务也不会占用资源
More标签
自动剖析采集到的文章并加入wordpress的More标签
HTML编辑器
内置可视化的HTML编辑器、修改文章更方便
多站点
可以同时联接多个网站、采集管理更有效率
可视化配置
可视化选定界面、直接在网页中点选提取部份、操作更容易
自动辨识站点
只需输入FTP帐号密码即可手动辨识站点所有配置信息
SEO过滤
匹配指定关键词,如不符合SEO密度要求(2%~10%)可手动抛弃
API
提供丰富的API支持,功能扩充更方便
中华小说网手动采集,PC+微信+APP转码+txt下载,自动生成
采集交流 • 优采云 发表了文章 • 0 个评论 • 411 次浏览 • 2020-08-12 07:19
服务器目前只支持 php+apache
如果您是php+Nginx 请自行更改伪静态规则
或更换服务器运行环境.否则不可用.
本源码无APP软件.标题所写APP是支持其他小说APP平台转码阅读.
做小说站的都晓得.运营APP成本偏高.制作一个APP最低亿元.但将自己的网站链接到其他已成熟营运的小说站是最为方便廉价的方法.本源码支持其他APP软件转码.
自带演示采集规则.但部份早已过期
采集规则请自己编撰.本店本软件不提供采集规则
全手动采集一次安装受惠终生
1、源码类型:整站源码
2、环境要求:PHP5.2/5.3/5.4/5.5+MYSQL5(.Htaccess伪静态)
3、服务器要求:建议用40G数据盘以上的VPS或则独立服务器,系统建议用Windows而不建议用LNMP,99%的小说站服务器是用Windows系统,方便文件管理以及备份等(目前演示站空间使用情况:6.5G数据库+5G网页空间,经群内站友网站证实:4核CPU+4G显存的xen构架VPS能承受日5万IP、50万PV流量毫无压力,每天收入700元以上)
4、原创程序:织梦DEDECMS 5.7SP1
5、编码类型:GBK
6、可否采集:全手动采集 (如果自带的规则失效,或者采集目标站做了屏蔽,请找人写规则哦,本店不负责规则的有效性)
7、其他特征:
(1)自动生成首页、分类、目录、作者、排行榜、sitemap页面静态html。
(2)全站拼音目录化(可自定义URL格式),章节页面伪静态。
(3)支持下载功能,可以手动生成对应文本文件,可在文件中设置广告。
(4)自动生成关键词及关键词手动内链。
(5)自动伪原创成语替换(采集、输出时都可以替换)。
(6)配合CNZZ的统计插件,能便捷实现下载明细统计和被采集的明细统计等。
(7)本程序的手动采集并非市面上常见的优采云、关关、采集侠等,而是在DEDE原有采集功能的基础上二次开发的采集模块,可以有效的保证章节内容的完整性,避免章节重复、章节内容无内容、章节乱码等;一天24小时采集量能达到25~30万章节。
(8)安装比较简单,如果安装后打开网址仍然是手机版,请到系统设置- 找到移动端改成 自己的移动端独立域名
百度已收录 查看全部
本源码已开启了伪静态规则 服务器必须支持伪静态
服务器目前只支持 php+apache
如果您是php+Nginx 请自行更改伪静态规则
或更换服务器运行环境.否则不可用.
本源码无APP软件.标题所写APP是支持其他小说APP平台转码阅读.
做小说站的都晓得.运营APP成本偏高.制作一个APP最低亿元.但将自己的网站链接到其他已成熟营运的小说站是最为方便廉价的方法.本源码支持其他APP软件转码.
自带演示采集规则.但部份早已过期
采集规则请自己编撰.本店本软件不提供采集规则
全手动采集一次安装受惠终生
1、源码类型:整站源码
2、环境要求:PHP5.2/5.3/5.4/5.5+MYSQL5(.Htaccess伪静态)
3、服务器要求:建议用40G数据盘以上的VPS或则独立服务器,系统建议用Windows而不建议用LNMP,99%的小说站服务器是用Windows系统,方便文件管理以及备份等(目前演示站空间使用情况:6.5G数据库+5G网页空间,经群内站友网站证实:4核CPU+4G显存的xen构架VPS能承受日5万IP、50万PV流量毫无压力,每天收入700元以上)
4、原创程序:织梦DEDECMS 5.7SP1
5、编码类型:GBK
6、可否采集:全手动采集 (如果自带的规则失效,或者采集目标站做了屏蔽,请找人写规则哦,本店不负责规则的有效性)
7、其他特征:
(1)自动生成首页、分类、目录、作者、排行榜、sitemap页面静态html。
(2)全站拼音目录化(可自定义URL格式),章节页面伪静态。
(3)支持下载功能,可以手动生成对应文本文件,可在文件中设置广告。
(4)自动生成关键词及关键词手动内链。
(5)自动伪原创成语替换(采集、输出时都可以替换)。
(6)配合CNZZ的统计插件,能便捷实现下载明细统计和被采集的明细统计等。
(7)本程序的手动采集并非市面上常见的优采云、关关、采集侠等,而是在DEDE原有采集功能的基础上二次开发的采集模块,可以有效的保证章节内容的完整性,避免章节重复、章节内容无内容、章节乱码等;一天24小时采集量能达到25~30万章节。
(8)安装比较简单,如果安装后打开网址仍然是手机版,请到系统设置- 找到移动端改成 自己的移动端独立域名

百度已收录
每日新闻资讯采集插件30个分类
采集交流 • 优采云 发表了文章 • 0 个评论 • 645 次浏览 • 2020-08-11 13:25
此插件可通过天人官方采集平台中转,来获取新闻资讯的30多种分类下每晚更新的文章(旧文章不采集),也就是说可以获取全网海量实时更新的最新的文章。可配合手动采集插件实现全自动免维护更新网站的功能。
说在上面:
此类采集规则插件,耗费我们很大的服务器资源和成本,所以插件须要每年续费使用。授权套餐2及以上用户,授权中的任意一个域名,自安装此插件起免费使用一年,以后每年只需五折即可持续使用此插件。
未订购授权用户或授权等级高于套餐2的用户,需要单独原价订购及续费使用。
授权用户,只需五折续费一个已使用的价钱最高的采集规则插件,用户所有授权下网站均可免费使用全部采集规则插件。比如每年只须要续费一款99元的采集规则插件,半价就是49.5元,所有的网站都可以继续免费使用所有99元及以下的采集规则插件一年。
使用方式:
安装以后,在网站后台--采集管理--规则管理中,可以点击某条规则后面的采集按钮进行单独采集,也可以多选进行采集。
编辑方式:
安装以后,在网站后台--采集管理--规则管理中,会听到多条采集规则。这些采集规则的归属栏目都默认为您网站id为1的栏目,默认设置为保存远程图片到您的服务器上。所以请依照实际情况将采集规则归属栏目设置为其它的栏目,方法:网站后台--采集管理--规则管理--点击某条采集规则后面的“编辑”按钮--所属分类--选择您的分类--点击下一步即可保存当前页面的设置。
如果不想在采集时保存远程图片到您的服务器,方法:网站后台--采集管理--规则管理--点击某条采集规则后面的“编辑”按钮--新闻设置--保存图片--取消勾选--点击下一步即可保存当前页面的设置。
设置默认固定的作者名,方法:网址后台--采集管理-规则管理--点击某条采集规则后面的“编辑”按钮--下一步--下一步--作者设置--填写固定的字符就可以。
采集之后的数据如何发布到网站中?方法:网站后台--采集管理--数据入库,可在此选择入库所有内容或勾选部份内容入库,也可删掉全部内容或删掉部份勾选的内容。
为什么采集之后,再采集部分内容会提示重复?因为:防止重复采集浪费不必要的时间与资源,如果想重新采集已经采集过的数据,请到网站后台--采集管理--历史记录,可在此删掉历史记录也可有选择性的删掉“成功的记录”、“失败的记录”、“失效的记录”,在浏览器内部页面底部的标题栏中进行筛选。
常见问题:
安装的采集规则可以更改么?
答:“目标网页编码”、“远程列表URL”不能更改,其他内容请慎重更改,否则容易未能采集。
为什么采集的时侯,提示“服务器资源有限,无法直接浏览该文章,请安装或升级采集插件批量采集即可。”?
答:1、“目标网页编码”、“远程列表URL”不能更改,其他内容请慎重更改,否则容易未能采集。。2、检查您所登陆后台的域名是否获取了采集规则插件的注册码。3、请直接进行采集,不要点测试按键,测试的时侯才会有此提示。正常采集就可以了。4、请使用你安装此插件时使用的域名来登入后台进行采集。
此插件的优势:
自动采集平台上每日更新的内容,并且所有的内容均手动完成排版,无需重新编辑。
天人系列管理系统的所有系统均可使用,并且手动匹配按键款式。
此插件不是手动采集插件,需要点击一下按键触发批量采集
安装流程
点击里面的立刻安装按键(如下图):
等1分钟以后会出现“正在加载”的红色背景黄色字体页面(如下图)
然后又等一会页面会弄成红色背景红色字体的“天人系列管理系统项目手动布署工具”(如下图)
如果页面中的权限检查全部通过,如果没有出现白色字体的“无法读”“无法写”“无法删除”字样,就会手动安装,等几分钟,会提示安装完毕,不要关掉页面,8秒后会跳转到官网获取注册码,然后就可以使用此应用了。
获取注册码页面,点击按键“生成注册码”即可(如下图)
这时系统都会手动按照您的域名生成注册码了(如下图)
值得一的是,注册码不需要单独的填写到网站中,你所安装的应用会手动获取注册码,你刷新一下刚才提示须要注册码的页面看是不是可以正常使用了。
常见问题
Q:免费的应用为什么要获取注册码,需要付费么?
A:注册码是为了激活您所安装的插件,不需要付费,在下一步的页面中输入网站的一级域名即可手动生成注册码,注册码是按照一级域名生成的,更换域名后重新获取注册码即可,并不会象他人的网站程序或插件那样更换域名程序就废黜了。另外值得一提的是,一般情况下注册码并不需要自动输入到你的后台中,在后台更新缓存都会手动获取到所有你已然获得的注册码,很方便快捷。
Q:付费的应用怎样获取注册码?
A:付费的应用须要使用现金订购注册码,按照页面的提示点击“获取注册码”按钮,然后到付款页面支付相应的金额以后还会手动生成注册码了。
Q:注册码须要我单独保存么?丢了如何办?怎么在我的网站输入注册码?
A:注册码通常不需要您单独保存的,因为获取过注册码的域名就会手动保存到官网的数据库中,同时您的网站会手动从官网获取注册码,即使注册码遗失的话,只要在后台更新一下缓存都会立刻寻回你的注册码,当然假如你乐意自动输入注册码的话,可以在后台“注册码管理”中输入注册码,效果与更新缓存获取到的注册码一样。
Q:我的注册码会不会被他人窃取?
A:注册码是按照您网站的一级域名生成的,每个网站的域名在这个世界上都是独一无二的,所以注册码也是独一无二的,别人是未能窃取你的注册码的。
Q:没有通过我网站后台应用中心下载的应用该怎么获取注册码?
A:获取注册码可以在你网站后台“我的应用”或“我的模板”中找到刚才安装的应用或模板对应的“点击查看”按钮,跳转到官网(如下图)
跳转到官网应用对应的详情页面后,在黑色字体“您的一级域名”中填入您的域名,不填写1级域名也可以的,系统会手动设置为1级域名,然后点击“获取注册码”按钮,按照提示进行操作即可。(如下图) 查看全部
详细介绍
此插件可通过天人官方采集平台中转,来获取新闻资讯的30多种分类下每晚更新的文章(旧文章不采集),也就是说可以获取全网海量实时更新的最新的文章。可配合手动采集插件实现全自动免维护更新网站的功能。
说在上面:
此类采集规则插件,耗费我们很大的服务器资源和成本,所以插件须要每年续费使用。授权套餐2及以上用户,授权中的任意一个域名,自安装此插件起免费使用一年,以后每年只需五折即可持续使用此插件。
未订购授权用户或授权等级高于套餐2的用户,需要单独原价订购及续费使用。
授权用户,只需五折续费一个已使用的价钱最高的采集规则插件,用户所有授权下网站均可免费使用全部采集规则插件。比如每年只须要续费一款99元的采集规则插件,半价就是49.5元,所有的网站都可以继续免费使用所有99元及以下的采集规则插件一年。
使用方式:
安装以后,在网站后台--采集管理--规则管理中,可以点击某条规则后面的采集按钮进行单独采集,也可以多选进行采集。
编辑方式:
安装以后,在网站后台--采集管理--规则管理中,会听到多条采集规则。这些采集规则的归属栏目都默认为您网站id为1的栏目,默认设置为保存远程图片到您的服务器上。所以请依照实际情况将采集规则归属栏目设置为其它的栏目,方法:网站后台--采集管理--规则管理--点击某条采集规则后面的“编辑”按钮--所属分类--选择您的分类--点击下一步即可保存当前页面的设置。
如果不想在采集时保存远程图片到您的服务器,方法:网站后台--采集管理--规则管理--点击某条采集规则后面的“编辑”按钮--新闻设置--保存图片--取消勾选--点击下一步即可保存当前页面的设置。
设置默认固定的作者名,方法:网址后台--采集管理-规则管理--点击某条采集规则后面的“编辑”按钮--下一步--下一步--作者设置--填写固定的字符就可以。
采集之后的数据如何发布到网站中?方法:网站后台--采集管理--数据入库,可在此选择入库所有内容或勾选部份内容入库,也可删掉全部内容或删掉部份勾选的内容。
为什么采集之后,再采集部分内容会提示重复?因为:防止重复采集浪费不必要的时间与资源,如果想重新采集已经采集过的数据,请到网站后台--采集管理--历史记录,可在此删掉历史记录也可有选择性的删掉“成功的记录”、“失败的记录”、“失效的记录”,在浏览器内部页面底部的标题栏中进行筛选。
常见问题:
安装的采集规则可以更改么?
答:“目标网页编码”、“远程列表URL”不能更改,其他内容请慎重更改,否则容易未能采集。
为什么采集的时侯,提示“服务器资源有限,无法直接浏览该文章,请安装或升级采集插件批量采集即可。”?
答:1、“目标网页编码”、“远程列表URL”不能更改,其他内容请慎重更改,否则容易未能采集。。2、检查您所登陆后台的域名是否获取了采集规则插件的注册码。3、请直接进行采集,不要点测试按键,测试的时侯才会有此提示。正常采集就可以了。4、请使用你安装此插件时使用的域名来登入后台进行采集。
此插件的优势:
自动采集平台上每日更新的内容,并且所有的内容均手动完成排版,无需重新编辑。
天人系列管理系统的所有系统均可使用,并且手动匹配按键款式。
此插件不是手动采集插件,需要点击一下按键触发批量采集
安装流程
点击里面的立刻安装按键(如下图):

等1分钟以后会出现“正在加载”的红色背景黄色字体页面(如下图)

然后又等一会页面会弄成红色背景红色字体的“天人系列管理系统项目手动布署工具”(如下图)
如果页面中的权限检查全部通过,如果没有出现白色字体的“无法读”“无法写”“无法删除”字样,就会手动安装,等几分钟,会提示安装完毕,不要关掉页面,8秒后会跳转到官网获取注册码,然后就可以使用此应用了。

获取注册码页面,点击按键“生成注册码”即可(如下图)

这时系统都会手动按照您的域名生成注册码了(如下图)

值得一的是,注册码不需要单独的填写到网站中,你所安装的应用会手动获取注册码,你刷新一下刚才提示须要注册码的页面看是不是可以正常使用了。
常见问题
Q:免费的应用为什么要获取注册码,需要付费么?
A:注册码是为了激活您所安装的插件,不需要付费,在下一步的页面中输入网站的一级域名即可手动生成注册码,注册码是按照一级域名生成的,更换域名后重新获取注册码即可,并不会象他人的网站程序或插件那样更换域名程序就废黜了。另外值得一提的是,一般情况下注册码并不需要自动输入到你的后台中,在后台更新缓存都会手动获取到所有你已然获得的注册码,很方便快捷。
Q:付费的应用怎样获取注册码?
A:付费的应用须要使用现金订购注册码,按照页面的提示点击“获取注册码”按钮,然后到付款页面支付相应的金额以后还会手动生成注册码了。
Q:注册码须要我单独保存么?丢了如何办?怎么在我的网站输入注册码?
A:注册码通常不需要您单独保存的,因为获取过注册码的域名就会手动保存到官网的数据库中,同时您的网站会手动从官网获取注册码,即使注册码遗失的话,只要在后台更新一下缓存都会立刻寻回你的注册码,当然假如你乐意自动输入注册码的话,可以在后台“注册码管理”中输入注册码,效果与更新缓存获取到的注册码一样。
Q:我的注册码会不会被他人窃取?
A:注册码是按照您网站的一级域名生成的,每个网站的域名在这个世界上都是独一无二的,所以注册码也是独一无二的,别人是未能窃取你的注册码的。
Q:没有通过我网站后台应用中心下载的应用该怎么获取注册码?
A:获取注册码可以在你网站后台“我的应用”或“我的模板”中找到刚才安装的应用或模板对应的“点击查看”按钮,跳转到官网(如下图)

跳转到官网应用对应的详情页面后,在黑色字体“您的一级域名”中填入您的域名,不填写1级域名也可以的,系统会手动设置为1级域名,然后点击“获取注册码”按钮,按照提示进行操作即可。(如下图)
操作指南
采集交流 • 优采云 发表了文章 • 0 个评论 • 184 次浏览 • 2020-08-11 01:01
编辑预警状态
查勘预警的详尽情况-走势图
2、导出案例
导出案例:这个功能是给数据组的朋友使用的,用于导入早已标准化的数据。
导出上海市案例
3、任务管理
任务管理:这个是给开发的同学使用的,用于各个网站的的数据采集。建立任务以及管理任务。
特别提醒的是任务描述上面不仅可以依照任务描述来搜索外,还可以依照任务的参数进行搜索。
列表上面的各个操作按键:
启动:启动系统调度,不是立刻执行任务
停止:停止系统调度
执行:立即执行任务,不用等系统调度。
日志:点击后查看这个任务近来的执行日志
任务列表
4、调度日志
调度日志:这个是给开发同学使用的,用于查看各个任务的日志,方便找问题。在Python爬虫中的printf复印下来的内容还会被记录到日志里
5、字段标准化规则
字段标准化规则:这个是给开发的同学使用的,用于管理标准化的时侯数组管理条例。分了城市、行政区的映射以及一些案例数组的映射标准。可以新增、编辑、删除这种映射数组。
字段标准化时的映射
新增映射数组
修改和删掉
6、楼盘座标管理
楼盘座标管理:是用于辅助 处理、纠正、核查新盘座标的工具。
查询城市-网站楼盘集合列表
这个地方有导出、进入编辑、自动估算、导出。
上传Excel文件导出数据
导入新盘数据文件的格式
“上传”导入功能:就是在如今我们将新盘,按照如下的格式整理好,然后通过上传Excel文件,导入我们待处理的新盘数据。注意状态:0标示须要人工处理的,1标示待初审的,2标示早已经过人工初审了的。
自动估算待人工处理的案例
自动估算:这个是针对于须要人工处理的,服务器后台有一套手动找座标的方式,能依照新盘名——城市,自动找座标。以此减少人工处理的工作量。服务器手动估算下来的新盘,会由“人工处理”状态变更为“待初审”的状态
导出:导出我们数据库上面这个城市-网站所有的新盘数据。导出文件为Excel格式的
导出的新盘数据Excel文件格式
“进入编辑”:进入辅助采集楼盘座标工具,本工具的座标都是通过百度地图的座标估算而出。以后会加入其它的座标数据源。
处理新盘座标
人工处理:点击人工处理的选项,然后在新盘列表点击新盘名,在两侧会手动搜索百度,并弹出结果。并且会手动选出最合适的装入到编辑区。然后点击保存更改即可。(修改成功后,案例会手动步入到已初审里)
审核新盘座标
待初审:就是对手动估算下来的新盘座标进行查看,如果是正确的,那么就点击保存更改,表明早已初审过了。
已初审:表明这个案例是经过觉得的去确认或则更改的。
7、楼盘名标准化规则
待开发,用于各个网站的新盘,跟FDC中的新盘做管联的工具。
8、系统设置
这个上面的功能有预警的标准设置,通用设置,以及各个城市-网站的案例量预警量的设置。
1h案例最低抓取量:1h内,每个任务的最低采集量,采集低的都会发送预警。(根据MQ消息来进行判定的)
各数组最高缺失率:根据MQ消息,如果MQ里的关键数组缺失率低于这个值,那么都会发送预警
最低标准化率:设置最低标准化值,这个值是用于设置标准化时,如果标准化后案例数量相对于未标注化前的,降低的量低于这个值时,就报出预警,提示标准化时有问题(有可能是网站的数组内容改版造成的)
最低入库率:这个暂未启动
每月的案例量同比涨跌幅:这个是相对于上个月的案例,如果采集量很高月上个月或则高于上个月太多,那么就说明要么采集了太多的重复案例,或者是采集的案例缺位太多。报出预警通知开发人员,做好监控检测。
预警基础信息设置
城市基准采集量配置:这个值对应的是一个月的量,比如上海是2000条,如果年底统计出这个月的案例量高于1380=2000*(1-31%) 或者低于3000=2000*(1+50%),那就就报出预警。
同事这个2000值,适用于每晚的采集量预警。2000/30=66.6等于每晚的量,如果某日采集的量,低于66条,那么也会报出预警。
城市基准采集量配置
这个是编辑城市采集量的多少的预警开关和数值。
编辑城市基准量预计配置
9、执行器管理
给开发者使用的页面。用于降低采集机器的配置页面。
执行器管理页面 查看全部
查看日志:这个主要是给开发人员用的,出了预警后,点击查看日志能打开该预警对应的日志。方便找问题。

编辑预警状态

查勘预警的详尽情况-走势图
2、导出案例
导出案例:这个功能是给数据组的朋友使用的,用于导入早已标准化的数据。

导出上海市案例
3、任务管理
任务管理:这个是给开发的同学使用的,用于各个网站的的数据采集。建立任务以及管理任务。
特别提醒的是任务描述上面不仅可以依照任务描述来搜索外,还可以依照任务的参数进行搜索。
列表上面的各个操作按键:
启动:启动系统调度,不是立刻执行任务
停止:停止系统调度
执行:立即执行任务,不用等系统调度。
日志:点击后查看这个任务近来的执行日志

任务列表
4、调度日志
调度日志:这个是给开发同学使用的,用于查看各个任务的日志,方便找问题。在Python爬虫中的printf复印下来的内容还会被记录到日志里
5、字段标准化规则
字段标准化规则:这个是给开发的同学使用的,用于管理标准化的时侯数组管理条例。分了城市、行政区的映射以及一些案例数组的映射标准。可以新增、编辑、删除这种映射数组。

字段标准化时的映射

新增映射数组

修改和删掉
6、楼盘座标管理
楼盘座标管理:是用于辅助 处理、纠正、核查新盘座标的工具。

查询城市-网站楼盘集合列表
这个地方有导出、进入编辑、自动估算、导出。

上传Excel文件导出数据

导入新盘数据文件的格式
“上传”导入功能:就是在如今我们将新盘,按照如下的格式整理好,然后通过上传Excel文件,导入我们待处理的新盘数据。注意状态:0标示须要人工处理的,1标示待初审的,2标示早已经过人工初审了的。

自动估算待人工处理的案例
自动估算:这个是针对于须要人工处理的,服务器后台有一套手动找座标的方式,能依照新盘名——城市,自动找座标。以此减少人工处理的工作量。服务器手动估算下来的新盘,会由“人工处理”状态变更为“待初审”的状态
导出:导出我们数据库上面这个城市-网站所有的新盘数据。导出文件为Excel格式的

导出的新盘数据Excel文件格式
“进入编辑”:进入辅助采集楼盘座标工具,本工具的座标都是通过百度地图的座标估算而出。以后会加入其它的座标数据源。

处理新盘座标
人工处理:点击人工处理的选项,然后在新盘列表点击新盘名,在两侧会手动搜索百度,并弹出结果。并且会手动选出最合适的装入到编辑区。然后点击保存更改即可。(修改成功后,案例会手动步入到已初审里)

审核新盘座标
待初审:就是对手动估算下来的新盘座标进行查看,如果是正确的,那么就点击保存更改,表明早已初审过了。
已初审:表明这个案例是经过觉得的去确认或则更改的。
7、楼盘名标准化规则
待开发,用于各个网站的新盘,跟FDC中的新盘做管联的工具。
8、系统设置
这个上面的功能有预警的标准设置,通用设置,以及各个城市-网站的案例量预警量的设置。
1h案例最低抓取量:1h内,每个任务的最低采集量,采集低的都会发送预警。(根据MQ消息来进行判定的)
各数组最高缺失率:根据MQ消息,如果MQ里的关键数组缺失率低于这个值,那么都会发送预警
最低标准化率:设置最低标准化值,这个值是用于设置标准化时,如果标准化后案例数量相对于未标注化前的,降低的量低于这个值时,就报出预警,提示标准化时有问题(有可能是网站的数组内容改版造成的)
最低入库率:这个暂未启动
每月的案例量同比涨跌幅:这个是相对于上个月的案例,如果采集量很高月上个月或则高于上个月太多,那么就说明要么采集了太多的重复案例,或者是采集的案例缺位太多。报出预警通知开发人员,做好监控检测。

预警基础信息设置
城市基准采集量配置:这个值对应的是一个月的量,比如上海是2000条,如果年底统计出这个月的案例量高于1380=2000*(1-31%) 或者低于3000=2000*(1+50%),那就就报出预警。
同事这个2000值,适用于每晚的采集量预警。2000/30=66.6等于每晚的量,如果某日采集的量,低于66条,那么也会报出预警。

城市基准采集量配置
这个是编辑城市采集量的多少的预警开关和数值。

编辑城市基准量预计配置
9、执行器管理
给开发者使用的页面。用于降低采集机器的配置页面。

执行器管理页面
电影网站程序源码--带一键采集(加入优酷采集规则)
采集交流 • 优采云 发表了文章 • 0 个评论 • 597 次浏览 • 2020-08-11 00:49
添加了一键采集工具(采集的是QVOD格式的)。 后台首页——2010采集工具 里面有7条采集规则,其中第一条早已和网站的对应分类绑定好,可以直接采集
如果想采集其他几个,先点击对应采集规则前面的视频列表,把对应分类绑定好后在采集。第一次采集点一键采集所有,后面每晚点采集当天就行了
另外,本人添加了优酷的采集规则,在采集目录下可以看见。应经绑定好对应的分类,直接采集就可以,
采集完后,点击采集数据库,然后导出采集的内容就OK了,
程序还有新闻模块,本人也早已添加好新浪的采集规则, 和前面采集优酷的方式一样,先采集,后导出。
本程序傻蛋般操作,一看就懂,而且后台功能强悍,一切操作都可直接从后台进行。
注意:本程序完美无错,但不支持本地调试,只能上传到服务器后操作,有的同事假如发觉在本地调试难以使用,而以为程序有错,那你就亏大了
使用本程序的同学,请保留站内链接,尊重别人的劳动成果。(采集规则而且我一条一条添加起来的)
后台地址 ...../admin 用户名和密码都是admin
程序预览: 程序和预览的基本上一样,做了一点更改,比预览的稍稍要好一些。
源码下载地址:
如有问题,可联系本人QQ591060816 另外,本人代理网站服务器和代刷百度指数,超低价钱。
查看全部
本程序是由马克斯4.0更改而至。 程序做了内部优化,易于搜索引擎收录。加入多个广告位,后台可直接管理。
添加了一键采集工具(采集的是QVOD格式的)。 后台首页——2010采集工具 里面有7条采集规则,其中第一条早已和网站的对应分类绑定好,可以直接采集
如果想采集其他几个,先点击对应采集规则前面的视频列表,把对应分类绑定好后在采集。第一次采集点一键采集所有,后面每晚点采集当天就行了
另外,本人添加了优酷的采集规则,在采集目录下可以看见。应经绑定好对应的分类,直接采集就可以,
采集完后,点击采集数据库,然后导出采集的内容就OK了,
程序还有新闻模块,本人也早已添加好新浪的采集规则, 和前面采集优酷的方式一样,先采集,后导出。
本程序傻蛋般操作,一看就懂,而且后台功能强悍,一切操作都可直接从后台进行。
注意:本程序完美无错,但不支持本地调试,只能上传到服务器后操作,有的同事假如发觉在本地调试难以使用,而以为程序有错,那你就亏大了
使用本程序的同学,请保留站内链接,尊重别人的劳动成果。(采集规则而且我一条一条添加起来的)
后台地址 ...../admin 用户名和密码都是admin
程序预览: 程序和预览的基本上一样,做了一点更改,比预览的稍稍要好一些。
源码下载地址:
如有问题,可联系本人QQ591060816 另外,本人代理网站服务器和代刷百度指数,超低价钱。


深维全能信息采集软件 2.5.3.9 官方版
采集交流 • 优采云 发表了文章 • 0 个评论 • 345 次浏览 • 2020-08-10 17:55
深维全能信息采集软件特征
1.强大的信息采集功能。可采集几乎任何类型的网站信息,包括静态htm,html类型和动态ASP,ASPX,JSP等。可N级页面采集。可手动下载二进制文件,比如图片,软件,mp3等。
2.网站登录。需要登入能够看见的信息,先在任务的&#39;登录设置&#39;处进行登陆,就可采集登录后就能看见的信息。
3.速度快,运行稳定。真正的多线程,多任务,运行时占用系统资源甚少,可稳定地长时间运行。(明显区别于其他软件)
4.数据保存格式丰富。可把采集的数据,保存为Txt,Excel和多种数据库格式(Access sqlserver Oracle Mysql等)。
5.强大的新闻采集,自动化处理功能。可手动保留新闻的格式,包括图片等。可通过设置,自动下载图片 ,自动把正文里图片的网路路径改为本地文件路径(也可保留原貌);可把采集的新闻手动处理成自己设计的模板格式;可采集具有分页方式的新闻。 通过这种功能,简单设置后即可在本地构建一个强悍的新闻系统,无需人工干预。
6.强大的信息手动再加工功能。对采集的信息,可进行二次批量再加工,使之愈加符合您的实际要求。也可设置手动加工公式,在采集的过程中,按照公式手动加工处理,包括数据合并和数据替换等。
深维全能信息采集软件优点
A、通用:根据拟定采集规则,可以采集任何通过浏览器看得到的东西;
B、灵活:支持网站登录采集、网站跨层采集、POST采集、脚本采集、动态页面采集等中级功能;
C、扩展性强:支持存储过程、插件等,可由用户自由扩充功能,进行二次开发;
D、高效:为了使用户节约一分钟去做其它事情,软件做了悉心设计;
E、速度快:速度最快、效率高到的采集软件;
F、稳定:系统资源占用少、有详尽的运行报告、采集性能稳定; G、人性化:注重软件细节、强调人性化体验。 更多功能,有待您的体验试用,请下载试用。 查看全部
深维全能信息采集软件(以下简称全能采集)面向国外广大的市场应用,以先进的技术服务国外用户。该软件是基于多年从事网路信息采集软件开发的经验和成果,成功推出的一套自助式网路信息采集和监控软件。以往采集软件常常须要复杂的配置操作能够工作,导致用户不能精确配置和更改采集内容,并最终造成软件系统不能正常使用,而该软件专门开发了自助图形化配置工具,采用交互式策略和机器学习算法,极大简化了配置操作,普通用户几分钟内即可学习把握。通过简单的配置,还可以将所采集网页中的非结构化文本数据保存为结构化的数据。另外,该系统还支持用户名密码手动登入、自动参数递交、自动翻页、自动生成模板等多种功能,可以完整、准确地采集各种静态页面、动态页面、文件和数据库。对于采集到的数据,可以通过该系统提供的插口,方便地实现与其他系统的集成应用。
深维全能信息采集软件特征
1.强大的信息采集功能。可采集几乎任何类型的网站信息,包括静态htm,html类型和动态ASP,ASPX,JSP等。可N级页面采集。可手动下载二进制文件,比如图片,软件,mp3等。
2.网站登录。需要登入能够看见的信息,先在任务的&#39;登录设置&#39;处进行登陆,就可采集登录后就能看见的信息。
3.速度快,运行稳定。真正的多线程,多任务,运行时占用系统资源甚少,可稳定地长时间运行。(明显区别于其他软件)
4.数据保存格式丰富。可把采集的数据,保存为Txt,Excel和多种数据库格式(Access sqlserver Oracle Mysql等)。
5.强大的新闻采集,自动化处理功能。可手动保留新闻的格式,包括图片等。可通过设置,自动下载图片 ,自动把正文里图片的网路路径改为本地文件路径(也可保留原貌);可把采集的新闻手动处理成自己设计的模板格式;可采集具有分页方式的新闻。 通过这种功能,简单设置后即可在本地构建一个强悍的新闻系统,无需人工干预。
6.强大的信息手动再加工功能。对采集的信息,可进行二次批量再加工,使之愈加符合您的实际要求。也可设置手动加工公式,在采集的过程中,按照公式手动加工处理,包括数据合并和数据替换等。
深维全能信息采集软件优点
A、通用:根据拟定采集规则,可以采集任何通过浏览器看得到的东西;
B、灵活:支持网站登录采集、网站跨层采集、POST采集、脚本采集、动态页面采集等中级功能;
C、扩展性强:支持存储过程、插件等,可由用户自由扩充功能,进行二次开发;
D、高效:为了使用户节约一分钟去做其它事情,软件做了悉心设计;
E、速度快:速度最快、效率高到的采集软件;
F、稳定:系统资源占用少、有详尽的运行报告、采集性能稳定; G、人性化:注重软件细节、强调人性化体验。 更多功能,有待您的体验试用,请下载试用。
WP手动采集插件wp-autopost-pro3.7.8最新版本无何限制版
采集交流 • 优采云 发表了文章 • 0 个评论 • 349 次浏览 • 2020-08-10 17:50
官网直达链接:此版本与官方的功能没有任何区别;
采集插件适用对象
1、刚建的 wordpress 站点内容比较少,希望早日有比较丰富的内容;
2、热点内容手动采集并手动发布;
3、定时采集,手动采集发布或保存到草稿;
4、css 样式规则,能更精确的采集需要的内容。
5、伪原创与翻译、代理 IP 进行采集、保存 Cookie 记录;
6、可采集内容到自定义栏目
WP-AutoBlog 为全新开发插件(原 WP-AutoPost 将不再更新和维护),全面支持 PHP7.3 更快更稳定
全新构架和设计,采集设置愈发全面及灵活;支持多层级文章列表、多层级文章内容采集
全新支持 Google 神经网路翻译,有道神经网路翻译,轻松获取高质量原创文章
全面支持市面上所有主流对象储存服务,七牛云、阿里云 OSS 等。
可采集微信公众号、头条号等自媒体内容,因百度不收录公众号,头条文章等,可轻松获取高质量“原创”文章,增加百度收录量及网站权重
可采集任何网站的内容,采集信息一目了然
通过简单设置可采集来自于任何网站的内容,并可设置多个采集任务同时进行,可设置任务为手动运行或自动运行,主任务列表显示每位采集任务的状况:上次测量采集时间,预计上次测量采集时间,最近采集文章,已采集更新的文章数等信息,方便查看管理。
文章管理功能便捷查询、搜索、删除已采集文章,改进算法已从根本上避免了重复采集相同文章,日志功能记录采集过程中出现的异常和抓取错误,方便检测设置错误便于进行修补。
启用任务后,全手动采集更新,无需人工干预
启用任务后,定时检查是否有新文章可更新,检测文章是否重复,导入更新文章,这一切操作程序都是全手动完成,无需人工干预。
有两种触发采集更新方法,一种是在页面内添加代码由用户访问触发采集更新(后台异步进行,不影响用户体验,也不影响网站效率),另外可以用 Cron 计划任务定时触发采集更新任务
定向采集,支持键值匹配、或 CSS 选择器精确采集任何内容,支持采集多层级文章列表、支持采集正文分页内容、支持采集多层级正文内容
支持市面上所有主流对象储存服务,包括七牛云、阿里云 OSS、腾讯云 COS、百度云 BOS、又拍云、Amazon AWS S3、Google Cloud Storage,可将文章中图片及附件手动上传到云对象存储服务,节省带宽及空间,提高网站访问速率
只需简单配置好相关信息,即可手动上传,通过 WordPress 后台也能直接查看或管理已上传到云对象储存的图片及文件。
恭喜,此资源为免费资源,请先登入
下载价钱:免费
更新时间:05/26/2020
更新版本:V3.7.8
资源大小:6M
所需类别:采集插件 查看全部
如果是菜鸟,请查看采集教程:
官网直达链接:此版本与官方的功能没有任何区别;
采集插件适用对象
1、刚建的 wordpress 站点内容比较少,希望早日有比较丰富的内容;
2、热点内容手动采集并手动发布;
3、定时采集,手动采集发布或保存到草稿;
4、css 样式规则,能更精确的采集需要的内容。
5、伪原创与翻译、代理 IP 进行采集、保存 Cookie 记录;
6、可采集内容到自定义栏目
WP-AutoBlog 为全新开发插件(原 WP-AutoPost 将不再更新和维护),全面支持 PHP7.3 更快更稳定
全新构架和设计,采集设置愈发全面及灵活;支持多层级文章列表、多层级文章内容采集
全新支持 Google 神经网路翻译,有道神经网路翻译,轻松获取高质量原创文章
全面支持市面上所有主流对象储存服务,七牛云、阿里云 OSS 等。
可采集微信公众号、头条号等自媒体内容,因百度不收录公众号,头条文章等,可轻松获取高质量“原创”文章,增加百度收录量及网站权重
可采集任何网站的内容,采集信息一目了然
通过简单设置可采集来自于任何网站的内容,并可设置多个采集任务同时进行,可设置任务为手动运行或自动运行,主任务列表显示每位采集任务的状况:上次测量采集时间,预计上次测量采集时间,最近采集文章,已采集更新的文章数等信息,方便查看管理。
文章管理功能便捷查询、搜索、删除已采集文章,改进算法已从根本上避免了重复采集相同文章,日志功能记录采集过程中出现的异常和抓取错误,方便检测设置错误便于进行修补。
启用任务后,全手动采集更新,无需人工干预
启用任务后,定时检查是否有新文章可更新,检测文章是否重复,导入更新文章,这一切操作程序都是全手动完成,无需人工干预。
有两种触发采集更新方法,一种是在页面内添加代码由用户访问触发采集更新(后台异步进行,不影响用户体验,也不影响网站效率),另外可以用 Cron 计划任务定时触发采集更新任务
定向采集,支持键值匹配、或 CSS 选择器精确采集任何内容,支持采集多层级文章列表、支持采集正文分页内容、支持采集多层级正文内容
支持市面上所有主流对象储存服务,包括七牛云、阿里云 OSS、腾讯云 COS、百度云 BOS、又拍云、Amazon AWS S3、Google Cloud Storage,可将文章中图片及附件手动上传到云对象存储服务,节省带宽及空间,提高网站访问速率
只需简单配置好相关信息,即可手动上传,通过 WordPress 后台也能直接查看或管理已上传到云对象储存的图片及文件。

恭喜,此资源为免费资源,请先登入
下载价钱:免费
更新时间:05/26/2020
更新版本:V3.7.8
资源大小:6M
所需类别:采集插件
威胜装配号综合采集软件v1.0最新版本采集软件
采集交流 • 优采云 发表了文章 • 0 个评论 • 305 次浏览 • 2020-08-09 05:42
软件说明
威胜装配号综合采集软件的正式版可以选择网站,选择城市,选择行业分类和其他条件,以搜索您需要的数据. 这些属性包括“联系方式,联系方式,标题内容,行业分类,省份城市,联系地址,来源网站,来源URL等”.
傻瓜式操作,只需用鼠标单击,无需编写任何采集规则.
功能介绍
采集功能
自动过滤器重复功能
号码归因过滤功能
反限制采集设置功能(在大多数情况下可以避免不受限制)
自动ADLS拨号功能(只有使用Internet拨号的客户才能使用)
导出Excel文件功能
导出TXT文件功能
时间段过滤信息功能(此功能仅适用于“更新时间”时间段内的信息)
历史数据查询功能(只要您采集了信息,就可以转到“搜索查询”中进行查询)
使用说明
1下载完成后,请勿运行压缩包中的软件并直接使用,请先将其解压缩;
2该软件同时支持32位/ 64位操作环境,因此无需担心系统操作环境;
3如果无法正常打开该软件,请右键单击并使用管理员模式运行;
常见问题
问: 支持哪些系统?
回答: 建议Win7及更高版本的系统与Win10兼容
问: 所采集数据的准确性?
回答: 我们保证数据来自相关网站,并且数据的质量由网站本身决定. 您可以登录到相关网站进行实际了解.
问: 微生系列软件会及时升级吗?
答案: 微生微市场营销已深入参与营销软件行业多年,并拥有一支专业的技术团队. 在软件服务期间提供免费升级支持. 查看全部
威胜总装号综合采集软件是一款非常专业的数据采集软件. 该软件支持重复功能的自动过滤,号码所有权过滤,反限制采集设置和自动ADLS拨号. 功能丰富.

软件说明
威胜装配号综合采集软件的正式版可以选择网站,选择城市,选择行业分类和其他条件,以搜索您需要的数据. 这些属性包括“联系方式,联系方式,标题内容,行业分类,省份城市,联系地址,来源网站,来源URL等”.
傻瓜式操作,只需用鼠标单击,无需编写任何采集规则.

功能介绍
采集功能
自动过滤器重复功能
号码归因过滤功能
反限制采集设置功能(在大多数情况下可以避免不受限制)
自动ADLS拨号功能(只有使用Internet拨号的客户才能使用)
导出Excel文件功能
导出TXT文件功能
时间段过滤信息功能(此功能仅适用于“更新时间”时间段内的信息)
历史数据查询功能(只要您采集了信息,就可以转到“搜索查询”中进行查询)
使用说明
1下载完成后,请勿运行压缩包中的软件并直接使用,请先将其解压缩;
2该软件同时支持32位/ 64位操作环境,因此无需担心系统操作环境;
3如果无法正常打开该软件,请右键单击并使用管理员模式运行;

常见问题
问: 支持哪些系统?
回答: 建议Win7及更高版本的系统与Win10兼容
问: 所采集数据的准确性?
回答: 我们保证数据来自相关网站,并且数据的质量由网站本身决定. 您可以登录到相关网站进行实际了解.
问: 微生系列软件会及时升级吗?
答案: 微生微市场营销已深入参与营销软件行业多年,并拥有一支专业的技术团队. 在软件服务期间提供免费升级支持.
优采云采集器免费版本V9.10
采集交流 • 优采云 发表了文章 • 0 个评论 • 414 次浏览 • 2020-08-08 14:35
采集器教程1.新的新任务
2. 添加URL +编辑获取URL的规则
在ul的li中选择链接,注意排除重复的地址,您可以单击下面的测试URL来获取它.
您可以看到其中收录所采集文章的链接.
3. 馆藏内容规则
我需要采集下图所示的数据(catid是列ID,您可以将采集的数据放入相应的列中并设置一个固定值)
关注内容和图片的采集,标题和描述与内容采集相同
内容采集:
打开采集的文章页面并查看源代码(您可以通过右键单击f11或在URL前面添加view-source: 来查看该源代码): 在文章开头选择一个位置,然后截取一个查看段落是否唯一一个段落,如果存在,可以将其放置在图1所示的位置,并且结尾与开头相同. 我不想使用可以由数据处理的链接图片来拦截内容,请添加--html标记排除-选择确定-确定
还需要下载页面图片,检查并填写以下选项
图片集:
(1)所选范围与内容(文章中的图片)相同
(2)数据处理选项提取第一张图片,内容为:
(3)只要对aa.jpg进行定期过滤,即可得到内容: aa.jpg
(4)数据库带有前缀存储,添加后,上载/ xxxxx /
找到一个页面并进行测试. 您可以看到所有的对应项都已获得.
4. 发布内容设置,这里以发布到数据库为例,在编辑后,返回此处并检查刚刚定义的模块:
5. 我需要在本地保存图片,并且需要设置保存文件的路径(ftp稍后将尝试使用它).
6. 保存,查看新创建的任务,右键单击以启动任务,您可以看到此处已下载文本和图片,并且可以在数据库中看到它们.
功能介绍1. URL采集
1. 您可以通过设置URL采集规则来快速采集所需的URL信息. 您可以手动输入,批量添加或直接从文本导入URL,并且可以自动过滤出重复的URL信息.
2. 它支持采集多级页面URL,可以使用页面分析以两种方式自动获取地址和手动填写规则. 为了应对多级分页中具有不同内容但地址相同的页面的URL的采集,该软件设置了三种HTTP请求方法: GET,POST和ASPXPOST.
3. 它支持网站采集测试,可以验证操作的正确性,避免操作不当而导致采集结果不准确.
第二,内容采集
1. 通过分析网页的源代码,可以设置内容采集规则,以准确采集网页中分散的内容数据,并支持在多级和多页等复杂页面中进行内容采集.
2. 通过定义标签,可以对数据进行分类和采集,例如,可以分别采集文章内容的标题和文章正文. 该软件配备了三种内容提取方法: 拦截前后,常规提取和文本提取. 选择性很强,用户可以根据自己的需要进行选择.
3. 内容集合还支持测试功能. 可以选择一个典型的页面来测试内容采集的正确性,以便及时更正并执行下一个数据处理.
三,数据处理
对于采集的信息数据,该软件可以对其执行一系列智能处理,以使采集的数据更符合我们的使用标准. 主要包括1)标签过滤: 过滤掉内容中不必要的空格,链接和其他标签; 2)替换: 支持同义词和同义词的替换; 3)数据转换: 支持中文到英文,简体到繁体,拼音等转换; 4)自动汇总和自动分词: 支持自动生成汇总和自动分词; 5)下载选项: 支持任何格式的文件检测下载,并且可以智能地将相对地址完整为绝对地址.
四,数据发布
1. 采集数据后,默认情况下,数据将保存在本地数据库(sqlite,mysql,sqlserver)中. 用户可以根据自己的需要选择对数据进行后续操作,以完成数据发布,支持直接查看数据,以及在线将数据发布到数据库中,并支持用户使用和开发发布界面.
2. 根据数据库类型,可以使用相关软件将其打开以直接查看数据,配置发布模块以将数据在线发布到网站,可以设置自动登录网站,获取列列表等;如果将其输入到用户自己的数据库中,则用户只需编写一些SQL语句,程序便会根据用户的SQL语句导入数据;另存为本地文件时,它支持本地SQL或文本文件(word,excel,html,txt)格式.
五,多任务和多线程操作
您可以选择同时运行多个任务,支持同时采集不同的网站或同一站点的不同部分,并以计划的方式安排任务. 采集和发布内容时,一个任务可以使用多个线程来运行,从而提高了操作效率. 查看全部
www.ucaiyun.com的英文名称是www.ucaiyun.com. 它是一个专业的Internet数据捕获,处理,分析和挖掘软件. 它具有网站采集,内容采集,数据处理,数据发布,日志管理等功能. 它支持多个数据库,能够无限制地进行多页采集,全自动运行,分布式高速采集,多标识系统采集监控系统,可以很好地帮助网站管理和优化人员分析和优化网站. 现在,它已被各行各业的人们所使用,例如电子商务运营商,公司人员和网站所有者. 有需要的用户可以下载免费版本的优采云采集器,下面的编辑器还为所有人提供了一个简单的教程!

采集器教程1.新的新任务

2. 添加URL +编辑获取URL的规则

在ul的li中选择链接,注意排除重复的地址,您可以单击下面的测试URL来获取它.

您可以看到其中收录所采集文章的链接.

3. 馆藏内容规则
我需要采集下图所示的数据(catid是列ID,您可以将采集的数据放入相应的列中并设置一个固定值)

关注内容和图片的采集,标题和描述与内容采集相同

内容采集:
打开采集的文章页面并查看源代码(您可以通过右键单击f11或在URL前面添加view-source: 来查看该源代码): 在文章开头选择一个位置,然后截取一个查看段落是否唯一一个段落,如果存在,可以将其放置在图1所示的位置,并且结尾与开头相同. 我不想使用可以由数据处理的链接图片来拦截内容,请添加--html标记排除-选择确定-确定

还需要下载页面图片,检查并填写以下选项

图片集:
(1)所选范围与内容(文章中的图片)相同
(2)数据处理选项提取第一张图片,内容为:
(3)只要对aa.jpg进行定期过滤,即可得到内容: aa.jpg
(4)数据库带有前缀存储,添加后,上载/ xxxxx /

找到一个页面并进行测试. 您可以看到所有的对应项都已获得.

4. 发布内容设置,这里以发布到数据库为例,在编辑后,返回此处并检查刚刚定义的模块:


5. 我需要在本地保存图片,并且需要设置保存文件的路径(ftp稍后将尝试使用它).

6. 保存,查看新创建的任务,右键单击以启动任务,您可以看到此处已下载文本和图片,并且可以在数据库中看到它们.

功能介绍1. URL采集
1. 您可以通过设置URL采集规则来快速采集所需的URL信息. 您可以手动输入,批量添加或直接从文本导入URL,并且可以自动过滤出重复的URL信息.
2. 它支持采集多级页面URL,可以使用页面分析以两种方式自动获取地址和手动填写规则. 为了应对多级分页中具有不同内容但地址相同的页面的URL的采集,该软件设置了三种HTTP请求方法: GET,POST和ASPXPOST.
3. 它支持网站采集测试,可以验证操作的正确性,避免操作不当而导致采集结果不准确.
第二,内容采集
1. 通过分析网页的源代码,可以设置内容采集规则,以准确采集网页中分散的内容数据,并支持在多级和多页等复杂页面中进行内容采集.
2. 通过定义标签,可以对数据进行分类和采集,例如,可以分别采集文章内容的标题和文章正文. 该软件配备了三种内容提取方法: 拦截前后,常规提取和文本提取. 选择性很强,用户可以根据自己的需要进行选择.
3. 内容集合还支持测试功能. 可以选择一个典型的页面来测试内容采集的正确性,以便及时更正并执行下一个数据处理.
三,数据处理
对于采集的信息数据,该软件可以对其执行一系列智能处理,以使采集的数据更符合我们的使用标准. 主要包括1)标签过滤: 过滤掉内容中不必要的空格,链接和其他标签; 2)替换: 支持同义词和同义词的替换; 3)数据转换: 支持中文到英文,简体到繁体,拼音等转换; 4)自动汇总和自动分词: 支持自动生成汇总和自动分词; 5)下载选项: 支持任何格式的文件检测下载,并且可以智能地将相对地址完整为绝对地址.
四,数据发布
1. 采集数据后,默认情况下,数据将保存在本地数据库(sqlite,mysql,sqlserver)中. 用户可以根据自己的需要选择对数据进行后续操作,以完成数据发布,支持直接查看数据,以及在线将数据发布到数据库中,并支持用户使用和开发发布界面.
2. 根据数据库类型,可以使用相关软件将其打开以直接查看数据,配置发布模块以将数据在线发布到网站,可以设置自动登录网站,获取列列表等;如果将其输入到用户自己的数据库中,则用户只需编写一些SQL语句,程序便会根据用户的SQL语句导入数据;另存为本地文件时,它支持本地SQL或文本文件(word,excel,html,txt)格式.
五,多任务和多线程操作
您可以选择同时运行多个任务,支持同时采集不同的网站或同一站点的不同部分,并以计划的方式安排任务. 采集和发布内容时,一个任务可以使用多个线程来运行,从而提高了操作效率.
小岛娱乐网的日常文章采集规则
采集交流 • 优采云 发表了文章 • 0 个评论 • 504 次浏览 • 2020-08-07 19:44
此插件可以通过天仁官方采集平台进行转移,以获取小岛娱乐网每天更新的文章(不采集旧文章),这意味着您可以在小岛娱乐网的整个网站上获取最新文章. 可配合自动收款插件实现全自动免维护更新网站功能. 并通过自动网络磁盘按钮生成插件自动为文章中的网络磁盘链接生成下载按钮.
之前发言:
这种采集规则插件消耗了我们大量的服务器资源和成本,因此该插件需要每年进行更新. 对于具有授权软件包2和更高版本的用户,授权中的任何域名在安装此插件后将免费使用一年. 之后,该插件可以每年以半价连续使用.
尚未购买授权用户或授权级别低于套餐2的用户需要单独购买并更新原创价格.
授权用户只需要以半价更新最高价的二手采集规则插件即可. 在所有用户授权下,可以在网站上免费使用所有采集规则插件. 例如,您每年只需要更新一个99元的收款规则插件,半价为49.5元. 所有网站都可以继续免费使用所有99元及以下采集规则的插件,为期一年.
使用方法:
安装后,在网站后台采集管理规则管理中,您可以单击规则前面的采集按钮以单独采集,也可以选择多个采集.
编辑方法:
安装后,您将在网站背景采集管理规则管理中看到多个采集规则. 这些采集规则的归因列默认为ID为1的网站列,默认设置是将远程图片保存到服务器. 因此,请根据实际情况,将采集规则的归属列设置为其他列,方法是: 网站背景-采集管理-规则管理-单击采集规则所属类别前的“编辑”按钮-选择您的分类-单击“下一步”保存当前页面的设置.
如果您不想在采集过程中将远程图片保存到服务器,请使用以下方法: 网站背景-采集管理-规则管理-单击采集规则前的“编辑”按钮-新闻设置-保存图片- -取消选中“下一步”以保存当前页面的设置.
设置默认和固定的作者姓名,方法: 网站背景-采集夹管理-规则管理-单击某个采集夹规则前面的“编辑”按钮-下一个-下一个-作者设置-填写固定的字符.
如何将采集的数据发布到网站?方法: 网站后台采集管理数据存储,可以选择存储所有内容或选中部分内容存储在此处,也可以删除所有内容或删除部分选中的内容.
为什么采集一些内容后提示重复?因为: 为了防止重复采集并浪费不必要的时间和资源,如果要重新采集已采集的数据,请转到网站采集管理历史记录的后台,您可以在此处删除历史记录或有选择地删除浏览器内部页面顶部的标题栏中会过滤“成功记录”,“失败记录”和“无效记录”.
常见问题:
可以修改已安装的采集规则吗?
回答: 不能修改“目标网页编码”和“远程列表URL”. 请谨慎修改其他内容,否则很容易采集失败.
为什么提示“服务器资源有限,并且文章无法直接浏览. 请安装或升级用于批次采集的采集插件. ”
回答: 1.无法修改“目标网页编码”和“远程列表URL”. 请小心修改其他内容,否则很容易采集失败. . 2.检查您登录到后端的域名是否已获取采集规则插件的注册码. 3.请直接采集,请勿点击测试按钮,测试过程中会出现此提示. 正常采集. 4.请使用您在安装此插件时使用的域名登录后台进行采集.
此插件的优点:
自动在平台上采集每日更新的内容,并且无需重新编辑即可自动排版所有内容.
可以使用天人系列管理系统的所有系统,并且按钮样式自动匹配.
此插件不是自动采集插件,您需要单击一个按钮以触发批量采集
安装过程
点击上方的“立即安装”按钮(如下所示):
1分钟后,将显示一个带有黑色背景的“正在加载”蓝色字体页面(如下所示)
稍等片刻,页面将变为黑色背景和绿色字体的“天人系列管理系统项目自动部署工具”(如下所示)
如果页面上的所有权限检查均通过,并且没有红色字体“无法读取”,“无法写入”和“无法删除”,则会自动安装. 几分钟后,将提示您安装完成. 不要关闭页面. 8秒后,您将跳至官方网站获取注册码,然后可以使用此应用程序.
获取注册码页面,单击“生成注册码”按钮(如下所示)
这时,系统将根据您的域名自动生成注册码(如下所示)
值得注意的是,不需要在网站上单独填写注册码. 您安装的应用程序将自动获取注册码. 您刷新刚刚提示注册码的页面,以查看其是否可以正常使用.
常见问题
问: 为什么我需要获得免费申请的注册码?我需要付款吗?
A: 注册码是用于激活您已安装的插件的. 无需付款. 在下一页输入网站的一级域名以自动生成注册码. 注册代码是根据一级域名生成的. 更改域名之后,您可以再次获得注册码,如果您像其他人的网站程序或插件一样更改域名,则注册码不会被废除. 还值得一提的是,在正常情况下,不需要手动在后端输入注册码. 在后台更新缓存时,将自动获取您获取的所有注册码,非常方便,快捷.
问: 如何获取付费应用程序的注册代码?
A: 付费应用程序需要使用现金购买注册码. 请按照页面上的说明单击“获取注册码”按钮,然后转到付款页面以支付相应的金额,注册码将自动生成.
问: 我需要单独保存注册码吗?如果丢失了该怎么办?如何在我的网站上输入注册码?
A: 通常,您不需要单独保存注册码,因为获得注册码的域名将自动保存在官方网站的数据库中,并且您的网站将自动获取注册码. 官方网站上的注册码. 即使注册码丢失,只要在后台更新缓存,您的注册码也会立即被检索. 当然,如果您愿意手动输入注册码,则可以在后台的“注册码管理”中输入注册码. 其效果与通过更新缓存获得的注册码相同.
问: 我的注册码是否会被他人盗用?
A: 注册代码是根据您网站的一级域名生成的. 每个网站的域名在这个世界上都是唯一的,因此注册码也是唯一的,其他人无法窃取您的注册码.
问: 如何获取尚未通过我的网站的后端应用程序中心下载的应用程序的注册码?
A: 要获取注册码,您可以在网站后端的“我的应用程序”或“我的模板”中找到与您刚安装的应用程序或模板相对应的“单击查看”按钮,然后跳至官方网站(如下所示)
跳至对应于官方网站应用程序的详细信息页面后,以红色字体“您的一级域名”填写您的域名. 可以不填写一级域名. 系统将自动设置第一级域名,然后单击“获取注册码”按钮并按照提示进行操作. (如下图所示) 查看全部
详细介绍
此插件可以通过天仁官方采集平台进行转移,以获取小岛娱乐网每天更新的文章(不采集旧文章),这意味着您可以在小岛娱乐网的整个网站上获取最新文章. 可配合自动收款插件实现全自动免维护更新网站功能. 并通过自动网络磁盘按钮生成插件自动为文章中的网络磁盘链接生成下载按钮.
之前发言:
这种采集规则插件消耗了我们大量的服务器资源和成本,因此该插件需要每年进行更新. 对于具有授权软件包2和更高版本的用户,授权中的任何域名在安装此插件后将免费使用一年. 之后,该插件可以每年以半价连续使用.
尚未购买授权用户或授权级别低于套餐2的用户需要单独购买并更新原创价格.
授权用户只需要以半价更新最高价的二手采集规则插件即可. 在所有用户授权下,可以在网站上免费使用所有采集规则插件. 例如,您每年只需要更新一个99元的收款规则插件,半价为49.5元. 所有网站都可以继续免费使用所有99元及以下采集规则的插件,为期一年.
使用方法:
安装后,在网站后台采集管理规则管理中,您可以单击规则前面的采集按钮以单独采集,也可以选择多个采集.
编辑方法:
安装后,您将在网站背景采集管理规则管理中看到多个采集规则. 这些采集规则的归因列默认为ID为1的网站列,默认设置是将远程图片保存到服务器. 因此,请根据实际情况,将采集规则的归属列设置为其他列,方法是: 网站背景-采集管理-规则管理-单击采集规则所属类别前的“编辑”按钮-选择您的分类-单击“下一步”保存当前页面的设置.
如果您不想在采集过程中将远程图片保存到服务器,请使用以下方法: 网站背景-采集管理-规则管理-单击采集规则前的“编辑”按钮-新闻设置-保存图片- -取消选中“下一步”以保存当前页面的设置.
设置默认和固定的作者姓名,方法: 网站背景-采集夹管理-规则管理-单击某个采集夹规则前面的“编辑”按钮-下一个-下一个-作者设置-填写固定的字符.
如何将采集的数据发布到网站?方法: 网站后台采集管理数据存储,可以选择存储所有内容或选中部分内容存储在此处,也可以删除所有内容或删除部分选中的内容.
为什么采集一些内容后提示重复?因为: 为了防止重复采集并浪费不必要的时间和资源,如果要重新采集已采集的数据,请转到网站采集管理历史记录的后台,您可以在此处删除历史记录或有选择地删除浏览器内部页面顶部的标题栏中会过滤“成功记录”,“失败记录”和“无效记录”.
常见问题:
可以修改已安装的采集规则吗?
回答: 不能修改“目标网页编码”和“远程列表URL”. 请谨慎修改其他内容,否则很容易采集失败.
为什么提示“服务器资源有限,并且文章无法直接浏览. 请安装或升级用于批次采集的采集插件. ”
回答: 1.无法修改“目标网页编码”和“远程列表URL”. 请小心修改其他内容,否则很容易采集失败. . 2.检查您登录到后端的域名是否已获取采集规则插件的注册码. 3.请直接采集,请勿点击测试按钮,测试过程中会出现此提示. 正常采集. 4.请使用您在安装此插件时使用的域名登录后台进行采集.
此插件的优点:
自动在平台上采集每日更新的内容,并且无需重新编辑即可自动排版所有内容.
可以使用天人系列管理系统的所有系统,并且按钮样式自动匹配.
此插件不是自动采集插件,您需要单击一个按钮以触发批量采集
安装过程
点击上方的“立即安装”按钮(如下所示):

1分钟后,将显示一个带有黑色背景的“正在加载”蓝色字体页面(如下所示)

稍等片刻,页面将变为黑色背景和绿色字体的“天人系列管理系统项目自动部署工具”(如下所示)
如果页面上的所有权限检查均通过,并且没有红色字体“无法读取”,“无法写入”和“无法删除”,则会自动安装. 几分钟后,将提示您安装完成. 不要关闭页面. 8秒后,您将跳至官方网站获取注册码,然后可以使用此应用程序.

获取注册码页面,单击“生成注册码”按钮(如下所示)

这时,系统将根据您的域名自动生成注册码(如下所示)

值得注意的是,不需要在网站上单独填写注册码. 您安装的应用程序将自动获取注册码. 您刷新刚刚提示注册码的页面,以查看其是否可以正常使用.
常见问题
问: 为什么我需要获得免费申请的注册码?我需要付款吗?
A: 注册码是用于激活您已安装的插件的. 无需付款. 在下一页输入网站的一级域名以自动生成注册码. 注册代码是根据一级域名生成的. 更改域名之后,您可以再次获得注册码,如果您像其他人的网站程序或插件一样更改域名,则注册码不会被废除. 还值得一提的是,在正常情况下,不需要手动在后端输入注册码. 在后台更新缓存时,将自动获取您获取的所有注册码,非常方便,快捷.
问: 如何获取付费应用程序的注册代码?
A: 付费应用程序需要使用现金购买注册码. 请按照页面上的说明单击“获取注册码”按钮,然后转到付款页面以支付相应的金额,注册码将自动生成.
问: 我需要单独保存注册码吗?如果丢失了该怎么办?如何在我的网站上输入注册码?
A: 通常,您不需要单独保存注册码,因为获得注册码的域名将自动保存在官方网站的数据库中,并且您的网站将自动获取注册码. 官方网站上的注册码. 即使注册码丢失,只要在后台更新缓存,您的注册码也会立即被检索. 当然,如果您愿意手动输入注册码,则可以在后台的“注册码管理”中输入注册码. 其效果与通过更新缓存获得的注册码相同.
问: 我的注册码是否会被他人盗用?
A: 注册代码是根据您网站的一级域名生成的. 每个网站的域名在这个世界上都是唯一的,因此注册码也是唯一的,其他人无法窃取您的注册码.
问: 如何获取尚未通过我的网站的后端应用程序中心下载的应用程序的注册码?
A: 要获取注册码,您可以在网站后端的“我的应用程序”或“我的模板”中找到与您刚安装的应用程序或模板相对应的“单击查看”按钮,然后跳至官方网站(如下所示)

跳至对应于官方网站应用程序的详细信息页面后,以红色字体“您的一级域名”填写您的域名. 可以不填写一级域名. 系统将自动设置第一级域名,然后单击“获取注册码”按钮并按照提示进行操作. (如下图所示)
[免费发布] wp-auto-post 3.6.2完全修复版本(包括翻译)
采集交流 • 优采云 发表了文章 • 0 个评论 • 185 次浏览 • 2020-08-07 18:28
收费是50元,这是一个完全修复的版本. 博主已启动该网站,并且正在正常使用. 基于真实的3.6.2解码,
此版本主要修复: 正确的规则后,无法在集合中找到文章的内容和标题(整个页面集合的第二个验证问题),无法使用翻译功能(技术支持)未提供)
它不会像在市场上那样在两天内暂停采集,或者只会添加一个BUG的采集规则. 打开下载地址本地下载百度网盘
规则写成每张十元. 不要说购买时无法使用它. 建议从有基础知识的朋友那里购买.
官方介绍:
WP-AutoPost插件可以从任何网站采集内容并自动更新WordPress网站. 它非常易于使用,不需要复杂的设置,并且功能强大且稳定,足以支持wordpress的所有功能.
一键安装,自动采集和更新,无需人工干预
WP-AutoPost的安装非常简单方便. 只需几分钟即可开始自动采集和更新您的网站,并与开源WordPress程序结合使用,新手可以快速上手,根据设置的采集方法采集URL,然后自动抓取Web内容,检测文章是否复制并导入更新的文章,所有这些操作将自动完成,无需人工干预. 我们还提供专门的客户服务,为商业客户提供技术支持.
目标集合,支持通配符,CSS选择器和其他方法来准确采集任何内容
目标采集仅需提供文章列表URL,即可从任何网站或专栏智能地采集内容,这既方便又简单. 设置简单的规则可以准确地采集标题,正文和任何其他内容.
完美支持Wordpress的各种功能,自动设置类别,标签,摘要,特色图片,支持自定义列,自定义文章类型等.
完全支持Wordpress的各种功能,您可以选择要发布的类别,自动添加标签,自动生成摘要以及自动设置特色图片. 支持自定义文章类型,自定义分类,文章格式. 您甚至可以抓取任何内容并将其添加到“ Wordpress自定义列”,以方便扩展. 查看全部
最初计划免费发布该版本,但是由于维护该版本会占用博客作者大量时间和精力,因此暂定要收费发行.
收费是50元,这是一个完全修复的版本. 博主已启动该网站,并且正在正常使用. 基于真实的3.6.2解码,
此版本主要修复: 正确的规则后,无法在集合中找到文章的内容和标题(整个页面集合的第二个验证问题),无法使用翻译功能(技术支持)未提供)
它不会像在市场上那样在两天内暂停采集,或者只会添加一个BUG的采集规则. 打开下载地址本地下载百度网盘
规则写成每张十元. 不要说购买时无法使用它. 建议从有基础知识的朋友那里购买.
官方介绍:
WP-AutoPost插件可以从任何网站采集内容并自动更新WordPress网站. 它非常易于使用,不需要复杂的设置,并且功能强大且稳定,足以支持wordpress的所有功能.

一键安装,自动采集和更新,无需人工干预
WP-AutoPost的安装非常简单方便. 只需几分钟即可开始自动采集和更新您的网站,并与开源WordPress程序结合使用,新手可以快速上手,根据设置的采集方法采集URL,然后自动抓取Web内容,检测文章是否复制并导入更新的文章,所有这些操作将自动完成,无需人工干预. 我们还提供专门的客户服务,为商业客户提供技术支持.

目标集合,支持通配符,CSS选择器和其他方法来准确采集任何内容
目标采集仅需提供文章列表URL,即可从任何网站或专栏智能地采集内容,这既方便又简单. 设置简单的规则可以准确地采集标题,正文和任何其他内容.

完美支持Wordpress的各种功能,自动设置类别,标签,摘要,特色图片,支持自定义列,自定义文章类型等.
完全支持Wordpress的各种功能,您可以选择要发布的类别,自动添加标签,自动生成摘要以及自动设置特色图片. 支持自定义文章类型,自定义分类,文章格式. 您甚至可以抓取任何内容并将其添加到“ Wordpress自定义列”,以方便扩展.
Guanguan Collector V10 Unlimited Edition,2020 Advanced Function Guangguan Collector,Jieqi Novel Collector
采集交流 • 优采云 发表了文章 • 0 个评论 • 173 次浏览 • 2020-08-07 15:15
软件简介
Guanguan Collector V10 Unlimited Edition,2020 Advanced Function Guangguan Collector,Jieqi Novel Collector
此模型是经过数年不断更新和更改后制成的. 与市场上的摊位和悬浮动画不同,采集速度非常快,具有替换章节(自动修复),批处理一键修复和自动比较章节(该章节内容相同,请勿替换),突破列出反采集,代理循环,解开目录语音化,可以生成零距离内部链,QR代码URL生成,反采集设置...太多实用和SEO功能强大,每个人都可以亲自体验!
许多主要网站都使用该网站!
2020年高级功能关闭采集器的新功能和使用方法:
1. 收款规则
在采集规则管理中可见
绿色参数NovelListFilter设置为在采集书籍列表时不过滤多余的书籍ID. 它可以过滤要检索的html.
绿色参数PubContentPageUrl和PubContentPageKey设置为采集文章内容和分页. 您可以告别PHP插件.
红色参数PubContentChapterName,PubContentChapterNum在前几章中,某些站点使用乱码. 使用它来检索乱码的章节名称.
2. 静态生成整个网站
在生成静态HTML时可见
更改原创动态首页地址的名称,即要求其首页不要默认为伪静态首页,然后使用物理路径指向默认首页并生成新的首页.
带参数的是高级功能. 您可以调用{Page}替换参数并生成列表页面.
提示: 生成部分是因为采集器和网站位于同一服务器上,因此可以将localhost用作网站地址,以便可以在内部但不能在外部访问它.
使用自定义路径,您无需动态登录即可生成站点范围的html. 在搜索部分,您需要像以前一样使用动态功能,或者可以根据自己的技术与ajax合作.
如果您愿意付款,可以找到我,免费的是886.
3. 动态代理
与他在一起,您将不会害怕被禁止.
打开自动代理模式,然后输入URL获取代理ip(可以在快速代理,代理666和其他站点上购买代理ip,可以按月订阅)
打开一个或多个自动代理,以测试ip的可用性并将其存储. 当ip超过10时,您可以使用代理. 会自动连续不断地更改ip,呼叫目标占了意外.
4. 产生分页
为获得更好的引擎收录效果,它可以自动生成分页,可以在自定义路径中设置分页,而无需高级授权.
软件屏幕截图
软件下载 查看全部
关闭关闭采集器V10无限版,2020年高级功能关闭关闭采集器,采集器杰基小说已更新: 2019-12-07阅读(872)评论(1)
软件简介
Guanguan Collector V10 Unlimited Edition,2020 Advanced Function Guangguan Collector,Jieqi Novel Collector
此模型是经过数年不断更新和更改后制成的. 与市场上的摊位和悬浮动画不同,采集速度非常快,具有替换章节(自动修复),批处理一键修复和自动比较章节(该章节内容相同,请勿替换),突破列出反采集,代理循环,解开目录语音化,可以生成零距离内部链,QR代码URL生成,反采集设置...太多实用和SEO功能强大,每个人都可以亲自体验!
许多主要网站都使用该网站!
2020年高级功能关闭采集器的新功能和使用方法:
1. 收款规则
在采集规则管理中可见
绿色参数NovelListFilter设置为在采集书籍列表时不过滤多余的书籍ID. 它可以过滤要检索的html.
绿色参数PubContentPageUrl和PubContentPageKey设置为采集文章内容和分页. 您可以告别PHP插件.
红色参数PubContentChapterName,PubContentChapterNum在前几章中,某些站点使用乱码. 使用它来检索乱码的章节名称.
2. 静态生成整个网站
在生成静态HTML时可见
更改原创动态首页地址的名称,即要求其首页不要默认为伪静态首页,然后使用物理路径指向默认首页并生成新的首页.
带参数的是高级功能. 您可以调用{Page}替换参数并生成列表页面.
提示: 生成部分是因为采集器和网站位于同一服务器上,因此可以将localhost用作网站地址,以便可以在内部但不能在外部访问它.
使用自定义路径,您无需动态登录即可生成站点范围的html. 在搜索部分,您需要像以前一样使用动态功能,或者可以根据自己的技术与ajax合作.
如果您愿意付款,可以找到我,免费的是886.
3. 动态代理
与他在一起,您将不会害怕被禁止.
打开自动代理模式,然后输入URL获取代理ip(可以在快速代理,代理666和其他站点上购买代理ip,可以按月订阅)
打开一个或多个自动代理,以测试ip的可用性并将其存储. 当ip超过10时,您可以使用代理. 会自动连续不断地更改ip,呼叫目标占了意外.
4. 产生分页
为获得更好的引擎收录效果,它可以自动生成分页,可以在自定义路径中设置分页,而无需高级授权.
软件屏幕截图




软件下载
WP-AutoBlog(自动采集和发布插件)V1.2.9免费版
采集交流 • 优采云 发表了文章 • 0 个评论 • 292 次浏览 • 2020-08-07 08:21
[软件功能]
可以采集任何网站的内容,采集的信息一目了然
通过简单的设置,您可以从任何网站采集内容,还可以将多个采集任务设置为同时运行. 您可以将任务设置为自动或手动运行. 主任务列表显示每个采集任务的状态: 上次检测采集时间,下一次检测的估计采集时间,最新采集的文章,已采集和更新的文章数以及其他易于查看和查看的信息. 管理.
文章管理功能方便查询,搜索和删除采集的文章. 改进的算法从根本上消除了同一文章的重复采集. 日志功能记录采集过程中的异常和抓取错误,便于检查和设置维修错误.
可以采集任何网站的内容,并且所采集的信息一目了然. 文章管理功能完善,便于查询管理,并具有日志功能,可以记录馆藏异常情况.
启用任务后,它将自动采集和更新,而无需人工干预.
启用该任务后,检查是否有新文章要定期更新,检查文章是否重复,然后导入更新的文章. 所有这些操作都是自动完成的,无需人工干预.
触发采集和更新的方法有两种,一种是在页面中添加代码以通过用户访问来触发采集和更新(在后台异步,不影响用户体验,也不影响效率)的网站),并且可以使用Cron计划任务定期触发采集集更新任务
定向采集,支持通配符匹配,或CSS选择器以准确采集任何内容,支持采集多级文章列表,支持采集正文页面内容,支持采集多级正文内容
目标采集仅需提供文章列表URL,即可从任何网站或专栏智能地采集内容.
不仅支持“通配符匹配”来采集Web内容,而且还支持各种CSS选择器. 只需填写一个简单的CSS选择器(如#title h1)即可准确采集任何Web内容. (如何设置CSS选择器)
支持设置关键字,如果标题中收录关键字,则仅允许采集(或不允许过滤掉采集).
支持设置多个匹配规则以采集网页上的不同内容,甚至支持采集任何内容并将其添加到“ Wordpress自定义列”以方便扩展.
<p>定向集合,支持通配符匹配或CSS选择器以准确采集任何内容,支持正文页面内容的采集定向集合,支持通配符匹配或CSS选择器以准确采集任何内容,支持正文页面内容的采集 查看全部
WP-AutoBlog是一个自动采集和发布插件,可以从任何网站采集内容并自动更新WordPress网站. 它非常易于使用,不需要复杂的设置,并且功能强大且稳定,足以支持所有wordpress功能.

[软件功能]
可以采集任何网站的内容,采集的信息一目了然
通过简单的设置,您可以从任何网站采集内容,还可以将多个采集任务设置为同时运行. 您可以将任务设置为自动或手动运行. 主任务列表显示每个采集任务的状态: 上次检测采集时间,下一次检测的估计采集时间,最新采集的文章,已采集和更新的文章数以及其他易于查看和查看的信息. 管理.
文章管理功能方便查询,搜索和删除采集的文章. 改进的算法从根本上消除了同一文章的重复采集. 日志功能记录采集过程中的异常和抓取错误,便于检查和设置维修错误.
可以采集任何网站的内容,并且所采集的信息一目了然. 文章管理功能完善,便于查询管理,并具有日志功能,可以记录馆藏异常情况.
启用任务后,它将自动采集和更新,而无需人工干预.
启用该任务后,检查是否有新文章要定期更新,检查文章是否重复,然后导入更新的文章. 所有这些操作都是自动完成的,无需人工干预.
触发采集和更新的方法有两种,一种是在页面中添加代码以通过用户访问来触发采集和更新(在后台异步,不影响用户体验,也不影响效率)的网站),并且可以使用Cron计划任务定期触发采集集更新任务
定向采集,支持通配符匹配,或CSS选择器以准确采集任何内容,支持采集多级文章列表,支持采集正文页面内容,支持采集多级正文内容
目标采集仅需提供文章列表URL,即可从任何网站或专栏智能地采集内容.
不仅支持“通配符匹配”来采集Web内容,而且还支持各种CSS选择器. 只需填写一个简单的CSS选择器(如#title h1)即可准确采集任何Web内容. (如何设置CSS选择器)

支持设置关键字,如果标题中收录关键字,则仅允许采集(或不允许过滤掉采集).
支持设置多个匹配规则以采集网页上的不同内容,甚至支持采集任何内容并将其添加到“ Wordpress自定义列”以方便扩展.
<p>定向集合,支持通配符匹配或CSS选择器以准确采集任何内容,支持正文页面内容的采集定向集合,支持通配符匹配或CSS选择器以准确采集任何内容,支持正文页面内容的采集
具有自己的采集规则的全自动,带有wap移动版本的梦幻编织DEDE小说,seo优化,快速采集,百度图片
采集交流 • 优采云 发表了文章 • 0 个评论 • 279 次浏览 • 2020-08-07 01:14
安装环境
产品介绍
傻瓜式安装,自动采集,一次性安装和终生受益
不接受退款,如果您不同意,请勿射击
1. 源代码类型: 整个网站的源代码
2. 环境要求: PHP5.2 / 5.3 / 5.4 / 5.5 + MYSQL5(URLrewrite)
3. 服务器要求: 建议使用VPS或具有40G或更多数据磁盘的独立服务器. 建议系统使用Windows而不是Linux. 新颖的站点服务器中有99%使用Windows系统,这便于文件管理和备份. 站空间使用: 6.5G数据库+ 5G网站空间,经团体网站验证: 4核CPU + 4G内存的Xen架构VPS每天可承受50,000个IP和500,000个PV流量,每天可赚取700元)
4. 原创程序: 织梦DEDECMS 5.7SP1
5. 编码类型: GBK
6. 可以采集: 自动采集,赠送三个规则
7. 其他功能:
(1)自动为主页,类别,目录,作者,排名和站点地图页面生成静态html.
(2)全站点拼音目录(可以自定义URL格式),章节页面是伪静态的.
(3)支持下载功能,可以自动生成相应的文本文件,并可以在文件中设置广告.
(4)自动生成关键字和关键字自动内部链接.
(5)自动伪原创单词替换(可以在采集和输出期间替换).
(6)使用CNZZ的统计插件,可以方便地下载详细统计信息和采集详细统计信息.
(7)该程序的自动采集在市场上并不普遍,例如关冠,聚会者等,而是在DEDE原创采集功能的基础上二次开发的采集模块,可以有效地确保章节内容的完整性可以避免章节重复,章节内容没有内容,章节乱码等;每天24小时可以采集250,000至300,000个章节.
查看全部
产品属性
安装环境
产品介绍
傻瓜式安装,自动采集,一次性安装和终生受益
不接受退款,如果您不同意,请勿射击
1. 源代码类型: 整个网站的源代码
2. 环境要求: PHP5.2 / 5.3 / 5.4 / 5.5 + MYSQL5(URLrewrite)
3. 服务器要求: 建议使用VPS或具有40G或更多数据磁盘的独立服务器. 建议系统使用Windows而不是Linux. 新颖的站点服务器中有99%使用Windows系统,这便于文件管理和备份. 站空间使用: 6.5G数据库+ 5G网站空间,经团体网站验证: 4核CPU + 4G内存的Xen架构VPS每天可承受50,000个IP和500,000个PV流量,每天可赚取700元)
4. 原创程序: 织梦DEDECMS 5.7SP1
5. 编码类型: GBK
6. 可以采集: 自动采集,赠送三个规则
7. 其他功能:
(1)自动为主页,类别,目录,作者,排名和站点地图页面生成静态html.
(2)全站点拼音目录(可以自定义URL格式),章节页面是伪静态的.
(3)支持下载功能,可以自动生成相应的文本文件,并可以在文件中设置广告.
(4)自动生成关键字和关键字自动内部链接.
(5)自动伪原创单词替换(可以在采集和输出期间替换).
(6)使用CNZZ的统计插件,可以方便地下载详细统计信息和采集详细统计信息.
(7)该程序的自动采集在市场上并不普遍,例如关冠,聚会者等,而是在DEDE原创采集功能的基础上二次开发的采集模块,可以有效地确保章节内容的完整性可以避免章节重复,章节内容没有内容,章节乱码等;每天24小时可以采集250,000至300,000个章节.

用于日常棋牌信息采集规则的五种插件
采集交流 • 优采云 发表了文章 • 0 个评论 • 589 次浏览 • 2020-08-07 00:09
此插件可以通过天人官方采集平台进行转移,以获取五类棋牌信息下的每日更新文章(不采集旧文章),这意味着您可以获得在在整个网络上实时显示. 可配合自动收款插件实现全自动免维护更新网站功能.
之前发言:
这种采集规则插件消耗了我们大量的服务器资源和成本,因此该插件需要每年进行更新. 对于具有授权软件包2和更高版本的用户,授权中的任何域名在安装此插件后将免费使用一年. 之后,该插件可以每年以半价连续使用.
尚未购买授权用户或授权级别低于套餐2的用户需要单独购买并更新原创价格.
授权用户只需要以半价更新最高价的二手采集规则插件即可. 在所有用户授权下,可以在网站上免费使用所有采集规则插件. 例如,您每年只需要更新一个99元的收款规则插件,半价为49.5元. 所有网站都可以继续免费使用所有99元及以下采集规则的插件,为期一年.
使用方法:
安装后,在网站后台采集管理规则管理中,您可以单击规则前面的采集按钮以单独采集,也可以选择多个采集.
编辑方法:
安装后,您将在网站背景采集管理规则管理中看到多个采集规则. 这些采集规则的归因列默认为ID为1的网站列,默认设置是将远程图片保存到服务器. 因此,请根据实际情况,将采集规则的归属列设置为其他列,方法是: 网站背景-采集管理-规则管理-单击采集规则所属类别前的“编辑”按钮-选择您的分类-单击“下一步”保存当前页面的设置.
如果您不想在采集过程中将远程图片保存到服务器,请使用以下方法: 网站背景-采集管理-规则管理-单击采集规则前的“编辑”按钮-新闻设置-保存图片- -取消选中“下一步”以保存当前页面的设置.
设置默认和固定的作者姓名,方法: 网站背景-采集夹管理-规则管理-单击某个采集夹规则前面的“编辑”按钮-下一个-下一个-作者设置-填写固定的字符.
如何将采集的数据发布到网站?方法: 网站后台采集管理数据存储,可以选择存储所有内容或选中部分内容存储在此处,也可以删除所有内容或删除部分选中的内容.
为什么采集一些内容后提示重复?因为: 为了防止重复采集并浪费不必要的时间和资源,如果要重新采集已采集的数据,请转到网站采集管理历史记录的后台,您可以在此处删除历史记录或有选择地删除浏览器内部页面顶部的标题栏中会过滤“成功记录”,“失败记录”和“无效记录”.
常见问题:
可以修改已安装的采集规则吗?
回答: 不能修改“目标网页编码”和“远程列表URL”. 请谨慎修改其他内容,否则很容易采集失败.
为什么提示“服务器资源有限,并且文章无法直接浏览. 请安装或升级用于批次采集的采集插件. ”
回答: 1.无法修改“目标网页编码”和“远程列表URL”. 请小心修改其他内容,否则很容易采集失败. . 2.检查您登录到后端的域名是否已获取采集规则插件的注册码. 3.请直接采集,请勿点击测试按钮,测试过程中会出现此提示. 正常采集. 4.请使用您在安装此插件时使用的域名登录后台进行采集.
此插件的优点:
自动在平台上采集每日更新的内容,并且无需重新编辑即可自动排版所有内容.
可以使用天人系列管理系统的所有系统,并且按钮样式自动匹配.
此插件不是自动采集插件,您需要单击一个按钮以触发批量采集
安装过程
点击上方的“立即安装”按钮(如下所示):
1分钟后,将显示一个带有黑色背景的“正在加载”蓝色字体页面(如下所示)
稍等片刻,页面将变为黑色背景和绿色字体的“天人系列管理系统项目自动部署工具”(如下所示)
如果页面上的所有权限检查均通过,并且没有红色字体“无法读取”,“无法写入”和“无法删除”,则会自动安装. 几分钟后,将提示您安装完成. 不要关闭页面. 8秒后,您将跳至官方网站获取注册码,然后可以使用此应用程序.
获取注册码页面,单击“生成注册码”按钮(如下所示)
这时,系统将根据您的域名自动生成注册码(如下所示)
值得注意的是,不需要在网站上单独填写注册码. 您安装的应用程序将自动获取注册码. 您刷新刚刚提示注册码的页面,以查看其是否可以正常使用.
常见问题
问: 为什么我需要获得免费申请的注册码?我需要付款吗?
A: 注册码是用于激活您已安装的插件的. 无需付款. 在下一页输入网站的一级域名以自动生成注册码. 注册代码是根据一级域名生成的. 更改域名之后,您可以再次获得注册码,如果您像其他人的网站程序或插件一样更改域名,则注册码不会被废除. 还值得一提的是,在正常情况下,不需要手动在后端输入注册码. 在后台更新缓存时,将自动获取您获取的所有注册码,非常方便,快捷.
问: 如何获取付费应用程序的注册代码?
A: 付费应用程序需要使用现金购买注册码. 请按照页面上的说明单击“获取注册码”按钮,然后转到付款页面以支付相应的金额,注册码将自动生成.
问: 我需要单独保存注册码吗?如果丢失了该怎么办?如何在我的网站上输入注册码?
A: 通常,您不需要单独保存注册码,因为获得注册码的域名将自动保存在官方网站的数据库中. 同时,您的网站将自动从官方网站获取注册码. 即使注册码丢失,只要在后台更新缓存,您的注册码也会立即被检索. 当然,如果您愿意手动输入注册码,则可以在后台的“注册码管理”中输入注册码. 其效果与通过更新缓存获得的注册码相同.
问: 我的注册码是否会被他人盗用?
A: 注册代码是根据您网站的一级域名生成的. 每个网站的域名在这个世界上都是唯一的,因此注册码也是唯一的,其他人无法窃取您的注册码.
问: 如何获取尚未通过我的网站的后端应用程序中心下载的应用程序的注册码?
A: 要获取注册码,您可以在网站后端的“我的应用程序”或“我的模板”中找到与您刚安装的应用程序或模板相对应的“单击查看”按钮,然后跳至官方网站(如下所示)
跳至对应于官方网站应用程序的详细信息页面后,以红色字体“您的一级域名”填写您的域名. 可以不填写一级域名. 系统将自动设置第一级域名,然后单击“获取注册码”按钮并按照提示进行操作. (如下图所示) 查看全部
详细介绍
此插件可以通过天人官方采集平台进行转移,以获取五类棋牌信息下的每日更新文章(不采集旧文章),这意味着您可以获得在在整个网络上实时显示. 可配合自动收款插件实现全自动免维护更新网站功能.
之前发言:
这种采集规则插件消耗了我们大量的服务器资源和成本,因此该插件需要每年进行更新. 对于具有授权软件包2和更高版本的用户,授权中的任何域名在安装此插件后将免费使用一年. 之后,该插件可以每年以半价连续使用.
尚未购买授权用户或授权级别低于套餐2的用户需要单独购买并更新原创价格.
授权用户只需要以半价更新最高价的二手采集规则插件即可. 在所有用户授权下,可以在网站上免费使用所有采集规则插件. 例如,您每年只需要更新一个99元的收款规则插件,半价为49.5元. 所有网站都可以继续免费使用所有99元及以下采集规则的插件,为期一年.
使用方法:
安装后,在网站后台采集管理规则管理中,您可以单击规则前面的采集按钮以单独采集,也可以选择多个采集.
编辑方法:
安装后,您将在网站背景采集管理规则管理中看到多个采集规则. 这些采集规则的归因列默认为ID为1的网站列,默认设置是将远程图片保存到服务器. 因此,请根据实际情况,将采集规则的归属列设置为其他列,方法是: 网站背景-采集管理-规则管理-单击采集规则所属类别前的“编辑”按钮-选择您的分类-单击“下一步”保存当前页面的设置.
如果您不想在采集过程中将远程图片保存到服务器,请使用以下方法: 网站背景-采集管理-规则管理-单击采集规则前的“编辑”按钮-新闻设置-保存图片- -取消选中“下一步”以保存当前页面的设置.
设置默认和固定的作者姓名,方法: 网站背景-采集夹管理-规则管理-单击某个采集夹规则前面的“编辑”按钮-下一个-下一个-作者设置-填写固定的字符.
如何将采集的数据发布到网站?方法: 网站后台采集管理数据存储,可以选择存储所有内容或选中部分内容存储在此处,也可以删除所有内容或删除部分选中的内容.
为什么采集一些内容后提示重复?因为: 为了防止重复采集并浪费不必要的时间和资源,如果要重新采集已采集的数据,请转到网站采集管理历史记录的后台,您可以在此处删除历史记录或有选择地删除浏览器内部页面顶部的标题栏中会过滤“成功记录”,“失败记录”和“无效记录”.
常见问题:
可以修改已安装的采集规则吗?
回答: 不能修改“目标网页编码”和“远程列表URL”. 请谨慎修改其他内容,否则很容易采集失败.
为什么提示“服务器资源有限,并且文章无法直接浏览. 请安装或升级用于批次采集的采集插件. ”
回答: 1.无法修改“目标网页编码”和“远程列表URL”. 请小心修改其他内容,否则很容易采集失败. . 2.检查您登录到后端的域名是否已获取采集规则插件的注册码. 3.请直接采集,请勿点击测试按钮,测试过程中会出现此提示. 正常采集. 4.请使用您在安装此插件时使用的域名登录后台进行采集.
此插件的优点:
自动在平台上采集每日更新的内容,并且无需重新编辑即可自动排版所有内容.
可以使用天人系列管理系统的所有系统,并且按钮样式自动匹配.
此插件不是自动采集插件,您需要单击一个按钮以触发批量采集
安装过程
点击上方的“立即安装”按钮(如下所示):

1分钟后,将显示一个带有黑色背景的“正在加载”蓝色字体页面(如下所示)

稍等片刻,页面将变为黑色背景和绿色字体的“天人系列管理系统项目自动部署工具”(如下所示)
如果页面上的所有权限检查均通过,并且没有红色字体“无法读取”,“无法写入”和“无法删除”,则会自动安装. 几分钟后,将提示您安装完成. 不要关闭页面. 8秒后,您将跳至官方网站获取注册码,然后可以使用此应用程序.

获取注册码页面,单击“生成注册码”按钮(如下所示)

这时,系统将根据您的域名自动生成注册码(如下所示)

值得注意的是,不需要在网站上单独填写注册码. 您安装的应用程序将自动获取注册码. 您刷新刚刚提示注册码的页面,以查看其是否可以正常使用.
常见问题
问: 为什么我需要获得免费申请的注册码?我需要付款吗?
A: 注册码是用于激活您已安装的插件的. 无需付款. 在下一页输入网站的一级域名以自动生成注册码. 注册代码是根据一级域名生成的. 更改域名之后,您可以再次获得注册码,如果您像其他人的网站程序或插件一样更改域名,则注册码不会被废除. 还值得一提的是,在正常情况下,不需要手动在后端输入注册码. 在后台更新缓存时,将自动获取您获取的所有注册码,非常方便,快捷.
问: 如何获取付费应用程序的注册代码?
A: 付费应用程序需要使用现金购买注册码. 请按照页面上的说明单击“获取注册码”按钮,然后转到付款页面以支付相应的金额,注册码将自动生成.
问: 我需要单独保存注册码吗?如果丢失了该怎么办?如何在我的网站上输入注册码?
A: 通常,您不需要单独保存注册码,因为获得注册码的域名将自动保存在官方网站的数据库中. 同时,您的网站将自动从官方网站获取注册码. 即使注册码丢失,只要在后台更新缓存,您的注册码也会立即被检索. 当然,如果您愿意手动输入注册码,则可以在后台的“注册码管理”中输入注册码. 其效果与通过更新缓存获得的注册码相同.
问: 我的注册码是否会被他人盗用?
A: 注册代码是根据您网站的一级域名生成的. 每个网站的域名在这个世界上都是唯一的,因此注册码也是唯一的,其他人无法窃取您的注册码.
问: 如何获取尚未通过我的网站的后端应用程序中心下载的应用程序的注册码?
A: 要获取注册码,您可以在网站后端的“我的应用程序”或“我的模板”中找到与您刚安装的应用程序或模板相对应的“单击查看”按钮,然后跳至官方网站(如下所示)

跳至对应于官方网站应用程序的详细信息页面后,以红色字体“您的一级域名”填写您的域名. 可以不填写一级域名. 系统将自动设置第一级域名,然后单击“获取注册码”按钮并按照提示进行操作. (如下图所示)
小说源网站PHP伪静态,使用微信+移动终端自动采集,开源,无限交付规则
采集交流 • 优采云 发表了文章 • 0 个评论 • 350 次浏览 • 2020-08-06 12:16
安装环境
产品介绍
温馨提示: 由于本店业务繁忙,请提前联系我们的客服进行购买. 如果买家购买后需要提供安装服务,本店可能暂时不会处理!谢谢您的合作! !不要开枪小白.
####演示地址: pc: 移动终端:
服务器要求: 建议将VPS与40G数据磁盘或专用服务器一起使用.
重要提示: 如果源代码支持iis6,则需要添加ISAPI_Rewrite3破解版,并且此存储会将其分发. 支持apache. 支持Nginx,但是根目录中的伪静态规则.htaccess需要自己从apache转换为Nginx. 百度上有很多工具.
模板功能: 更新时间(2018年5月13日)
(1)自动为主页,类别,目录,排名,站点地图页面(类别页面,小说封面,作者页面)生成静态html,如果html文件在设置的时间后不存在或未更新,则将如果存在采集,则小说的封面和相应的分类页面将在采集期间自动更新),直接通过PHP调用html文件,而不是在根目录中生成该文件,访问速度为与纯静态文件不同,源文件管理可以很方便. 同时,它减轻了服务器压力,但也方便了访问统计信息并提高了搜索引擎的识别率.
(2)完整的拼音目录,章节页面是伪静态的.
(3)自动生成新颖的txt文件,或在后台重新生成txt文件. (默认关闭,现在百度正在打击下载,“清风算法seo”)(新)
(4)自动生成新颖的关键字和关键字自动内部链接.
(5)自动伪原创单词替换(采集期间替换).
(6)添加新功能,例如小说的总点击,每月点击,每周点击,总推荐,每月推荐,每周推荐统计和作者推荐统计.
(7)添加60个美观的盖子以减轻服务器压力,并在采集时自动生效. 整个网络. (新)
(8)开发符合百度360的智能摘要. (新)
(9)重新开发页面并更改背景. (新)
(10)移动版本实现了伪静态(新)
查看全部
产品属性
安装环境
产品介绍
温馨提示: 由于本店业务繁忙,请提前联系我们的客服进行购买. 如果买家购买后需要提供安装服务,本店可能暂时不会处理!谢谢您的合作! !不要开枪小白.
####演示地址: pc: 移动终端:
服务器要求: 建议将VPS与40G数据磁盘或专用服务器一起使用.
重要提示: 如果源代码支持iis6,则需要添加ISAPI_Rewrite3破解版,并且此存储会将其分发. 支持apache. 支持Nginx,但是根目录中的伪静态规则.htaccess需要自己从apache转换为Nginx. 百度上有很多工具.
模板功能: 更新时间(2018年5月13日)
(1)自动为主页,类别,目录,排名,站点地图页面(类别页面,小说封面,作者页面)生成静态html,如果html文件在设置的时间后不存在或未更新,则将如果存在采集,则小说的封面和相应的分类页面将在采集期间自动更新),直接通过PHP调用html文件,而不是在根目录中生成该文件,访问速度为与纯静态文件不同,源文件管理可以很方便. 同时,它减轻了服务器压力,但也方便了访问统计信息并提高了搜索引擎的识别率.
(2)完整的拼音目录,章节页面是伪静态的.
(3)自动生成新颖的txt文件,或在后台重新生成txt文件. (默认关闭,现在百度正在打击下载,“清风算法seo”)(新)
(4)自动生成新颖的关键字和关键字自动内部链接.
(5)自动伪原创单词替换(采集期间替换).
(6)添加新功能,例如小说的总点击,每月点击,每周点击,总推荐,每月推荐,每周推荐统计和作者推荐统计.
(7)添加60个美观的盖子以减轻服务器压力,并在采集时自动生效. 整个网络. (新)
(8)开发符合百度360的智能摘要. (新)
(9)重新开发页面并更改背景. (新)
(10)移动版本实现了伪静态(新)




WP-AutoPost-Pro WordPress自动采集和发布翻译插件支持5
采集交流 • 优采云 发表了文章 • 0 个评论 • 600 次浏览 • 2020-08-06 12:13
可以采集任何网站的内容,采集的信息一目了然
通过简单的设置,您可以从任何网站采集内容,还可以将多个采集任务设置为同时运行. 您可以将任务设置为自动或手动运行. 主任务列表显示每个采集任务的状态: 上次检测采集时间,下一次检测的估计采集时间,最新采集的文章,已采集和更新的文章数以及其他易于查看和查看的信息. 管理.
文章管理功能方便查询,搜索和删除采集的文章. 改进的算法从根本上消除了同一文章的重复采集. 日志功能记录采集过程中的异常和抓取错误,便于检查和设置维修错误.
启用任务后,它将自动采集和更新,而无需人工干预.
启用该任务后,检查是否有新文章要定期更新,检查文章是否重复,然后导入更新的文章. 所有这些操作都是自动完成的,无需人工干预.
触发采集和更新的方法有两种,一种是在页面中添加代码以通过用户访问来触发采集和更新(在后台异步,不影响用户体验,也不影响效率)的网站),并且可以使用Cron计划任务定期触发采集集更新任务
定向采集,支持通配符匹配,或CSS选择器以准确采集任何内容,支持采集多级文章列表,支持采集正文页面内容,支持采集多级正文内容
目标采集仅需提供文章列表URL,即可从任何网站或专栏智能地采集内容.
不仅支持“通配符匹配”来采集Web内容,而且还支持各种CSS选择器. 只需填写一个简单的CSS选择器(如#title h1)即可准确采集网络上的所有内容. (如何设置CSS选择器)
支持设置关键字,如果标题中收录关键字,则仅允许采集(或不允许过滤掉采集).
每个采集任务都可以选择发布到类别目录,发布作者,发布状态,检查和更新时间间隔,采集目标网站的字符集,以及选择下载图片还是附件.
支持自定义文章类型,自定义文章分类,文章格式
完全支持Wordpress的各种功能,自动添加标签,自动生成摘要,自动设置特色图片,支持自定义列等.
任何格式的远程图片和其他附件都可以下载到本地服务器,并自动为图片添加水印
支持将远程图像下载到本地服务器,并且可以选择自动添加文本水印或图像水印. 其他格式的附件和文档也可以轻松下载到本地服务器.
支持市场上所有主流对象存储服务,包括Qiniu Cloud,它可以自动将文章中的图片和附件上传到云对象存储服务,节省带宽和空间,并提高网站访问速度
支持内容过滤 查看全部

可以采集任何网站的内容,采集的信息一目了然
通过简单的设置,您可以从任何网站采集内容,还可以将多个采集任务设置为同时运行. 您可以将任务设置为自动或手动运行. 主任务列表显示每个采集任务的状态: 上次检测采集时间,下一次检测的估计采集时间,最新采集的文章,已采集和更新的文章数以及其他易于查看和查看的信息. 管理.
文章管理功能方便查询,搜索和删除采集的文章. 改进的算法从根本上消除了同一文章的重复采集. 日志功能记录采集过程中的异常和抓取错误,便于检查和设置维修错误.
启用任务后,它将自动采集和更新,而无需人工干预.
启用该任务后,检查是否有新文章要定期更新,检查文章是否重复,然后导入更新的文章. 所有这些操作都是自动完成的,无需人工干预.
触发采集和更新的方法有两种,一种是在页面中添加代码以通过用户访问来触发采集和更新(在后台异步,不影响用户体验,也不影响效率)的网站),并且可以使用Cron计划任务定期触发采集集更新任务
定向采集,支持通配符匹配,或CSS选择器以准确采集任何内容,支持采集多级文章列表,支持采集正文页面内容,支持采集多级正文内容
目标采集仅需提供文章列表URL,即可从任何网站或专栏智能地采集内容.
不仅支持“通配符匹配”来采集Web内容,而且还支持各种CSS选择器. 只需填写一个简单的CSS选择器(如#title h1)即可准确采集网络上的所有内容. (如何设置CSS选择器)
支持设置关键字,如果标题中收录关键字,则仅允许采集(或不允许过滤掉采集).
每个采集任务都可以选择发布到类别目录,发布作者,发布状态,检查和更新时间间隔,采集目标网站的字符集,以及选择下载图片还是附件.
支持自定义文章类型,自定义文章分类,文章格式
完全支持Wordpress的各种功能,自动添加标签,自动生成摘要,自动设置特色图片,支持自定义列等.
任何格式的远程图片和其他附件都可以下载到本地服务器,并自动为图片添加水印
支持将远程图像下载到本地服务器,并且可以选择自动添加文本水印或图像水印. 其他格式的附件和文档也可以轻松下载到本地服务器.
支持市场上所有主流对象存储服务,包括Qiniu Cloud,它可以自动将文章中的图片和附件上传到云对象存储服务,节省带宽和空间,并提高网站访问速度
支持内容过滤