
云端采集器
优采云采集器之PBOOTCMS入库
采集交流 • 优采云 发表了文章 • 0 个评论 • 318 次浏览 • 2020-08-10 12:18
本人使用的是优采云云端上下载的PBOOTCMS规则。然而在使用的时侯发觉入库选择的时侯只有新闻中心和新闻动态及公司动态三个类目可以入库。
今天我们来说一下怎么更改入库栏目。顺带从头到尾讲一下怎么优采云的使用吧。
第一步:下载插件。
首先我们去后台的云平台上搜索PBOOT找到这个插件,然后进行下载。
注意看一下,我们这儿可以看见一个APP标示: PbootDemoSkycaiji
此法为下载官方插件的方式。另外也可以自己发布一个插件。
不管是自己发布,还是官方下载,都可以。如果不是太熟的话,就直接用官方提供的这个插件。
第二步:我们来新建一个任务。
内容随意填一下都可以。
然后点:采集器设置
这些内容自己按需填写。
接着设置其他三个,都是比较简单的。不在这里重复。
第三步:我们点发布设置。
按此选择,然后选择绑定。
这个时侯会报错,由于PBOOCMS不是系统已知的CMS,所以须要在前面加上:@pboot
下面插件哪里会显示我们自己创建的和安装的插件。选择自己用的那一个。假如我选择云平台下载的那种pboot示例的。
相关选择自己按需填写。
此时,我们会发觉,在分类一栏中,我们只能见到三个栏目:新闻中心,公司新闻,行业新闻。
这也是我们明天要讲的重点。
我们刚刚说过,这个是要记住。这实际上是发布时所调用的一个PHP文件,具体路径为:你的优采云采集器网站从根目录开始,找到这个文件夹:
\plugin\release\cms
可以看见,这里有两个PHP文件,名字和刚刚的APP名子一样。你使用哪一个插件,对应的就更改哪一个PHP文件。
我使用官是PbootDemoSkycaiji这个,我们打开这个PHP文件。
在最顶部,我们看见
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->where("contenttpl='news.html'")->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
它上面指定了一个news.html,如果你将它改成:case.html,你将在优采云后台听到发布分类弄成了案例的栏目。于是,想要显示所有的栏目,我们可以这样更改。
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
然后返回发布后台,可以看见。所有的栏目都早已列下来了。然后再采集,正常发布。
查看全部
网上早已有优采云采集器的使用方式了。
本人使用的是优采云云端上下载的PBOOTCMS规则。然而在使用的时侯发觉入库选择的时侯只有新闻中心和新闻动态及公司动态三个类目可以入库。
今天我们来说一下怎么更改入库栏目。顺带从头到尾讲一下怎么优采云的使用吧。
第一步:下载插件。

首先我们去后台的云平台上搜索PBOOT找到这个插件,然后进行下载。
注意看一下,我们这儿可以看见一个APP标示: PbootDemoSkycaiji
此法为下载官方插件的方式。另外也可以自己发布一个插件。

不管是自己发布,还是官方下载,都可以。如果不是太熟的话,就直接用官方提供的这个插件。
第二步:我们来新建一个任务。
内容随意填一下都可以。

然后点:采集器设置

这些内容自己按需填写。

接着设置其他三个,都是比较简单的。不在这里重复。

第三步:我们点发布设置。

按此选择,然后选择绑定。

这个时侯会报错,由于PBOOCMS不是系统已知的CMS,所以须要在前面加上:@pboot

下面插件哪里会显示我们自己创建的和安装的插件。选择自己用的那一个。假如我选择云平台下载的那种pboot示例的。

相关选择自己按需填写。

此时,我们会发觉,在分类一栏中,我们只能见到三个栏目:新闻中心,公司新闻,行业新闻。
这也是我们明天要讲的重点。

我们刚刚说过,这个是要记住。这实际上是发布时所调用的一个PHP文件,具体路径为:你的优采云采集器网站从根目录开始,找到这个文件夹:
\plugin\release\cms

可以看见,这里有两个PHP文件,名字和刚刚的APP名子一样。你使用哪一个插件,对应的就更改哪一个PHP文件。
我使用官是PbootDemoSkycaiji这个,我们打开这个PHP文件。
在最顶部,我们看见
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->where("contenttpl='news.html'")->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
它上面指定了一个news.html,如果你将它改成:case.html,你将在优采云后台听到发布分类弄成了案例的栏目。于是,想要显示所有的栏目,我们可以这样更改。
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
然后返回发布后台,可以看见。所有的栏目都早已列下来了。然后再采集,正常发布。

优采云采集器 v8.1.12 官网免费版
采集交流 • 优采云 发表了文章 • 0 个评论 • 273 次浏览 • 2020-08-10 10:45
优采云采集器以完全自主研制的分布式云计算平台为核心,可以在太短的时间内,轻松从各类不同的网站或者网页获取大量的规范化数据,帮助任何须要从网页获取信息的顾客实现数据自动化采集,编辑,规范化,摆脱对人工搜索及搜集数据的依赖,从而减少获取信息的成本,提高效率。
优采云采集器的特色:
1、操作简单
操作简单,完全可视化图形操作,无需专业IT人员,任何会使用笔记本上网的人都可以轻松把握。
2、云采集
采集任务手动分配到云端多台服务器同时执行,提高采集效率,可以挺短的时间内 获取成千上万条信息。
3、拖拽式采集流程
模拟人的操作思维模式,可以登录,输入数据,点击链接,按钮等,还能对不同情况采取不同的采集流程。
4、图文辨识
内置可扩充的OCR插口,支持解析图片中的文字,可将图片上的文字提取下来。
5、定时手动采集
采集任务手动运行,可以根据指定的周期手动采集,并且还支持最快一分钟一次的实时采集。
6、2分钟快速入门
内置从入门到精通所须要的视频教程,2分钟才能上手使用,另外还有文档,论坛,qq群等。
7、免费使用
它是免费的,并且免费版本没有任何功能限制,你如今就可以试一试。
优采云采集器更新日志:
主要体验改进
【自定义模式】新增触发器功能,可依照特定条件进行采集
【自定义模式】提供优采云6内核模式,有效解决部份网站在优采云7上打不开的问题
【自定义模式】滚动页面功能间隔时间最小支持0.5秒
【自定义模式】选中所有链接时,新增「采集以下链接文本+链接」选项
【自定义模式】选中所有链接时,新增「采集以下元素Inner Html」和「采集以下元素Outer Html」选项
【自定义模式】关联任务采集支持增量模式
【自定义模式】设置关联任务时,支持搜索任务组名和任务名
【简易模式】增加「热门」分类
【简易模式】目前可按模板名和模板上线时间进行排序
【简易模式】增加搜索功能,可搜索模板
【其他】增强导入到数据库的健壮性
【其他】导出数据库选择数据表时,增加搜索功能
Bug修补
修复自动输入多个网址时,循环项消失问题
修复「从文本导出」网址后,采集时速率慢的问题
修复部份定时任务出错问题
修复「在iframe中循环输入文字采集时点击元素无效」问题
修复若干小问题 查看全部
优采云采集器是一款业界领先的网页采集软件,具有使用简单,功能强悍等众多优点。
优采云采集器以完全自主研制的分布式云计算平台为核心,可以在太短的时间内,轻松从各类不同的网站或者网页获取大量的规范化数据,帮助任何须要从网页获取信息的顾客实现数据自动化采集,编辑,规范化,摆脱对人工搜索及搜集数据的依赖,从而减少获取信息的成本,提高效率。
优采云采集器的特色:
1、操作简单
操作简单,完全可视化图形操作,无需专业IT人员,任何会使用笔记本上网的人都可以轻松把握。
2、云采集
采集任务手动分配到云端多台服务器同时执行,提高采集效率,可以挺短的时间内 获取成千上万条信息。
3、拖拽式采集流程
模拟人的操作思维模式,可以登录,输入数据,点击链接,按钮等,还能对不同情况采取不同的采集流程。
4、图文辨识
内置可扩充的OCR插口,支持解析图片中的文字,可将图片上的文字提取下来。
5、定时手动采集
采集任务手动运行,可以根据指定的周期手动采集,并且还支持最快一分钟一次的实时采集。
6、2分钟快速入门
内置从入门到精通所须要的视频教程,2分钟才能上手使用,另外还有文档,论坛,qq群等。
7、免费使用
它是免费的,并且免费版本没有任何功能限制,你如今就可以试一试。
优采云采集器更新日志:
主要体验改进
【自定义模式】新增触发器功能,可依照特定条件进行采集
【自定义模式】提供优采云6内核模式,有效解决部份网站在优采云7上打不开的问题
【自定义模式】滚动页面功能间隔时间最小支持0.5秒
【自定义模式】选中所有链接时,新增「采集以下链接文本+链接」选项
【自定义模式】选中所有链接时,新增「采集以下元素Inner Html」和「采集以下元素Outer Html」选项
【自定义模式】关联任务采集支持增量模式
【自定义模式】设置关联任务时,支持搜索任务组名和任务名
【简易模式】增加「热门」分类
【简易模式】目前可按模板名和模板上线时间进行排序
【简易模式】增加搜索功能,可搜索模板
【其他】增强导入到数据库的健壮性
【其他】导出数据库选择数据表时,增加搜索功能
Bug修补
修复自动输入多个网址时,循环项消失问题
修复「从文本导出」网址后,采集时速率慢的问题
修复部份定时任务出错问题
修复「在iframe中循环输入文字采集时点击元素无效」问题
修复若干小问题
优采云——基本排错教程
采集交流 • 优采云 发表了文章 • 0 个评论 • 134 次浏览 • 2020-08-10 06:42
本教程主要讲的是假如你在使用优采云采集时碰到一些问题,如何快速找出错误、解决错误或则怎么了解错误、更好的和客服沟通的技巧。
优采云采集器主要通过技术将用户浏览网页的操作进行定位和模拟来搜集数据,用户不需要明白网页构架、数据采集原理等技能,通过优采云采集器就可以构成优采云可以读懂的、可以循环工作的采集流程。
如果存在采集模式不满足需求的情况,排错旁边有愈发详尽的教程
采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当采集出现异常时,请先根据如下流程进行错误排查,寻找问题类型:
(1)手动执行一遍规则:打开界面右上角的流程图,
用键盘点击流程图内规则,从上至下,每次点击下一步都有相应反应,没有发生反应的步骤则是问题出现步骤。
注意点:
a.循环内的点击以及提取元素要自动选择循环中除第一个以外的内容,防止循环失效,只点击提取循环内第一个元素
b.所有规则每一步执行完才执行下一步,网页未加载完全,即浏览器上圆圈等待图标未消失时,观察网页内容是否加载完全,如果加载完全可以自行取消加载,再配置规则。
(2)进行单机采集,查看采集结果中未采集到数据的项目。
注意点:规则中最好加入当前网址,这样出现未采集到数据的项目,可以复制网址在浏览器中打开查看缘由,确定错误。
下面分别将可能出现问题的现象表述如下,供你参考:
(1)手动执行步骤无反应
可能现象有两种:
1.未正常执行步骤
原因:规则问题、采集器问题、定位模拟问题
解决方式:
可进行排查,删除该步骤,重新添加一遍,如果还是未能执行,则排除了规则问题,你可以:
将该网页在浏览器打开进行操作,如果一些滚动翻页或点击翻页在浏览器可以执行而采集器中不能执行,则是采集器问题,原因是采集器内镶浏览器为火狐浏览器,可能是内镶的浏览器版本在此后的版本发生了变化,导致在浏览器可以实现的功能,在采集器内镶浏览器中难以执行,该类网页中的数据,智能采集翻页或滚动之前的数据。
排除了采集器问题及规则问题后,你可以尝试在与制做规则时同样布局的页面上进行重新添加步骤,如果在这样的页面可以执行而只在部份页面难以执行,则是定位模拟问题,该问题常常存在于时间跨径较大的网站,原因是网站布局发生变化,导致采集器定位所需的XPath发生变化,请参考XPath章节更改规则或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
2.循环内的点击或采集只发生于第一条内容,点击第二条内容仍然采集到第一条内容时
原因:规则问题,定位模拟问题
解决方式:
查看循环当中的第一项是否勾选点击当前循环中设置的元素这一项
如果勾选了仍然不可以,你可以:
如果循环内有其他循环,先参考上问题1的动图将上面的内容移出去,删除有问题的循环,重新设置一次,如果移出去的规则没有手动复位须要自动复位,如果循环可以使用则排除规则问题,如果不可以,则是定位模拟问题,你可以:
查看循环中提取数据的自定义数据数组,查看自定义定位元素形式,看上面是否存在相对Xpath路径,如果不存在,则删掉数组,勾选内层中级选项中的使用循环,并重新添加,再次尝试假如有反应,则问题得到解决,如果仍然不行,你可以:
参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
(2)单机采集采不到数据
可能缘由有4种:
1.单机运行规则,数据还没采完便显示采集完成
此种现象分为3种情况
A.打开网页后直接显示采集完成
原因:网页问题,第一个网页加载过慢,优采云会等待一段时间,超出一定时间还在加载优采云就会跳过了这个步骤,后续步骤以为内容未加载下来采不到数据,优采云就结束了任务,造成采集不到数据。
解决方式:将网页的超时时间加长,或者在下一个步骤设置执行前等待,让网页有足够长的时间加载。
B.网页仍然处于加载状态
原因:网页问题,有些网页的加载会太慢。想要采集的数据没有出现。
解决方式:如果当前步骤是打开网页步骤,可以将网页的超时时间加长。如果是点击元素步骤,而且要采集的数据早已加载下来的时侯,可以在点击元素步骤设置ajax延时,点击了以后有新数据加载下来而网页网址没有变化的为ajax链接,
C.网页没有步入采集页面
原因:该问题往往是出现在点击元素步骤。有些网页中富含ajax链接时,根据点击位置判定是否须要设置。如果没有设置,在单机采集时会仍然卡在前一个步骤,采集不到数据。当网页为异步加载时,没有设置ajax延时的话,操作通常不会正确执行,导致规则难以进行下一步,提取不到数据。
解决方式:在相应步骤设置ajax延时,一般是2-3S,如果网页加载时间较长,可以适当降低延时时长。点击元素,循环下一页、移动滑鼠到元素上,这三个步骤中都有ajax设置
2.单机运行规则,无法正常执行
原因:规则问题或定位模拟问题
解决方式:
首先判定ajax是否须要设置以及是否设置正确,如果不是ajax问题,你可以:
将出现问题的步骤删掉并重新设置一遍,如果问题解决则为规则问题,如果问题没有解决,则为定位模拟问题,你可以:
参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
3.单机运行规则,第一条或第一页数据正常,后面未能执行
原因:规则问题-循环部份出现了问题
解决方式:参考自动执行第二条内容。
4.单机运行规则,漏采或则错采数据
此种现象分5种情况:
A.部分数组没有数据
原因:网页内该项数据为空、模拟定位问题
解决方式:
查看没有数组的链接,用浏览器打开假如确实没有数组,则没有问题,如果浏览器打开有内容,则为模拟定位问题,你可以:
参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
B.采集数据数目不对
原因:规则问题-循环部份出现了问题
解决方式:参考自动执行第二条内容
C.采集数据错乱,不是对应信息
原因:规则问题-提取步骤过多,网页加载时间过长,如果设置ajax去忽视加载就有可能导致多个提取步骤中的个别因内容没加载下来或加载不完全出错。
解决方式:将规则分为两步,假如采集评论网页数据,第一步是采集当前页面信息和评论页面的URL,第二步是循环URL采集 评论数据,后续将导入数据在excel、数据库中匹配处理
D.字段出现在不同位置
原因:网页问题-Xpath变化
解决方式:参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
E.数据重复
原因:网页问题-Xpath定位问题,问题主要出现在翻页处,比如只在一二页循环,或者最后一页的下一页按键仍然可以点击。
解决方式:参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
(3)单机采集正常,云采集没有数据
此种现象分4种情况:
1.网页问题-封IP缘由
原因:大多数存在封IP举措的网站优采云可以解决,极少数网站采用非常严格的封IP举措,这部份会导致云采集采集不到数据。
解决方式:
如果是单机采集可以使用代理IP功能,具体操作查看代理IP教程。
如果是云采集可以分配给任务多个节点,并让多个节点空闲,避免任务在同一个云端同一个IP上采集。
2.云端问题-云服务器带宽较小
原因:云端带宽较小,造成本地打开平缓的网站在云端打开愈发漫长,一旦超时都会打不开网站或者加载不下来数据导致跳过此步骤。
解决方式:把打开网址的超时时间或则下一步的执行前等待时间设置久一些。
3.规则问题-增量采集
原因:规则设置了增量采集,增量采集根据URL判定是否采集过,部分网页使用增量采集会导致增量判定失误跳过了该网页。
解决方式:关闭增量采集。
4.规则问题-禁止浏览器加载图片和云采集不分拆任务
原因:存在极少数网页不可以勾选严禁浏览器加载图片与云采集不分拆任务
解决方式:取消勾选相关选项。
如果出现更多问题,欢迎在官网或则向客服进行反馈,谢谢您的支持。 查看全部
优采云采集排错教程
本教程主要讲的是假如你在使用优采云采集时碰到一些问题,如何快速找出错误、解决错误或则怎么了解错误、更好的和客服沟通的技巧。
优采云采集器主要通过技术将用户浏览网页的操作进行定位和模拟来搜集数据,用户不需要明白网页构架、数据采集原理等技能,通过优采云采集器就可以构成优采云可以读懂的、可以循环工作的采集流程。
如果存在采集模式不满足需求的情况,排错旁边有愈发详尽的教程
采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当采集出现异常时,请先根据如下流程进行错误排查,寻找问题类型:
(1)手动执行一遍规则:打开界面右上角的流程图,

用键盘点击流程图内规则,从上至下,每次点击下一步都有相应反应,没有发生反应的步骤则是问题出现步骤。
注意点:
a.循环内的点击以及提取元素要自动选择循环中除第一个以外的内容,防止循环失效,只点击提取循环内第一个元素
b.所有规则每一步执行完才执行下一步,网页未加载完全,即浏览器上圆圈等待图标未消失时,观察网页内容是否加载完全,如果加载完全可以自行取消加载,再配置规则。
(2)进行单机采集,查看采集结果中未采集到数据的项目。
注意点:规则中最好加入当前网址,这样出现未采集到数据的项目,可以复制网址在浏览器中打开查看缘由,确定错误。
下面分别将可能出现问题的现象表述如下,供你参考:
(1)手动执行步骤无反应
可能现象有两种:
1.未正常执行步骤
原因:规则问题、采集器问题、定位模拟问题
解决方式:
可进行排查,删除该步骤,重新添加一遍,如果还是未能执行,则排除了规则问题,你可以:
将该网页在浏览器打开进行操作,如果一些滚动翻页或点击翻页在浏览器可以执行而采集器中不能执行,则是采集器问题,原因是采集器内镶浏览器为火狐浏览器,可能是内镶的浏览器版本在此后的版本发生了变化,导致在浏览器可以实现的功能,在采集器内镶浏览器中难以执行,该类网页中的数据,智能采集翻页或滚动之前的数据。
排除了采集器问题及规则问题后,你可以尝试在与制做规则时同样布局的页面上进行重新添加步骤,如果在这样的页面可以执行而只在部份页面难以执行,则是定位模拟问题,该问题常常存在于时间跨径较大的网站,原因是网站布局发生变化,导致采集器定位所需的XPath发生变化,请参考XPath章节更改规则或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。

2.循环内的点击或采集只发生于第一条内容,点击第二条内容仍然采集到第一条内容时
原因:规则问题,定位模拟问题
解决方式:
查看循环当中的第一项是否勾选点击当前循环中设置的元素这一项

如果勾选了仍然不可以,你可以:
如果循环内有其他循环,先参考上问题1的动图将上面的内容移出去,删除有问题的循环,重新设置一次,如果移出去的规则没有手动复位须要自动复位,如果循环可以使用则排除规则问题,如果不可以,则是定位模拟问题,你可以:
查看循环中提取数据的自定义数据数组,查看自定义定位元素形式,看上面是否存在相对Xpath路径,如果不存在,则删掉数组,勾选内层中级选项中的使用循环,并重新添加,再次尝试假如有反应,则问题得到解决,如果仍然不行,你可以:
参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。

(2)单机采集采不到数据
可能缘由有4种:
1.单机运行规则,数据还没采完便显示采集完成
此种现象分为3种情况
A.打开网页后直接显示采集完成
原因:网页问题,第一个网页加载过慢,优采云会等待一段时间,超出一定时间还在加载优采云就会跳过了这个步骤,后续步骤以为内容未加载下来采不到数据,优采云就结束了任务,造成采集不到数据。
解决方式:将网页的超时时间加长,或者在下一个步骤设置执行前等待,让网页有足够长的时间加载。
B.网页仍然处于加载状态
原因:网页问题,有些网页的加载会太慢。想要采集的数据没有出现。
解决方式:如果当前步骤是打开网页步骤,可以将网页的超时时间加长。如果是点击元素步骤,而且要采集的数据早已加载下来的时侯,可以在点击元素步骤设置ajax延时,点击了以后有新数据加载下来而网页网址没有变化的为ajax链接,
C.网页没有步入采集页面
原因:该问题往往是出现在点击元素步骤。有些网页中富含ajax链接时,根据点击位置判定是否须要设置。如果没有设置,在单机采集时会仍然卡在前一个步骤,采集不到数据。当网页为异步加载时,没有设置ajax延时的话,操作通常不会正确执行,导致规则难以进行下一步,提取不到数据。
解决方式:在相应步骤设置ajax延时,一般是2-3S,如果网页加载时间较长,可以适当降低延时时长。点击元素,循环下一页、移动滑鼠到元素上,这三个步骤中都有ajax设置
2.单机运行规则,无法正常执行
原因:规则问题或定位模拟问题
解决方式:
首先判定ajax是否须要设置以及是否设置正确,如果不是ajax问题,你可以:
将出现问题的步骤删掉并重新设置一遍,如果问题解决则为规则问题,如果问题没有解决,则为定位模拟问题,你可以:
参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
3.单机运行规则,第一条或第一页数据正常,后面未能执行
原因:规则问题-循环部份出现了问题
解决方式:参考自动执行第二条内容。
4.单机运行规则,漏采或则错采数据
此种现象分5种情况:
A.部分数组没有数据
原因:网页内该项数据为空、模拟定位问题
解决方式:
查看没有数组的链接,用浏览器打开假如确实没有数组,则没有问题,如果浏览器打开有内容,则为模拟定位问题,你可以:
参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。

B.采集数据数目不对
原因:规则问题-循环部份出现了问题
解决方式:参考自动执行第二条内容

C.采集数据错乱,不是对应信息
原因:规则问题-提取步骤过多,网页加载时间过长,如果设置ajax去忽视加载就有可能导致多个提取步骤中的个别因内容没加载下来或加载不完全出错。
解决方式:将规则分为两步,假如采集评论网页数据,第一步是采集当前页面信息和评论页面的URL,第二步是循环URL采集 评论数据,后续将导入数据在excel、数据库中匹配处理
D.字段出现在不同位置
原因:网页问题-Xpath变化
解决方式:参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
E.数据重复
原因:网页问题-Xpath定位问题,问题主要出现在翻页处,比如只在一二页循环,或者最后一页的下一页按键仍然可以点击。
解决方式:参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
(3)单机采集正常,云采集没有数据
此种现象分4种情况:
1.网页问题-封IP缘由
原因:大多数存在封IP举措的网站优采云可以解决,极少数网站采用非常严格的封IP举措,这部份会导致云采集采集不到数据。
解决方式:
如果是单机采集可以使用代理IP功能,具体操作查看代理IP教程。
如果是云采集可以分配给任务多个节点,并让多个节点空闲,避免任务在同一个云端同一个IP上采集。
2.云端问题-云服务器带宽较小
原因:云端带宽较小,造成本地打开平缓的网站在云端打开愈发漫长,一旦超时都会打不开网站或者加载不下来数据导致跳过此步骤。
解决方式:把打开网址的超时时间或则下一步的执行前等待时间设置久一些。
3.规则问题-增量采集
原因:规则设置了增量采集,增量采集根据URL判定是否采集过,部分网页使用增量采集会导致增量判定失误跳过了该网页。
解决方式:关闭增量采集。
4.规则问题-禁止浏览器加载图片和云采集不分拆任务
原因:存在极少数网页不可以勾选严禁浏览器加载图片与云采集不分拆任务
解决方式:取消勾选相关选项。
如果出现更多问题,欢迎在官网或则向客服进行反馈,谢谢您的支持。
【新手入门】常见问题清单
采集交流 • 优采云 发表了文章 • 0 个评论 • 179 次浏览 • 2020-08-10 05:11
教程地址:
视频教程是由我们官方培训讲师给你们讲解优采云采集器的使用方式,每一篇教程似乎都太简略,如果你们在开始采集之前先看一下那些视频讲解教程,大部分问题都能得到解答。
2、XX 网站能不能采集?XX 数据能不能采集?
请先参考第一条。
官网视频讲解教程中我们早已介绍过,优采云采集器是一款通用网页采集软件,只要是有网址,可以通过网页浏览,您能看得见的内容,大多都是可以采集的(视频比较特殊,得剖析具体情况)。
为了保护您的隐私,您所有的任务及配置都以加密方式储存于云端,除了您个人外任何人都未能查看具体的内容,您在采集过程中输入的帐号密码以及您的采集结果都存在您的本地笔记本中。但请您严格遵循相关的法律法规,若优采云采集器官方收到任何关于非法采集的举报,将会第一时间封停该帐号。
3、为什么采集数据提早停止了?
如果您遇见采集提前停止的问题,请根据以下步骤自检一下:
第一步:请确认您在浏览器中能看到多少内容
有的时候搜索显示数目和你最终能看得见的数目不是一致的,请确认您能看到多少条数据,然后再确定采集是提早停止还是正常停止。
第二步:采集结果数目和在浏览器中见到的数目不一致
在采集过程中,如果碰到这个问题,有以下两种可能性:
第一种可能性是采集速度过快而网页加载时间过慢,从而造成难以采集到网页中的数据。
遇到这些情况时请降低恳求等待时间,等待时间长一点以后,就有足够的时间留给网页加载内容。
请求等待时间的设置在 启动设置—>智能策略中,如下图所示:
第二种可能性是你遇见了其他问题
我们可以通过在运行过程中,点击运行界面中的“查看网页”来观察一下当前的网页内容是否正常,是否未能正常显示,是否出现异常提示等。
如果出现了上述情况,我们可以通过增加采集速度、切换代理IP、手动打码等形式,至于哪种方法可以起作用,这个须要测试才晓得,不同的网站问题不同,没有一个统一的解决方案。
如果尝试了以上方案后一直未能解决,你可以在帮助中心反馈给我们,我们会为您提供支持。
4、为什么采集字段不全?
字段不全通常有以下两种情况:
第一种,由于列表元素的结构不同,有些元素中有的数组其他元素中没有,这是正常的现象,请你们先在网页中确认对应元素中是否存在你想要的主键。
第二种,页面结构发生了变化,这种一般会发生在同一个搜索结果中收录多种页面结构的场景,例如搜索引擎的搜索结果(收录好多种网站)。
这种情况须要针对具体问题进行剖析,您可以导入您的采集任务,发到我们官方的帮助中心,我们的客服会帮您进行测试剖析。
5、为什么采集数据重复?
首先请确认你已然看过视频教程,你的采集任务没有页面类型的设置问题,即错把单页类型设置为列表类型,或是你错误地理解了循环采集的使用技巧。
然后请确定你是多次反复采集数据出现重复还是某一次单独采集出现了重复数据。
在未更改采集任务时,每一次运行采集任务都是从头开始采集,所以每一次采集的数据都是重复的,这是正常的。
如果是在单次采集时出现了重复数据,请确认是否满足以下情况:
第一种:重复数据均为最后一页的数据,这种有可能是翻到最后一页无法停止翻页,请尝试更改采集范围,然后看是否就会出现重复数据的情况。
第二种:重复数据为中间页的数据,这种情况未能直接得出结论。
以上两种情况下,都请上传你的采集任务到帮助中心,我们的客服会帮您进行测试剖析。
6、采集停止了,再运行是不是从头开始?
是的,采集停止以后,下次再直接启动会默认根据上一次的设置从头开始采集。
如果想进行断点续采,请看这个教程:
7、软件崩溃了,重启后右侧数据都是0,数据丢了吗?
请放心,已经采集到的数据除非你自动删掉,否则都不会遗失。
在软件非正常关掉时,重启后右侧任务采集的数据的数目须要自动刷新,你只需点击一下那种数字,就会恢复正常。
8、管理员能不能帮我看一下采集任务那里有问题
优采云采集器为你们提供了QQ群和帮助中心两种解决采集问题的渠道。
在QQ群中通常适宜提比较简单的具体问题,管理员看到后才能通过简单几句话帮你解决。
如果碰到复杂的采集问题,尤其是须要查看采集任务能够晓得的问题,建议你们直接发到帮助中心。
QQ群中用户较多,聊天内容过多时,您的问题容易被忽略,而且管理员面对那么多用户,反馈可能会比较慢。
帮助中心的问题会有专人客服跟踪,所有问题就会得到解答,请你们尽量使用帮助中心来反馈问题。
9、编辑任务时出现验证码该如何办?
如果你们在编辑任务时出现了验证码,软件会进行手动检查并给出提示,请你们按照软件的提示进行自动打码操作。
需要注意的是,自动检查会存在一定的误辨识机率,如果你判定页面中不需要进行验证码操作,点击取消即可。
此外,如果软件并未辨识,请点击右上角“手动打码”(蓝色)按钮进行打码操作。
10、编辑采集任务时页面未能正常显示该如何办?
首先请确认你在Chrome浏览器中,直接粘贴该网址是否可以访问。
如果Chrome浏览器未能打开,那么软件目前就是支持不了的,你可以反馈到帮助中心,我们的客服会帮您进行测试和剖析。
如果浏览器中可以访问,但是软件中难以访问,请点击右上角“手动打码”(蓝色)按钮,然后在弹出的窗口中点击访问你输入网址的网站的首页,例如点击左上角的网站LOGO或首页按键之类的。
在正常打开首页以后,点击预登陆窗口右下角的验证完成按键,这样软件中应当就可以正常访问了。
某些网址可能不容许用户在未访问过首页或列表页的情况下直接访问详情页,所以尽量不要直接从详情页开始采集,可以选择从列表页开始采集。
11、运行过程中须要输入验证码该如何办?
针对这些情况,优采云采集器支持验证码自动打码,不支持手动打码。
固定位置的验证码打码,请参考这个教程:
运行过程中的验证码软件会手动检查并给出打码提示。
具体打码过程请根据软件提示操作即可。
需要注意的是,软件在运行过程中手动检查验证码并弹出提示时,采集任务会暂停出来,手动打码以后软件都会继续运行当前任务。此外,自动辨识验证码存在一定的误辨识机率,如果你判定页面中不需要打码,点击跳过即可,连续跳过两次以后软件将不再检查验证码。
12、发布到数据库报错如何办?
(1)连接问题总结
1)宝塔控制面板
使用此管理工具时须要注意mysql数据库访问权限设置,和远程访问端口的开放。
2) localhost、192.168.xxx.xxx
使用这种主机地址须要注意是本机须要开启MySQL服务
3)不确定报错详请
可使用navicat先确定具体报错详情
(2)字段映射问题总结
1)字段类型
仅支持数据表中字符串和整型数组的映射(如果须要映射日期数组,需要将数据表中对应数组改成字符串类型)
2)字段宽度
需要注意数组宽度是否可以满足本地采集的数据宽度
(3)导出中的错误日志总结:
mysql插入数据时出现Incorrect string value: ‘\xF0\x9F…’ for column ‘name’ at row 1的异常,原因是UTF-8编码有可能是两个、三个、四个字节。Emoji表情或则个别特殊字符是4个字节,而 mysql 的utf8编码最多3个字节,所以数据插不进去。解决方式如下:
在mysql的安装目录下找到my.ini,作如下更改:
[mysql] default-character-set=utf8mb4 [mysqld] character-set-server=utf8mb4
修改后重启Mysql sudo service mysql restart
通过管理工具将早已建好的表以及相应的数组也转换成utf8mb4 查看全部
1、如果您是菜鸟,请勿必先看一下官网视频讲解教程。
教程地址:
视频教程是由我们官方培训讲师给你们讲解优采云采集器的使用方式,每一篇教程似乎都太简略,如果你们在开始采集之前先看一下那些视频讲解教程,大部分问题都能得到解答。
2、XX 网站能不能采集?XX 数据能不能采集?
请先参考第一条。
官网视频讲解教程中我们早已介绍过,优采云采集器是一款通用网页采集软件,只要是有网址,可以通过网页浏览,您能看得见的内容,大多都是可以采集的(视频比较特殊,得剖析具体情况)。
为了保护您的隐私,您所有的任务及配置都以加密方式储存于云端,除了您个人外任何人都未能查看具体的内容,您在采集过程中输入的帐号密码以及您的采集结果都存在您的本地笔记本中。但请您严格遵循相关的法律法规,若优采云采集器官方收到任何关于非法采集的举报,将会第一时间封停该帐号。
3、为什么采集数据提早停止了?
如果您遇见采集提前停止的问题,请根据以下步骤自检一下:
第一步:请确认您在浏览器中能看到多少内容
有的时候搜索显示数目和你最终能看得见的数目不是一致的,请确认您能看到多少条数据,然后再确定采集是提早停止还是正常停止。
第二步:采集结果数目和在浏览器中见到的数目不一致
在采集过程中,如果碰到这个问题,有以下两种可能性:
第一种可能性是采集速度过快而网页加载时间过慢,从而造成难以采集到网页中的数据。
遇到这些情况时请降低恳求等待时间,等待时间长一点以后,就有足够的时间留给网页加载内容。
请求等待时间的设置在 启动设置—>智能策略中,如下图所示:

第二种可能性是你遇见了其他问题
我们可以通过在运行过程中,点击运行界面中的“查看网页”来观察一下当前的网页内容是否正常,是否未能正常显示,是否出现异常提示等。
如果出现了上述情况,我们可以通过增加采集速度、切换代理IP、手动打码等形式,至于哪种方法可以起作用,这个须要测试才晓得,不同的网站问题不同,没有一个统一的解决方案。
如果尝试了以上方案后一直未能解决,你可以在帮助中心反馈给我们,我们会为您提供支持。
4、为什么采集字段不全?
字段不全通常有以下两种情况:
第一种,由于列表元素的结构不同,有些元素中有的数组其他元素中没有,这是正常的现象,请你们先在网页中确认对应元素中是否存在你想要的主键。
第二种,页面结构发生了变化,这种一般会发生在同一个搜索结果中收录多种页面结构的场景,例如搜索引擎的搜索结果(收录好多种网站)。
这种情况须要针对具体问题进行剖析,您可以导入您的采集任务,发到我们官方的帮助中心,我们的客服会帮您进行测试剖析。
5、为什么采集数据重复?
首先请确认你已然看过视频教程,你的采集任务没有页面类型的设置问题,即错把单页类型设置为列表类型,或是你错误地理解了循环采集的使用技巧。
然后请确定你是多次反复采集数据出现重复还是某一次单独采集出现了重复数据。
在未更改采集任务时,每一次运行采集任务都是从头开始采集,所以每一次采集的数据都是重复的,这是正常的。
如果是在单次采集时出现了重复数据,请确认是否满足以下情况:
第一种:重复数据均为最后一页的数据,这种有可能是翻到最后一页无法停止翻页,请尝试更改采集范围,然后看是否就会出现重复数据的情况。
第二种:重复数据为中间页的数据,这种情况未能直接得出结论。
以上两种情况下,都请上传你的采集任务到帮助中心,我们的客服会帮您进行测试剖析。
6、采集停止了,再运行是不是从头开始?
是的,采集停止以后,下次再直接启动会默认根据上一次的设置从头开始采集。
如果想进行断点续采,请看这个教程:
7、软件崩溃了,重启后右侧数据都是0,数据丢了吗?
请放心,已经采集到的数据除非你自动删掉,否则都不会遗失。
在软件非正常关掉时,重启后右侧任务采集的数据的数目须要自动刷新,你只需点击一下那种数字,就会恢复正常。
8、管理员能不能帮我看一下采集任务那里有问题
优采云采集器为你们提供了QQ群和帮助中心两种解决采集问题的渠道。
在QQ群中通常适宜提比较简单的具体问题,管理员看到后才能通过简单几句话帮你解决。
如果碰到复杂的采集问题,尤其是须要查看采集任务能够晓得的问题,建议你们直接发到帮助中心。
QQ群中用户较多,聊天内容过多时,您的问题容易被忽略,而且管理员面对那么多用户,反馈可能会比较慢。
帮助中心的问题会有专人客服跟踪,所有问题就会得到解答,请你们尽量使用帮助中心来反馈问题。
9、编辑任务时出现验证码该如何办?
如果你们在编辑任务时出现了验证码,软件会进行手动检查并给出提示,请你们按照软件的提示进行自动打码操作。
需要注意的是,自动检查会存在一定的误辨识机率,如果你判定页面中不需要进行验证码操作,点击取消即可。
此外,如果软件并未辨识,请点击右上角“手动打码”(蓝色)按钮进行打码操作。
10、编辑采集任务时页面未能正常显示该如何办?
首先请确认你在Chrome浏览器中,直接粘贴该网址是否可以访问。
如果Chrome浏览器未能打开,那么软件目前就是支持不了的,你可以反馈到帮助中心,我们的客服会帮您进行测试和剖析。
如果浏览器中可以访问,但是软件中难以访问,请点击右上角“手动打码”(蓝色)按钮,然后在弹出的窗口中点击访问你输入网址的网站的首页,例如点击左上角的网站LOGO或首页按键之类的。
在正常打开首页以后,点击预登陆窗口右下角的验证完成按键,这样软件中应当就可以正常访问了。
某些网址可能不容许用户在未访问过首页或列表页的情况下直接访问详情页,所以尽量不要直接从详情页开始采集,可以选择从列表页开始采集。
11、运行过程中须要输入验证码该如何办?
针对这些情况,优采云采集器支持验证码自动打码,不支持手动打码。
固定位置的验证码打码,请参考这个教程:
运行过程中的验证码软件会手动检查并给出打码提示。
具体打码过程请根据软件提示操作即可。
需要注意的是,软件在运行过程中手动检查验证码并弹出提示时,采集任务会暂停出来,手动打码以后软件都会继续运行当前任务。此外,自动辨识验证码存在一定的误辨识机率,如果你判定页面中不需要打码,点击跳过即可,连续跳过两次以后软件将不再检查验证码。
12、发布到数据库报错如何办?
(1)连接问题总结
1)宝塔控制面板
使用此管理工具时须要注意mysql数据库访问权限设置,和远程访问端口的开放。
2) localhost、192.168.xxx.xxx
使用这种主机地址须要注意是本机须要开启MySQL服务
3)不确定报错详请
可使用navicat先确定具体报错详情
(2)字段映射问题总结
1)字段类型
仅支持数据表中字符串和整型数组的映射(如果须要映射日期数组,需要将数据表中对应数组改成字符串类型)
2)字段宽度
需要注意数组宽度是否可以满足本地采集的数据宽度
(3)导出中的错误日志总结:
mysql插入数据时出现Incorrect string value: ‘\xF0\x9F…’ for column ‘name’ at row 1的异常,原因是UTF-8编码有可能是两个、三个、四个字节。Emoji表情或则个别特殊字符是4个字节,而 mysql 的utf8编码最多3个字节,所以数据插不进去。解决方式如下:
在mysql的安装目录下找到my.ini,作如下更改:
[mysql] default-character-set=utf8mb4 [mysqld] character-set-server=utf8mb4
修改后重启Mysql sudo service mysql restart
通过管理工具将早已建好的表以及相应的数组也转换成utf8mb4
做电商必须会的一个工具!教你用爬虫工具采集什么值得买商品数据
采集交流 • 优采云 发表了文章 • 0 个评论 • 366 次浏览 • 2020-08-09 16:47
采集工具简介:
优采云采集器()是一款基于人工智能技术的网路爬虫工具,只须要输入网址才能够手动辨识网页数据,无需配置即可完成数据采集,是业内首家支持三种操作系统(包括Windows、Mac和Linux)的数据采集软件。
这是一款真正免费的数据采集软件,对采集结果导入没有任何限制,没有编程基础的小白用户也可轻松实现数据采集要求。
官方网址:
采集字段:
商品标题、商品链接、价格、商品描述、商品所属网站、主图、推荐人、商品在售情况
功能点目录:
如何采集列表+详情页类型网页
如何下载图片
采集结果预览:
导出到Excel表格:
导出到本地图片:
下面我们来详尽介绍一下怎么免费采集“什么值得买”网站上推荐的商品数据,我们以西装为例,具体步骤如下:
步骤一:下载安装优采云采集器,并注册登入
1、打开优采云采集器官网,下载并安装爬虫软件工具—优采云采集器软件
2、点击注册登入,注册新帐号,登录优采云采集器
【温馨提示】您可以直接使用此款爬虫软件,不需要进行注册,但是匿名帐户下的任务在切换到注册用户时会遗失,因此建议您注册后使用。
优采云采集器为优采云云旗下产品,如果您是优采云用户,可直接登入。
步骤二:新建采集任务
1、复制“什么值得买”毛衣的网页(需要搜索结果页的网址,而不是首页的网址)
2、新建智能模式采集任务
您可以在软件上直接新建采集任务,也可以通过导出规则来创建任务。
步骤三:配置采集规则
1、设置提取数据字段
在智能模式下,我们输入网址后软件即可手动辨识出页面上的数据并生成采集结果,每一类数据对应一个采集字段,我们可以右击数组进行相关设置,包括更改数组名称、增减数组、处理数据等。
由于采集软件辨识出了好多我们不需要的数组,而我们只须要部份数组的内容,这种情况下可以将原本辨识下来的数组全部清空,再自动添加数组,也可以在以前数组的基础上进行更改。
我们添加商品标题、商品链接、价格、商品描述、商品所属网站以及主图等数组,字段设置疗效如下:
2、使用深入采集功能提取详情页数据
在列表页上展示出了“什么值得买”毛衣的大部分信息,但是假如我们想要采集到推荐人及商品在售情况的信息,需要右击“商品链接 ”使用深入采集功能,跳转到详情页进行采集。
在详情页面我们可以看见推荐人以及商品在售情况等信息,我们可以点击“添加数组”添加采集字段,字段设置疗效如下:
步骤四:设置并启动采集任务
1、设置采集任务
完成了采集数据添加,我们可以开始启动采集任务了。在启动之前我们须要对采集任务进行一些设置,从而提升采集的稳定性和成功率。
点击“设置”按钮,在弹出的运行设置页面中我们可以进行运行设置和防屏蔽设置,这里我们勾选“跳过继续采集”,设置“2”秒恳求等待时间,勾选“不加载网页图片”,防屏蔽设置就根据系统默认设置,然后点击保存。
2、启动采集任务
点击“保存并启动”按钮,可在弹出的页面中进行一些中级设置,包括定时启动、自动入库和下载图片,本次示例中未使用到定时采集及手动入库功能,勾选下载图片到本地的功能后,点击“启动”运行爬虫工具。
【温馨提示】免费版本可以使用非周期性定时采集功能,下载图片功能是免费的。个人专业版及以上版本可以使用中级定时功能和手动入库功能。
3、运行任务提取数据
任务启动以后便开始手动采集数据,我们从界面上可以直观的看见程序运行过程和采集结果,采集结束以后会有提醒。
步骤五:导出并查看数据
数据采集完成后,我们可以查看和导入数据,优采云采集器支持多种导入方法(手动导入到本地、手动导入到数据库、自动发布到数据库、自动发布到网站)和导入文件的格式(EXCEL、CSV、HTML和TXT),我们选择自己须要方法和文件类型,点击“确认导入”。
【温馨提示】:所有自动导入功能都是免费的。个人专业版及以上版本可以使用发布到网站功能。 查看全部
本文主要介绍怎样使用优采云采集器的智能模式,免费采集“什么值得买”商品价钱、图片、标题及推荐人等信息。
采集工具简介:
优采云采集器()是一款基于人工智能技术的网路爬虫工具,只须要输入网址才能够手动辨识网页数据,无需配置即可完成数据采集,是业内首家支持三种操作系统(包括Windows、Mac和Linux)的数据采集软件。
这是一款真正免费的数据采集软件,对采集结果导入没有任何限制,没有编程基础的小白用户也可轻松实现数据采集要求。
官方网址:
采集字段:
商品标题、商品链接、价格、商品描述、商品所属网站、主图、推荐人、商品在售情况
功能点目录:
如何采集列表+详情页类型网页
如何下载图片
采集结果预览:
导出到Excel表格:
导出到本地图片:
下面我们来详尽介绍一下怎么免费采集“什么值得买”网站上推荐的商品数据,我们以西装为例,具体步骤如下:
步骤一:下载安装优采云采集器,并注册登入
1、打开优采云采集器官网,下载并安装爬虫软件工具—优采云采集器软件
2、点击注册登入,注册新帐号,登录优采云采集器
【温馨提示】您可以直接使用此款爬虫软件,不需要进行注册,但是匿名帐户下的任务在切换到注册用户时会遗失,因此建议您注册后使用。
优采云采集器为优采云云旗下产品,如果您是优采云用户,可直接登入。
步骤二:新建采集任务
1、复制“什么值得买”毛衣的网页(需要搜索结果页的网址,而不是首页的网址)
2、新建智能模式采集任务
您可以在软件上直接新建采集任务,也可以通过导出规则来创建任务。
步骤三:配置采集规则
1、设置提取数据字段
在智能模式下,我们输入网址后软件即可手动辨识出页面上的数据并生成采集结果,每一类数据对应一个采集字段,我们可以右击数组进行相关设置,包括更改数组名称、增减数组、处理数据等。
由于采集软件辨识出了好多我们不需要的数组,而我们只须要部份数组的内容,这种情况下可以将原本辨识下来的数组全部清空,再自动添加数组,也可以在以前数组的基础上进行更改。
我们添加商品标题、商品链接、价格、商品描述、商品所属网站以及主图等数组,字段设置疗效如下:
2、使用深入采集功能提取详情页数据
在列表页上展示出了“什么值得买”毛衣的大部分信息,但是假如我们想要采集到推荐人及商品在售情况的信息,需要右击“商品链接 ”使用深入采集功能,跳转到详情页进行采集。
在详情页面我们可以看见推荐人以及商品在售情况等信息,我们可以点击“添加数组”添加采集字段,字段设置疗效如下:
步骤四:设置并启动采集任务
1、设置采集任务
完成了采集数据添加,我们可以开始启动采集任务了。在启动之前我们须要对采集任务进行一些设置,从而提升采集的稳定性和成功率。
点击“设置”按钮,在弹出的运行设置页面中我们可以进行运行设置和防屏蔽设置,这里我们勾选“跳过继续采集”,设置“2”秒恳求等待时间,勾选“不加载网页图片”,防屏蔽设置就根据系统默认设置,然后点击保存。
2、启动采集任务
点击“保存并启动”按钮,可在弹出的页面中进行一些中级设置,包括定时启动、自动入库和下载图片,本次示例中未使用到定时采集及手动入库功能,勾选下载图片到本地的功能后,点击“启动”运行爬虫工具。
【温馨提示】免费版本可以使用非周期性定时采集功能,下载图片功能是免费的。个人专业版及以上版本可以使用中级定时功能和手动入库功能。
3、运行任务提取数据
任务启动以后便开始手动采集数据,我们从界面上可以直观的看见程序运行过程和采集结果,采集结束以后会有提醒。
步骤五:导出并查看数据
数据采集完成后,我们可以查看和导入数据,优采云采集器支持多种导入方法(手动导入到本地、手动导入到数据库、自动发布到数据库、自动发布到网站)和导入文件的格式(EXCEL、CSV、HTML和TXT),我们选择自己须要方法和文件类型,点击“确认导入”。
【温馨提示】:所有自动导入功能都是免费的。个人专业版及以上版本可以使用发布到网站功能。
优采云采集器使用要点
采集交流 • 优采云 发表了文章 • 0 个评论 • 314 次浏览 • 2020-08-09 15:34
不少用户会在工单或则是扣扣群里咨询优采云采集相关的问题,我们把这种问题做了整理,做成一份使用要点,希望它们能帮助你解决在使用优采云采集器碰到的问题。
1、手动检测工作流设计器中的规则
采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当可以先检测配置的规则是否有效,寻找存在的问题,最好在运行任务之前自动检测工作流程中的规则。这样可以看见什么步骤在可视外置浏览器和数据字段中不起作用。因此,一旦发觉错误,可以更改相应地规则。查看下边的教程可以了解规则排错的具体方式:
优采云7.0版本——基本排错教程:
/tutorialdetail-1/jbpc_7.html
2、设置正确的超时和滚动时间
有时会发觉,即使配置了正确的规则,并且可以在自动检测规则时获取数据,但是在启动提取时,数据却会遗漏。这是因为没有设置中级选中的Ajax, 最简单的方式是在规则中选中“打开网页”和“点击元素”的操作下设置AJAX加载。另外,您可以在工作流设计器的不同操作下设置等待时间,以便确保加载所需的数据。
有时网页会出现这样的情况,除非向上滚动,否则不会显示个别内容,因此须要在“打开网页”这一步骤中设置滚动时间,否则可能会遗漏设置滚动时间而错过个别数据。选择向上滚动的方法并设置适当的滚动时间。这对采集到完整的数据也很重要。
但在执行上述步骤之前,您应当记住,所有步骤都应在页面完全加载后进行; 如果不是,即使您修改了规则,该规则一直无效。
此外,我们不建议同时选择“在新标签页中打开”和“AJAX加载页面”,除非优采云仍然未能打开个别网站。
具体操作可以参照这个教程:/tutorialdetail-1/ajaxdjfy_7.html
3、手动更改XPath
正确使用XPath是使用优采云采集数据的关键。列如翻页,缺失数据和不规则值域等步骤大多数时间涉及XPath的修改。所以强烈建议用户学习一些关于XPath的知识。只需稍为了解一下XPath就可以帮助您解决使用优采云时遇见的许多问题。下面的教程可以帮助您快速学习XPath。
XPath入门1:
/tutorialdetail-1/xpathrm1.html
XPath入门2:
/media/44656/xpath.pdf
4、设置缓存设置
有时我们会发觉外置浏览器在“打开页面”的操作下未打开须要采集的网址。这可能是因为打开网站的次数过多,并且计算机记录了缓存。所以须要选择在打开网页前去除缓存,然后打开须要的网站即可。
设置缓存的另一个反例是提取须要登陆的网站。登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,以便您不需要一次又一次检测登陆步骤。这也会保护你的个人信息。
cookie指个别网站为了分辨用户身分、进行 session 跟踪而存储在用户本地终端上的数据(通常经过加密),在优采云里获取登入后的cookie记住登入状态达到采集数据的目的。
cookie登录方式:
/tutorialdetail-1/cookie70.html 查看全部
摘要:不少用户会在工单或则是扣扣群里咨询优采云采集相关的问题,我们把这种问题做了整理,做成一份使用要点,希望它们能帮助你解决在使用优采云采集器碰到的问题。
不少用户会在工单或则是扣扣群里咨询优采云采集相关的问题,我们把这种问题做了整理,做成一份使用要点,希望它们能帮助你解决在使用优采云采集器碰到的问题。
1、手动检测工作流设计器中的规则
采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当可以先检测配置的规则是否有效,寻找存在的问题,最好在运行任务之前自动检测工作流程中的规则。这样可以看见什么步骤在可视外置浏览器和数据字段中不起作用。因此,一旦发觉错误,可以更改相应地规则。查看下边的教程可以了解规则排错的具体方式:
优采云7.0版本——基本排错教程:
/tutorialdetail-1/jbpc_7.html
2、设置正确的超时和滚动时间
有时会发觉,即使配置了正确的规则,并且可以在自动检测规则时获取数据,但是在启动提取时,数据却会遗漏。这是因为没有设置中级选中的Ajax, 最简单的方式是在规则中选中“打开网页”和“点击元素”的操作下设置AJAX加载。另外,您可以在工作流设计器的不同操作下设置等待时间,以便确保加载所需的数据。
有时网页会出现这样的情况,除非向上滚动,否则不会显示个别内容,因此须要在“打开网页”这一步骤中设置滚动时间,否则可能会遗漏设置滚动时间而错过个别数据。选择向上滚动的方法并设置适当的滚动时间。这对采集到完整的数据也很重要。
但在执行上述步骤之前,您应当记住,所有步骤都应在页面完全加载后进行; 如果不是,即使您修改了规则,该规则一直无效。
此外,我们不建议同时选择“在新标签页中打开”和“AJAX加载页面”,除非优采云仍然未能打开个别网站。
具体操作可以参照这个教程:/tutorialdetail-1/ajaxdjfy_7.html
3、手动更改XPath
正确使用XPath是使用优采云采集数据的关键。列如翻页,缺失数据和不规则值域等步骤大多数时间涉及XPath的修改。所以强烈建议用户学习一些关于XPath的知识。只需稍为了解一下XPath就可以帮助您解决使用优采云时遇见的许多问题。下面的教程可以帮助您快速学习XPath。
XPath入门1:
/tutorialdetail-1/xpathrm1.html
XPath入门2:
/media/44656/xpath.pdf
4、设置缓存设置
有时我们会发觉外置浏览器在“打开页面”的操作下未打开须要采集的网址。这可能是因为打开网站的次数过多,并且计算机记录了缓存。所以须要选择在打开网页前去除缓存,然后打开须要的网站即可。
设置缓存的另一个反例是提取须要登陆的网站。登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,以便您不需要一次又一次检测登陆步骤。这也会保护你的个人信息。
cookie指个别网站为了分辨用户身分、进行 session 跟踪而存储在用户本地终端上的数据(通常经过加密),在优采云里获取登入后的cookie记住登入状态达到采集数据的目的。
cookie登录方式:
/tutorialdetail-1/cookie70.html
太好了!有了这三个采集器工件,我要编写什么代码!
采集交流 • 优采云 发表了文章 • 0 个评论 • 327 次浏览 • 2020-08-09 06:06
对于临时使用的工作场所,学习爬虫可以提高效率. 程序员的兄弟太忙了,找人的成本太高了. 爬虫技术本身太昂贵了,无法学习
有人说我是开发人员,陶弟兄,我在几分钟之内使用Python捕获了几行代码来取回数据. 我当然想说你很棒,但是更多的人还没有达到那个程度.
退一步说,即使我很熟练,如果我可以使用工具和现成的模板进行抓取并生成Excle导出,整个过程将只需要几分钟. 我认为作为开发人员,这会有点令人兴奋.
掌握爬行器工具可以大大提高我们工作场所的工作效率. 成为首席执行官并嫁给白富美指日可待.
我知道我们为什么要学习以及学习的目的. 接下来,我将向您介绍我认为不错的三种采集器工具. 它们是Jishouke,优采云和优采云 Collector,对您来说更方便. 使用和选择.
优采云
图片
Ucaiyun,让我简单谈谈它的优点:
提供了用于云采集的第三方模板,该模板方便快捷地在10分钟内采集数据,并且对于个人而言更昂贵.
需要注册,登录,没有Mac&Linux版本,基本模板是免费的,需要支付更多模板,需要支付高级版本,免费版本只能使用最基本的导出,有限制.
采集招揽客户
图片
采集采购客户的优势
浏览器采集了许多网站模板,付费版本直接登录采集. 在10分钟内提供了Mac版本,以使单个用户可以便宜地获取数据.
客户端是浏览器. 我个人认为这是一种趋势. 登录后采集数据. 此外,采集客户的工具相对简单易用. 但是,这种价格歧视是非常不科学的. 使用Mac客户端版本,您真的认为Apple用户更富有吗?
他们为获取数据而付费的方式是免费的,下载的下载也带有积分. 我认为采集客户临时使用的资源比优采云更方便.
优采云采集器
图片
我认为优采云采集器的优势:
浏览器模式采集和采集,完全可视化,免费导出,无积分,完全免费,在5分钟内就开始支持Mac&Linux版本,个人通常可以负担得起数据捕获
无需登录,无需注册即可采集数据,无需积分,几乎可以完全免费使用,缺点是没有第三方模板网站,这对于新手来说有点不方便,但是取胜很简单,这也是一个优势.
摘要
这三个工具都很优秀且易于使用,但是从个人使用来看,采集和采集客户更加方便,灵活且便宜. 优采云采集器位居第二(很简单,真的很简单),优采云最后一位.
当然,就个人经验而言,是否支持Mac系统,价格等因素,我们没有更深入地研究. 如果有错误,请不要打我,仅是普通用户. 查看全部
普通人学习爬虫工具的原因有三个:
对于临时使用的工作场所,学习爬虫可以提高效率. 程序员的兄弟太忙了,找人的成本太高了. 爬虫技术本身太昂贵了,无法学习
有人说我是开发人员,陶弟兄,我在几分钟之内使用Python捕获了几行代码来取回数据. 我当然想说你很棒,但是更多的人还没有达到那个程度.
退一步说,即使我很熟练,如果我可以使用工具和现成的模板进行抓取并生成Excle导出,整个过程将只需要几分钟. 我认为作为开发人员,这会有点令人兴奋.
掌握爬行器工具可以大大提高我们工作场所的工作效率. 成为首席执行官并嫁给白富美指日可待.
我知道我们为什么要学习以及学习的目的. 接下来,我将向您介绍我认为不错的三种采集器工具. 它们是Jishouke,优采云和优采云 Collector,对您来说更方便. 使用和选择.
优采云
图片
Ucaiyun,让我简单谈谈它的优点:
提供了用于云采集的第三方模板,该模板方便快捷地在10分钟内采集数据,并且对于个人而言更昂贵.
需要注册,登录,没有Mac&Linux版本,基本模板是免费的,需要支付更多模板,需要支付高级版本,免费版本只能使用最基本的导出,有限制.
采集招揽客户
图片
采集采购客户的优势
浏览器采集了许多网站模板,付费版本直接登录采集. 在10分钟内提供了Mac版本,以使单个用户可以便宜地获取数据.
客户端是浏览器. 我个人认为这是一种趋势. 登录后采集数据. 此外,采集客户的工具相对简单易用. 但是,这种价格歧视是非常不科学的. 使用Mac客户端版本,您真的认为Apple用户更富有吗?
他们为获取数据而付费的方式是免费的,下载的下载也带有积分. 我认为采集客户临时使用的资源比优采云更方便.
优采云采集器
图片
我认为优采云采集器的优势:
浏览器模式采集和采集,完全可视化,免费导出,无积分,完全免费,在5分钟内就开始支持Mac&Linux版本,个人通常可以负担得起数据捕获
无需登录,无需注册即可采集数据,无需积分,几乎可以完全免费使用,缺点是没有第三方模板网站,这对于新手来说有点不方便,但是取胜很简单,这也是一个优势.
摘要
这三个工具都很优秀且易于使用,但是从个人使用来看,采集和采集客户更加方便,灵活且便宜. 优采云采集器位居第二(很简单,真的很简单),优采云最后一位.
当然,就个人经验而言,是否支持Mac系统,价格等因素,我们没有更深入地研究. 如果有错误,请不要打我,仅是普通用户.
优采云采集器正式版v7.6.0
采集交流 • 优采云 发表了文章 • 0 个评论 • 378 次浏览 • 2020-08-08 01:34
优采云采集器的正式版是具有实用功能且易于使用的Web数据采集器. 优采云采集器的正式版是任何需要从网络获取信息的孩子的必备神器,该工具可让您超级轻松地采集信息.
软件功能
简单的操作,完全可视化的图形操作,不需要专业的IT人员,任何能够使用计算机访问Internet的人都可以轻松掌握优采云采集器正式版的操作.
云采集
采集任务会自动分发到云中的多个服务器以同时执行,以提高采集效率. 优采云采集器的正式版可以在短时间内获得数千条信息.
拖放采集过程
模仿人的操作思维方式,可以登录,输入数据,单击链接,按钮等,并且可以针对不同情况采用不同的采集程序.
图像识别
内置可扩展的OCR界面,优采云采集器的正式版支持解析图片中的文本,并可以提取图片中的文本.
定时自动采集
采集任务自动运行,可以根据指定的时间段自动采集,并且还支持每分钟一次的实时采集.
2分钟内快速入门
从入门到精通的内置视频教程,可以在2分钟内使用,并且还提供文档,论坛,QQ群组等.
免费使用
它是免费的,免费版本没有功能限制. 您可以立即尝试,立即下载并安装.
功能介绍
简而言之,您可以使用优采云轻松地从任何网页上采集所需的数据,并生成自定义的常规数据格式. 优采云数据采集系统可以执行的操作包括但不限于以下内容:
1. 财务数据,例如季度报告,年度报告,财务报告,包括自动采集最新的每日净资产;
2. 实时监控主要新闻门户,自动更新和上传最新新闻;
3. 监视竞争对手的最新信息,包括商品价格和库存; 查看全部

优采云采集器的正式版是具有实用功能且易于使用的Web数据采集器. 优采云采集器的正式版是任何需要从网络获取信息的孩子的必备神器,该工具可让您超级轻松地采集信息.

软件功能
简单的操作,完全可视化的图形操作,不需要专业的IT人员,任何能够使用计算机访问Internet的人都可以轻松掌握优采云采集器正式版的操作.
云采集
采集任务会自动分发到云中的多个服务器以同时执行,以提高采集效率. 优采云采集器的正式版可以在短时间内获得数千条信息.
拖放采集过程
模仿人的操作思维方式,可以登录,输入数据,单击链接,按钮等,并且可以针对不同情况采用不同的采集程序.
图像识别
内置可扩展的OCR界面,优采云采集器的正式版支持解析图片中的文本,并可以提取图片中的文本.
定时自动采集
采集任务自动运行,可以根据指定的时间段自动采集,并且还支持每分钟一次的实时采集.
2分钟内快速入门
从入门到精通的内置视频教程,可以在2分钟内使用,并且还提供文档,论坛,QQ群组等.
免费使用
它是免费的,免费版本没有功能限制. 您可以立即尝试,立即下载并安装.

功能介绍
简而言之,您可以使用优采云轻松地从任何网页上采集所需的数据,并生成自定义的常规数据格式. 优采云数据采集系统可以执行的操作包括但不限于以下内容:
1. 财务数据,例如季度报告,年度报告,财务报告,包括自动采集最新的每日净资产;
2. 实时监控主要新闻门户,自动更新和上传最新新闻;
3. 监视竞争对手的最新信息,包括商品价格和库存;
六个采集器的特征比较
采集交流 • 优采云 发表了文章 • 0 个评论 • 325 次浏览 • 2020-08-08 01:30
功能: 采集无限的网页,无限的内容;分布式采集系统,提高效率;支持PHP和C#插件扩展,以促进数据的修改和处理. 优采云 Cloud 采集: 一种基于优采云分布式云采集器框架的新型云在线智能采集器/采集器,可帮助用户快速获取大量标准化Web数据,并帮助客户快速轻松地获取大量标准化数据. 特点: 直接访问代理IP,无需设置以避免由于对IP的访问受限而无法解决的问题;自动登录验证码识别,网站自动完成验证码输入,无需人工监督;它可以在线生成图标并采集结果. 本地化的隐私保护,云采集,用户IP可以被隐藏. 优采云采集器: 一套专业的网站内容采集软件,支持采集各种论坛的帖子和答复,以及网站和博客文章的内容采集,分为三类: 论坛采集器,CMS采集器和博客采集器. 功能: 支持批量替换和过滤文章内容中的文本和链接;您可以同时批量发布到网站或论坛的多个部分;在完成采集或过帐任务后,具有自动关机功能;三行采集器: 一套就可以了网站管理员工具可以轻松地将其他人的网站,论坛和博客的图形内容采集到您自己的网站,论坛和博客中,包括论坛注册王,采集帖子等三种软件国王和采集国王. 功能: 采集需要注册和登录的论坛帖子;您可以同时批量发布到论坛的多个部分;支持批量替换和过滤文章内容中的文本和链接.
Heiner采集器: 具有简单,清晰且易于使用的界面的采集器,具有低成本,安全性和稳定性以及自定义用户单词的特点. 特点: 您可以通过设置关键字来采集信息,而无需设置规则;主要用于捕捉主题内容;适用于网站主题,例如文章和博客. 一个简单易用的网页信息爬网软件,可以捕获网页文本,图表,超链接和其他网页元素,提供了易于使用的网页爬网软件,数据挖掘策略,行业信息和尖端技术. 特点: 可以在移动网站上获取数据;支持抓取数据浮动显示在索引图上;成员互相帮助以提高采集效率. 优采云采集器: 一种网页采集软件,可以从不同的网站获取标准化数据,以帮助客户实现自动数据采集,编辑和标准化,从而降低成本并提高效率. 特点: 易于使用,完全可视化的图形操作;内置可扩展的OCR接口,支持解析图片中的文字;自动执行采集任务,可以根据指定的周期自动采集. 查看全部
Internet的快速发展每天使网站上有成千上万的数据可用. 如何获取和使用Internet上可用的大量数据也是一个关键问题. 有许多方法可以在Internet上获取大量数据,而使用采集或爬网是重要且有效的方法之一. 那么网络采集的含义是什么?网站集合是从网站页面中提取指定的数据. 也可以手动复制和粘贴,但是效率很低. 因此,期望计算机可以自动执行手动操作以完成数据采集工作. 计算机自动执行手动操作,并且需要某些指导操作. 例如,计算机应打开哪个页面,应复制哪些信息,并将复制的信息粘贴到何处?这些都是必须在手动操作期间制定的操作. 当转换为计算机时,您还必须知道计算机以这种方式执行. 因此,需要配置一些规则来指导计算机的操作. 规则的这种组合称为网络矿工之间的采集任务. 通过以上描述,我们知道采集任务必须至少包括网页地址和用于复制网页数据的规则. 由于网络采集非常有效并且可以大大提高运营效率,我们如何简单地进行运营以获得所需的数据?现在,我们介绍几种常见且易于使用的采集器,供所有人选择. 优采云采集器: 一种Internet数据捕获,处理,分析和挖掘软件,可以捕获网页上的分散数据信息,并通过一系列分析和处理准确地挖掘所需的数据.
功能: 采集无限的网页,无限的内容;分布式采集系统,提高效率;支持PHP和C#插件扩展,以促进数据的修改和处理. 优采云 Cloud 采集: 一种基于优采云分布式云采集器框架的新型云在线智能采集器/采集器,可帮助用户快速获取大量标准化Web数据,并帮助客户快速轻松地获取大量标准化数据. 特点: 直接访问代理IP,无需设置以避免由于对IP的访问受限而无法解决的问题;自动登录验证码识别,网站自动完成验证码输入,无需人工监督;它可以在线生成图标并采集结果. 本地化的隐私保护,云采集,用户IP可以被隐藏. 优采云采集器: 一套专业的网站内容采集软件,支持采集各种论坛的帖子和答复,以及网站和博客文章的内容采集,分为三类: 论坛采集器,CMS采集器和博客采集器. 功能: 支持批量替换和过滤文章内容中的文本和链接;您可以同时批量发布到网站或论坛的多个部分;在完成采集或过帐任务后,具有自动关机功能;三行采集器: 一套就可以了网站管理员工具可以轻松地将其他人的网站,论坛和博客的图形内容采集到您自己的网站,论坛和博客中,包括论坛注册王,采集帖子等三种软件国王和采集国王. 功能: 采集需要注册和登录的论坛帖子;您可以同时批量发布到论坛的多个部分;支持批量替换和过滤文章内容中的文本和链接.
Heiner采集器: 具有简单,清晰且易于使用的界面的采集器,具有低成本,安全性和稳定性以及自定义用户单词的特点. 特点: 您可以通过设置关键字来采集信息,而无需设置规则;主要用于捕捉主题内容;适用于网站主题,例如文章和博客. 一个简单易用的网页信息爬网软件,可以捕获网页文本,图表,超链接和其他网页元素,提供了易于使用的网页爬网软件,数据挖掘策略,行业信息和尖端技术. 特点: 可以在移动网站上获取数据;支持抓取数据浮动显示在索引图上;成员互相帮助以提高采集效率. 优采云采集器: 一种网页采集软件,可以从不同的网站获取标准化数据,以帮助客户实现自动数据采集,编辑和标准化,从而降低成本并提高效率. 特点: 易于使用,完全可视化的图形操作;内置可扩展的OCR接口,支持解析图片中的文字;自动执行采集任务,可以根据指定的周期自动采集.
优采云采集器的PBOOTCMS存储
采集交流 • 优采云 发表了文章 • 0 个评论 • 693 次浏览 • 2020-08-07 22:06
我使用从优采云的云下载的PBOOTCMS规则. 但是,使用它时,发现数据库中只能存储新闻中心,新闻和公司动态这三类.
今天,我们将讨论如何修改“仓储”列. 顺便说一句,让我们从头到尾讨论如何使用优秀的彩云.
第一步: 下载插件.
首先,我们在后端云平台上搜索PBOOT以找到此插件,然后将其下载.
请看一下,我们可以在此处看到一个APP徽标: PbootDemoSkycaiji
此方法是下载官方插件. 您也可以自己发布插件.
您自己发布还是正式下载都无所谓. 如果您不熟悉,请使用官方插件.
第2步: 让我们创建一个新任务.
您可以填写任何内容.
然后单击: 采集器设置
根据需要自己填写这些内容.
接下来,设置其他三个相对简单的选项. 我在这里不再重复.
第3步: 让我们点击“发布设置”.
按选择,然后选择绑定.
此时将报告一个错误,因为PBOOCMS不是系统已知的CMS,因此您需要添加: @pboot
下面的插件将显示我们创建和安装的插件. 选择您使用的那个. 如果我选择从云平台下载的pboot示例.
自己填写相关选择.
这时,我们将在类别列中发现仅三列: 新闻中心,公司新闻和行业新闻.
这也是今天的焦点.
我们只是说要记住这一点. 这实际上是发布时调用的PHP文件. 具体路径为: 您的优采云采集器网站从根目录开始并找到以下文件夹:
\plugin\release\cms
如您所见,现在有两个与APP相同名称的PHP文件. 您使用哪个插件,相应地修改哪个PHP文件.
我的官员是PbootDemoSkycaiji,打开这个PHP文件.
在最底部,我们看到
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->where("contenttpl='news.html'")->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
其中指定了一个news.html. 如果将其更改为: case.html,您将看到版本分类成为Ucai Cloud后端中的案例列. 因此,如果要显示所有列,可以像这样修改它.
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
然后可以看到发布背景. 所有列均已列出. 然后正常采集并发布.
查看全部
已经存在一种在Internet上使用优采云采集器的方法.
我使用从优采云的云下载的PBOOTCMS规则. 但是,使用它时,发现数据库中只能存储新闻中心,新闻和公司动态这三类.
今天,我们将讨论如何修改“仓储”列. 顺便说一句,让我们从头到尾讨论如何使用优秀的彩云.
第一步: 下载插件.

首先,我们在后端云平台上搜索PBOOT以找到此插件,然后将其下载.
请看一下,我们可以在此处看到一个APP徽标: PbootDemoSkycaiji
此方法是下载官方插件. 您也可以自己发布插件.

您自己发布还是正式下载都无所谓. 如果您不熟悉,请使用官方插件.
第2步: 让我们创建一个新任务.
您可以填写任何内容.

然后单击: 采集器设置

根据需要自己填写这些内容.

接下来,设置其他三个相对简单的选项. 我在这里不再重复.

第3步: 让我们点击“发布设置”.

按选择,然后选择绑定.

此时将报告一个错误,因为PBOOCMS不是系统已知的CMS,因此您需要添加: @pboot

下面的插件将显示我们创建和安装的插件. 选择您使用的那个. 如果我选择从云平台下载的pboot示例.

自己填写相关选择.

这时,我们将在类别列中发现仅三列: 新闻中心,公司新闻和行业新闻.
这也是今天的焦点.

我们只是说要记住这一点. 这实际上是发布时调用的PHP文件. 具体路径为: 您的优采云采集器网站从根目录开始并找到以下文件夹:
\plugin\release\cms

如您所见,现在有两个与APP相同名称的PHP文件. 您使用哪个插件,相应地修改哪个PHP文件.
我的官员是PbootDemoSkycaiji,打开这个PHP文件.
在最底部,我们看到
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->where("contenttpl='news.html'")->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
其中指定了一个news.html. 如果将其更改为: case.html,您将看到版本分类成为Ucai Cloud后端中的案例列. 因此,如果要显示所有列,可以像这样修改它.
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
然后可以看到发布背景. 所有列均已列出. 然后正常采集并发布.

使用优采云采集器.docx的要点
采集交流 • 优采云 发表了文章 • 0 个评论 • 358 次浏览 • 2020-08-07 22:02
使用优采云采集器的要点
许多用户将在工作单或扣除组中咨询优采云 采集相关问题. 我们已经解决了这些问题并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.
1. 在工作流设计器中手动检查规则
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以相应地修改规则. 查看以下教程,了解规则故障排除的具体方法:
优采云 7.0版本基本故障排除教程:
orialdetail-1 / jbpc_7.html
2,设置正确的超时时间和滚动时间
有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获得数据,但在开始提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.
有时该网页会这样显示. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.
但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;否则,即使您更改规则,规则仍然无效.
此外,我们不建议您同时选择“在新标签页中打开”和“ AJAX加载页面”,除非优采云仍然无法打开某些网站.
有关具体操作,请参阅本教程: orialdetail-1 / ajaxdjfy_7.html
3. 手动修改XPath
正确使用XPath是使用优采云采集数据的关键. 页面翻页,数据丢失和不规则值范围之类的步骤大多数时候都涉及XPath的更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.
XPath条目1:
orialdetail-1 / xpathrm1.html
XPath条目2:
ia / 44656 / xpath.pdf
4,设置缓存设置
有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.
设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.
Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.
Cookie登录方法: 查看全部
文档简介:
使用优采云采集器的要点
许多用户将在工作单或扣除组中咨询优采云 采集相关问题. 我们已经解决了这些问题并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.
1. 在工作流设计器中手动检查规则
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以相应地修改规则. 查看以下教程,了解规则故障排除的具体方法:
优采云 7.0版本基本故障排除教程:
orialdetail-1 / jbpc_7.html
2,设置正确的超时时间和滚动时间
有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获得数据,但在开始提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.
有时该网页会这样显示. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.
但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;否则,即使您更改规则,规则仍然无效.
此外,我们不建议您同时选择“在新标签页中打开”和“ AJAX加载页面”,除非优采云仍然无法打开某些网站.
有关具体操作,请参阅本教程: orialdetail-1 / ajaxdjfy_7.html
3. 手动修改XPath
正确使用XPath是使用优采云采集数据的关键. 页面翻页,数据丢失和不规则值范围之类的步骤大多数时候都涉及XPath的更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.
XPath条目1:
orialdetail-1 / xpathrm1.html
XPath条目2:
ia / 44656 / xpath.pdf
4,设置缓存设置
有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.
设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.
Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.
Cookie登录方法:
优采云采集器制作Points.docx
采集交流 • 优采云 发表了文章 • 0 个评论 • 340 次浏览 • 2020-08-07 21:40
使用优采云采集器的要点
许多用户将在工作单或扣除组中咨询优采云 采集相关问题. 我们已经解决了这些问题并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.
1. 在工作流设计器中手动检查规则
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以相应地修改规则. 查看以下教程,了解规则故障排除的具体方法:
优采云 7.0版本基本故障排除教程:
orialdetail-1 / jbpc_7.html
2,设置正确的超时时间和滚动时间
有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获得数据,但在开始提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.
有时该网页会这样显示. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.
但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;否则,即使您更改规则,规则仍然无效.
此外,我们不建议您同时选择“在新标签页中打开”和“ AJAX加载页面”,除非优采云仍然无法打开某些网站.
有关具体操作,请参阅本教程: orialdetail-1 / ajaxdjfy_7.html
3. 手动修改XPath
正确使用XPath是使用优采云采集数据的关键. 页面翻页,数据丢失和不规则值范围之类的步骤大多数时候都涉及XPath的更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.
XPath条目1:
orialdetail-1 / xpathrm1.html
XPath条目2:
ia / 44656 / xpath.pdf
4,设置缓存设置
有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.
设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.
Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.
Cookie登录方法: 查看全部
文档简介:
使用优采云采集器的要点
许多用户将在工作单或扣除组中咨询优采云 采集相关问题. 我们已经解决了这些问题并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.
1. 在工作流设计器中手动检查规则
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以相应地修改规则. 查看以下教程,了解规则故障排除的具体方法:
优采云 7.0版本基本故障排除教程:
orialdetail-1 / jbpc_7.html
2,设置正确的超时时间和滚动时间
有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获得数据,但在开始提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.
有时该网页会这样显示. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.
但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;否则,即使您更改规则,规则仍然无效.
此外,我们不建议您同时选择“在新标签页中打开”和“ AJAX加载页面”,除非优采云仍然无法打开某些网站.
有关具体操作,请参阅本教程: orialdetail-1 / ajaxdjfy_7.html
3. 手动修改XPath
正确使用XPath是使用优采云采集数据的关键. 页面翻页,数据丢失和不规则值范围之类的步骤大多数时候都涉及XPath的更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.
XPath条目1:
orialdetail-1 / xpathrm1.html
XPath条目2:
ia / 44656 / xpath.pdf
4,设置缓存设置
有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.
设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.
Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.
Cookie登录方法:
优采云采集器 for Mac版本v3.4.12
采集交流 • 优采云 发表了文章 • 0 个评论 • 284 次浏览 • 2020-08-07 21:36
优采云采集器的操作方法
1. 输入正确的URL
输入正确的URL后,此采集任务成功完成一半. 优采云采集器支持单个URL和多个URL采集,还支持从本地TXT文件导入URL.
2,选择页面类型并设置分页
在智能模式下,优采云采集器将默认识别列表类型. 如果输入单个页面类型,这时会出现识别错误;或由于其他原因,即使对于列表类型的网页,智能识别也出现了偏差(我们将始终优化智能识别功能). 此时,您可以手动选择页面类型并设置页面调度,以帮助软件识别正确的结果.
3. 登录前
在数据采集过程中,有时会遇到需要登录才能查看内容的网页. 这时,我们需要使用预登录功能. 登录成功后,可以进行正常的数据采集.
4. 切换浏览器模式
在数据采集过程中,可以使用不同的浏览器模式来优化采集效果. 具体使用场景需要根据实际情况进行判断.
5. 设置提取字段
在智能模式下,该软件将自动识别网页中的数据并将其显示在采集结果预览窗口中,用户可以根据需要设置字段.
6. 采集任务的基本设置
在开始采集任务之前,我们需要设置采集任务,包括一些基本设置和防屏蔽设置.
7. 采集任务的高级设置: 定时采集
定时采集功能属于采集任务的高级设置. 该功能可以在用户设置的时间段内的固定时间启动和停止数据采集任务. 如果您已设置时间采集,请确保该软件始终可以运行(无法关闭).
8. 采集任务的高级设置: 自动存储
自动存储功能属于采集任务的高级设置. 此功能可以在采集数据时实现将采集结果自动发布到数据库,而无需等待任务结束以导出数据. 自动仓储功能与定时采集功能相结合,可以大大节省时间,提高工作效率.
9. 采集任务的高级设置: 下载图片
下载图片属于采集任务的高级设置. 该功能可以实现在采集数据的同时将网页上的图片下载到本地.
10. 查看采集结果并导出数据
如果不使用自动存储功能,则需要手动导出采集的结果. 完成上述设置后,我们可以启动采集任务. 在设置任务的过程中,采集任务将被自动保存. 采集任务结束后,用户可以查看采集结果并导出数据. 优采云采集器对导出结果的输出没有任何限制,不需要积分,它是完全免费的,因此每个人都可以放心使用它.
软件功能
1. 智能采集
智能分析和提取列表/表数据,并可以自动识别分页符. 一键采集各种网站,包括分页,滚动加载,登录采集,AJAX等.
2,各种数据导出
一键导出所有采集的数据. 支持CSV,EXCEL和HTML等,还支持将数据导出到数据库.
3. 云帐户
采集任务会自动保存到云中,因此无需担心任务丢失. 一个帐户的多终端操作可以随时随地创建和修改收款任务.
4. 跨平台支持
优采云采集器支持各种操作系统,包括Windows,Mac和Linux. 无论是个人采集还是团队/业务使用,它都可以满足您的各种需求.
更新日志
优采云采集器 v3.4.12更新日志(2020-01-04)
解决常规处理问题 查看全部
网络数据采集器通常用于批量采集网页,论坛和其他内容,并将其直接保存到数据中或发布到Internet. 优采云采集器 for Mac是由“前Google技术团队”创建的macOS网络数据采集软件. 它使用最先进的人工智能技术. 用户只需要在页面上输入网址. 这是通过智能识别要提取和分页的数据来采集网页的最简单方法. 该软件具有完全的可视化操作,单击以修改要提取的数据等,这种简单的操作方法甚至可以由计算机初学者轻松使用. 优采云采集器具有多种采集模式(智能采集和高级采集,可以满足不同的采集要求),可以通过任何网站进行采集,包括XPATH,JSON,HTTP和POST.

优采云采集器的操作方法
1. 输入正确的URL
输入正确的URL后,此采集任务成功完成一半. 优采云采集器支持单个URL和多个URL采集,还支持从本地TXT文件导入URL.
2,选择页面类型并设置分页
在智能模式下,优采云采集器将默认识别列表类型. 如果输入单个页面类型,这时会出现识别错误;或由于其他原因,即使对于列表类型的网页,智能识别也出现了偏差(我们将始终优化智能识别功能). 此时,您可以手动选择页面类型并设置页面调度,以帮助软件识别正确的结果.
3. 登录前
在数据采集过程中,有时会遇到需要登录才能查看内容的网页. 这时,我们需要使用预登录功能. 登录成功后,可以进行正常的数据采集.
4. 切换浏览器模式
在数据采集过程中,可以使用不同的浏览器模式来优化采集效果. 具体使用场景需要根据实际情况进行判断.
5. 设置提取字段
在智能模式下,该软件将自动识别网页中的数据并将其显示在采集结果预览窗口中,用户可以根据需要设置字段.
6. 采集任务的基本设置
在开始采集任务之前,我们需要设置采集任务,包括一些基本设置和防屏蔽设置.
7. 采集任务的高级设置: 定时采集
定时采集功能属于采集任务的高级设置. 该功能可以在用户设置的时间段内的固定时间启动和停止数据采集任务. 如果您已设置时间采集,请确保该软件始终可以运行(无法关闭).
8. 采集任务的高级设置: 自动存储
自动存储功能属于采集任务的高级设置. 此功能可以在采集数据时实现将采集结果自动发布到数据库,而无需等待任务结束以导出数据. 自动仓储功能与定时采集功能相结合,可以大大节省时间,提高工作效率.
9. 采集任务的高级设置: 下载图片
下载图片属于采集任务的高级设置. 该功能可以实现在采集数据的同时将网页上的图片下载到本地.
10. 查看采集结果并导出数据
如果不使用自动存储功能,则需要手动导出采集的结果. 完成上述设置后,我们可以启动采集任务. 在设置任务的过程中,采集任务将被自动保存. 采集任务结束后,用户可以查看采集结果并导出数据. 优采云采集器对导出结果的输出没有任何限制,不需要积分,它是完全免费的,因此每个人都可以放心使用它.

软件功能
1. 智能采集
智能分析和提取列表/表数据,并可以自动识别分页符. 一键采集各种网站,包括分页,滚动加载,登录采集,AJAX等.
2,各种数据导出
一键导出所有采集的数据. 支持CSV,EXCEL和HTML等,还支持将数据导出到数据库.
3. 云帐户
采集任务会自动保存到云中,因此无需担心任务丢失. 一个帐户的多终端操作可以随时随地创建和修改收款任务.
4. 跨平台支持
优采云采集器支持各种操作系统,包括Windows,Mac和Linux. 无论是个人采集还是团队/业务使用,它都可以满足您的各种需求.
更新日志
优采云采集器 v3.4.12更新日志(2020-01-04)
解决常规处理问题
优采云采集器 v2.3.2的最新正式版本
采集交流 • 优采云 发表了文章 • 0 个评论 • 525 次浏览 • 2020-08-07 20:45
软件简介
优采云采集器是用于数据采集和发布的免费爬虫软件. 它是用php + mysql开发的,可以部署在云服务器上. 它可以采集几乎所有类型的网页,并且无需登录即可无缝连接各种CMS网站构建程序. 实时实时发布数据,无需人工干预. 它是在云时代自动采集大数据和网站数据的最佳云爬虫软件!
软件功能
关于软件
SkyCaiji致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,从而使数据采集变得方便,智能且基于云,使您可以随时随地在Office上移动!
数据采集
支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别
内容发布
与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.
自动化和云平台
该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供需信息以及社区帮助,交流等.
使用方法
升级软件
您可以直接在后台主页上检查更新并单击升级,或将压缩包上传到服务器以解压并覆盖它!
安装软件
将下载的软件上载到您的服务器. 如果根目录中有一个站点,建议将其放在子目录中. 解压缩后,打开浏览器并输入服务器域名或IP地址(存储在子目录中时添加子目录的名称),进入安装界面
点击“接受”进入环境检测页面
您必须确保所有参数正确,否则在使用过程中会发生错误,请单击“下一步”进入数据安装界面
填写数据库和Founder配置,单击“下一步”
最后,安装完成,现在您可以使用优采云采集器了!
匹配规则
“规则”支持: (*)(通配符),正则表达式,使用[content](通用匹配)或捕获组(常规捕获组)将匹配的数据另存为标记,并在“拼接的”中引用内容” [内容N]标签组成结果
[内容]和捕获组之间的区别: [内容]将自动转换为固定格式的捕获组: (?. *?)
捕获组: (?[\ s \ S] *?),您可以编写任何正则表达式
[内容]适用于精度较低的常规匹配,捕获组适用于精确匹配
默认为单个匹配项,可以选中多个匹配项“允许多个元素匹配” 查看全部
优采云采集器可以帮助用户快速抓取网站数据,无需本地管理即可将所有数据存储在云中,节省大量硬盘空间,支持多级和多页采集方法以及内容发布功能,用户谁需要它,来下载它.
软件简介
优采云采集器是用于数据采集和发布的免费爬虫软件. 它是用php + mysql开发的,可以部署在云服务器上. 它可以采集几乎所有类型的网页,并且无需登录即可无缝连接各种CMS网站构建程序. 实时实时发布数据,无需人工干预. 它是在云时代自动采集大数据和网站数据的最佳云爬虫软件!

软件功能
关于软件
SkyCaiji致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,从而使数据采集变得方便,智能且基于云,使您可以随时随地在Office上移动!
数据采集
支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别
内容发布
与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.
自动化和云平台
该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供需信息以及社区帮助,交流等.
使用方法
升级软件
您可以直接在后台主页上检查更新并单击升级,或将压缩包上传到服务器以解压并覆盖它!
安装软件
将下载的软件上载到您的服务器. 如果根目录中有一个站点,建议将其放在子目录中. 解压缩后,打开浏览器并输入服务器域名或IP地址(存储在子目录中时添加子目录的名称),进入安装界面

点击“接受”进入环境检测页面

您必须确保所有参数正确,否则在使用过程中会发生错误,请单击“下一步”进入数据安装界面

填写数据库和Founder配置,单击“下一步”

最后,安装完成,现在您可以使用优采云采集器了!
匹配规则
“规则”支持: (*)(通配符),正则表达式,使用[content](通用匹配)或捕获组(常规捕获组)将匹配的数据另存为标记,并在“拼接的”中引用内容” [内容N]标签组成结果
[内容]和捕获组之间的区别: [内容]将自动转换为固定格式的捕获组: (?. *?)
捕获组: (?[\ s \ S] *?),您可以编写任何正则表达式
[内容]适用于精度较低的常规匹配,捕获组适用于精确匹配
默认为单个匹配项,可以选中多个匹配项“允许多个元素匹配”
优采云采集器 v2.3.2正式版
采集交流 • 优采云 发表了文章 • 0 个评论 • 266 次浏览 • 2020-08-07 20:42
优采云采集器的破解版是一种爬网程序工具,可以采集各种网页上的数据. 我们可以使用优采云采集器采集网页上的所有数据信息,从而使您可以建立一个网站使用它.
软件简介
优采云采集器是用于数据采集和发布的免费爬虫软件. 它是用php + mysql开发的,可以部署在云服务器上. 它可以采集几乎所有类型的网页,并且无需登录即可无缝连接各种CMS网站构建程序. 实时实时发布数据,无需人工干预. 它是在云时代自动采集大数据和网站数据的最佳云爬虫软件!
优采云采集器破解版的功能
关于软件
SkyCaiji致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,从而使数据采集变得方便,智能且基于云,使您可以随时随地在Office上移动!
数据采集
支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别
内容发布
与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.
自动化和云平台
该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供需信息以及社区帮助,交流等.
设置说明
设置包括: 采集设置,网站设置,邮件发送设置,代理设置等.
启用自动采集,设置采集参数和图像本地化
页面呈现设置
代理设置
防止IP被阻止
翻译设置
支持百度翻译和有道翻译
网站设置 查看全部
软件简介
优采云采集器的破解版是一种爬网程序工具,可以采集各种网页上的数据. 我们可以使用优采云采集器采集网页上的所有数据信息,从而使您可以建立一个网站使用它.

软件简介
优采云采集器是用于数据采集和发布的免费爬虫软件. 它是用php + mysql开发的,可以部署在云服务器上. 它可以采集几乎所有类型的网页,并且无需登录即可无缝连接各种CMS网站构建程序. 实时实时发布数据,无需人工干预. 它是在云时代自动采集大数据和网站数据的最佳云爬虫软件!
优采云采集器破解版的功能
关于软件
SkyCaiji致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,从而使数据采集变得方便,智能且基于云,使您可以随时随地在Office上移动!
数据采集
支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别
内容发布
与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.
自动化和云平台
该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供需信息以及社区帮助,交流等.
设置说明
设置包括: 采集设置,网站设置,邮件发送设置,代理设置等.
启用自动采集,设置采集参数和图像本地化
页面呈现设置
代理设置
防止IP被阻止
翻译设置
支持百度翻译和有道翻译
网站设置
优采云采集器破解版的功能
采集交流 • 优采云 发表了文章 • 0 个评论 • 324 次浏览 • 2020-08-07 20:40
优采云采集器的破解版是一种爬网程序工具,可以采集各种网页上的数据. 我们可以使用优采云采集器采集网页上的所有数据信息,从而使您可以建立一个网站使用它.
软件简介
优采云采集器是用于数据采集和发布的免费爬虫软件. 它是用php + mysql开发的,可以部署在云服务器上. 它可以采集几乎所有类型的网页,并且无需登录即可无缝连接各种CMS网站构建程序. 实时实时发布数据,无需人工干预. 它是在云时代自动采集大数据和网站数据的最佳云爬虫软件!
优采云采集器破解版的功能
关于软件
SkyCaiji致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,从而使数据采集变得方便,智能且基于云,使您可以随时随地在Office上移动!
数据采集
支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别
内容发布
与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.
自动化和云平台
该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供需信息以及社区帮助,交流等.
设置说明
设置包括: 采集设置,网站设置,邮件发送设置,代理设置等.
启用自动采集,设置采集参数和图像本地化
页面呈现设置
代理设置
防止IP被阻止
翻译设置
支持百度翻译和有道翻译
网站设置 查看全部
软件简介
优采云采集器的破解版是一种爬网程序工具,可以采集各种网页上的数据. 我们可以使用优采云采集器采集网页上的所有数据信息,从而使您可以建立一个网站使用它.

软件简介
优采云采集器是用于数据采集和发布的免费爬虫软件. 它是用php + mysql开发的,可以部署在云服务器上. 它可以采集几乎所有类型的网页,并且无需登录即可无缝连接各种CMS网站构建程序. 实时实时发布数据,无需人工干预. 它是在云时代自动采集大数据和网站数据的最佳云爬虫软件!
优采云采集器破解版的功能
关于软件
SkyCaiji致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,从而使数据采集变得方便,智能且基于云,使您可以随时随地在Office上移动!
数据采集
支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别
内容发布
与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.
自动化和云平台
该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供需信息以及社区帮助,交流等.
设置说明
设置包括: 采集设置,网站设置,邮件发送设置,代理设置等.
启用自动采集,设置采集参数和图像本地化
页面呈现设置
代理设置
防止IP被阻止
翻译设置
支持百度翻译和有道翻译
网站设置
使用优采云采集器的要点
采集交流 • 优采云 发表了文章 • 0 个评论 • 376 次浏览 • 2020-08-07 20:13
许多用户将在工作单或扣除组中查询与优采云 采集相关的问题. 我们对这些问题进行了分类,并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.
1. 在工作流设计器中手动检查规则
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以修改相应的规则. 请查看以下教程,以了解具体的故障排除方法:
优采云 7.0版本基本故障排除教程:
/tutorialdetail-1/jbpc_7.html
2,设置正确的超时时间和滚动时间
有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获取数据,但是在启动提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.
有时网页会出现这种情况. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.
但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;如果不是这样,即使您更改规则,该规则仍然无效.
此外,除非优采云仍然无法打开某些网站,否则我们建议您不要同时选择“在新选项卡中打开”和“ AJAX加载页面”.
有关具体操作,请参阅本教程: /tutorialdetail-1/ajaxdjfy_7.html
3. 手动修改XPath
正确使用XPath是使用优采云采集数据的关键. 翻页,丢失数据和不规则范围之类的步骤大多数时候都涉及XPath更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.
XPath条目1:
/tutorialdetail-1/xpathrm1.html
XPath条目2:
/media/44656/xpath.pdf
4,设置缓存设置
有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.
设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.
Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.
Cookie登录方法:
/tutorialdetail-1/cookie70.html 查看全部
摘要: 许多用户将在工作单或扣除组中咨询优采云 采集的相关问题. 我们已经解决了这些问题并提出了使用要点. 希望他们能帮助您解决使用中的问题. 优采云采集器遇到的问题.
许多用户将在工作单或扣除组中查询与优采云 采集相关的问题. 我们对这些问题进行了分类,并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.
1. 在工作流设计器中手动检查规则
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以修改相应的规则. 请查看以下教程,以了解具体的故障排除方法:
优采云 7.0版本基本故障排除教程:
/tutorialdetail-1/jbpc_7.html
2,设置正确的超时时间和滚动时间
有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获取数据,但是在启动提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.
有时网页会出现这种情况. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.
但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;如果不是这样,即使您更改规则,该规则仍然无效.
此外,除非优采云仍然无法打开某些网站,否则我们建议您不要同时选择“在新选项卡中打开”和“ AJAX加载页面”.
有关具体操作,请参阅本教程: /tutorialdetail-1/ajaxdjfy_7.html
3. 手动修改XPath
正确使用XPath是使用优采云采集数据的关键. 翻页,丢失数据和不规则范围之类的步骤大多数时候都涉及XPath更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.
XPath条目1:
/tutorialdetail-1/xpathrm1.html
XPath条目2:
/media/44656/xpath.pdf
4,设置缓存设置
有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.
设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.
Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.
Cookie登录方法:
/tutorialdetail-1/cookie70.html
优采云采集器 v7查看数据并导出data.docx
采集交流 • 优采云 发表了文章 • 0 个评论 • 293 次浏览 • 2020-08-07 18:31
优采云采集器 v7查看数据并导出数据
作为一种工具,优采云采集器可以在Internet上采集可见的公共数据. 除了采集器中的配置任务外,当然还有数据显示和数据导出,它们为以后的数据分析和挖掘提供了数据支持.
相关采集教程:
优采云采集原则
58个相同城市的信息采集
搜狗微信文章采集
如何使用优采云采集器查看数据:
在7.0版中,我们可以在任务列表界面中查看最新任务中每个任务采集的数据量.
步骤1: 打开7.0版的优采云,单击左侧的任务选项,将弹出任务列表界面. 在每个任务的中间,记录了任务的当前采集状态,最近一次云中采集的数据量以及本地采集的数据量.
优采云查看数据并导出数据-图1: 云采集
优采云查看数据并导出数据-图2: 本地集合
第2步: 点击“云集合: 已采集XXX条数据...”或“本地集合: 已采集XXX条数据”. 该页面将直接跳到数据查看界面. 该界面显示了当前任务采集的最终数据表单.
优采云查看数据并导出数据-图3
云数据界面:
云数据界面显示当前任务的名称(在页面中间),以及任务的总数据量和页面数(页面左下方). 同时,有一个提醒: 数据仅存储3个月. (页面右上角)就是说,云采集的数据将在云中存储3个月,之后数据将被清除. 因此,需要及时导出数据.
优采云查看数据并导出数据-图4
本地数据:
本地数据接口和云数据接口之间基本上没有区别. 但是,任务执行本地采集时会生成本地数据. 每个本地集合将清除以前保存的本地数据,仅保留最新数据. 云数据是每次运行云采集后的数据摘要.
优采云查看数据并导出数据-图5
跳转任务编辑界面
在云数据界面中,您可以直接跳至任务编辑界面,并直接单击“编辑任务”(左上角的蓝色框). 当任务数据不符合预期时,可以执行操作,跳至任务编辑界面,然后进行修改. 然后再次运行任务.
优采云查看数据并导出数据-图6
优采云查看数据并导出数据-图7
数据页翻页,跳转
您可以单击左下角的翻页操作以查看后续数据. 同时,填写特定的页码,然后单击“跳转”以自动跳转到相应的页面.
优采云查看数据并导出数据-图8
清除数据
单击“清除数据”以清除当前所有显示的数据. 主要是当当前数据不符合预期或数据错误时,需要清除数据,不会影响下次采集的数据.
优采云查看数据并导出数据-图9
在所有数据和未导出的数据之间切换
长时间更新数据时,用户将在采集数据时导出. 此时,将区分未导出的数据和所有数据. 用户以后可以方便地过滤和导出. 在云数据界面中,可以交换这两套数据. 查看全部
文档简介:
优采云采集器 v7查看数据并导出数据
作为一种工具,优采云采集器可以在Internet上采集可见的公共数据. 除了采集器中的配置任务外,当然还有数据显示和数据导出,它们为以后的数据分析和挖掘提供了数据支持.
相关采集教程:
优采云采集原则
58个相同城市的信息采集
搜狗微信文章采集
如何使用优采云采集器查看数据:
在7.0版中,我们可以在任务列表界面中查看最新任务中每个任务采集的数据量.
步骤1: 打开7.0版的优采云,单击左侧的任务选项,将弹出任务列表界面. 在每个任务的中间,记录了任务的当前采集状态,最近一次云中采集的数据量以及本地采集的数据量.
优采云查看数据并导出数据-图1: 云采集
优采云查看数据并导出数据-图2: 本地集合
第2步: 点击“云集合: 已采集XXX条数据...”或“本地集合: 已采集XXX条数据”. 该页面将直接跳到数据查看界面. 该界面显示了当前任务采集的最终数据表单.
优采云查看数据并导出数据-图3
云数据界面:
云数据界面显示当前任务的名称(在页面中间),以及任务的总数据量和页面数(页面左下方). 同时,有一个提醒: 数据仅存储3个月. (页面右上角)就是说,云采集的数据将在云中存储3个月,之后数据将被清除. 因此,需要及时导出数据.
优采云查看数据并导出数据-图4
本地数据:
本地数据接口和云数据接口之间基本上没有区别. 但是,任务执行本地采集时会生成本地数据. 每个本地集合将清除以前保存的本地数据,仅保留最新数据. 云数据是每次运行云采集后的数据摘要.
优采云查看数据并导出数据-图5
跳转任务编辑界面
在云数据界面中,您可以直接跳至任务编辑界面,并直接单击“编辑任务”(左上角的蓝色框). 当任务数据不符合预期时,可以执行操作,跳至任务编辑界面,然后进行修改. 然后再次运行任务.
优采云查看数据并导出数据-图6
优采云查看数据并导出数据-图7
数据页翻页,跳转
您可以单击左下角的翻页操作以查看后续数据. 同时,填写特定的页码,然后单击“跳转”以自动跳转到相应的页面.
优采云查看数据并导出数据-图8
清除数据
单击“清除数据”以清除当前所有显示的数据. 主要是当当前数据不符合预期或数据错误时,需要清除数据,不会影响下次采集的数据.
优采云查看数据并导出数据-图9
在所有数据和未导出的数据之间切换
长时间更新数据时,用户将在采集数据时导出. 此时,将区分未导出的数据和所有数据. 用户以后可以方便地过滤和导出. 在云数据界面中,可以交换这两套数据.
湖北拼多多采集上传软件_Amazon ERP
采集交流 • 优采云 发表了文章 • 0 个评论 • 338 次浏览 • 2020-08-07 13:09
湖北拼多多的采集和上传软件,它可以是一套教程或一种相关的材料包. 它收录的内容组合可以说是灵活的. 未来已经到来,数据包网站将发挥其潜力. 不要推测和上传单个文件的数据包. 118专业压缩包上传管理软件是专用的压缩包上传软件,它集成了“预处理,转换前,判断,上传和管理”,并且由网站独立开发. 该软件支持用户上传和预览图片,音频和视频等文件资源,极大地满足了用户对各种资源的需求,并保护了数据的完整性. 步骤1: 解压缩并安装压缩包上传软件. 可以上传cad,cdr,psd和音频和视频文件等图片格式,并且可以在线预览这些上传格式的文件.
嘟嘟批量上传软件主工具,支持多文档导入,多账户登录,多IP操作,访问编码平台,自动上传软件工具. 每天上传成千上万的文档不是问题. 多线程操作可用于批量上传文档. 该程序占用更少的资源,运行速度更快. 您可以批量导入文本文件,并支持txt,doc,docx,pdf等文件,非常方便. 该程序可以在多个线程中运行,并且速度非常快. 支持多帐户导入和登录,快速批量上传以及adsl服务器挂断.
湖北拼多多采集并上传软件,甚至可以使用一些高质量的商店流量来增加交易增加的频率,例如淘宝,天猫,京东,拼多多和小红书. 信息流新媒体信息流通常是指采集了无数动态的页面. 新型零售系统,京东仓库系统,配送系统,多城市站群配送等互联网专业服务. 在竞争激烈的网站建设行业中,我们始终坚持以技术为核心,建立强大的技术开发团队. 陆胜软件,专业网络推广和视频文章推广很容易处理. 4.文章生成,云发布系统,自动推广,让您的信息无处不在,客户永不停止. 从媒体上看,达人一站式服务品牌的广告商希望取得成果,而有效的广告商希望获得更高的转换效率. 蓬勃发展的短视频广告如何实现质量与效率的融合. 让我们看一下短视频广告产品和效果整合的0条规则. 短视频广告的内容与目标受众一致. 基本原理取得了良好的沟通效果. 广告内容的一般化趋向于类似于原创内容,这很难被用户立即识别. 一旦出现,它将为用户提供受欢迎的场景. 兄弟的日常和流行小剧院广告都遵循这一原则.
如果同一平台采集1653并将其直接放在架子上,则此风险会更大. 一种更可靠的方法是在采集或跨平台采集之后自行修改图片. 当然,市场上的采集软件也不尽相同,这里推荐使用“古桥电子商务图片助手”,它支持多种平台,易于采集. 您对这个答案有何评价?转到下一步4102. 在这里,我想提醒大家注意1653申请的内容,通过审核后,无论如何都要收取190元的手续费. 不要把它当作小事. 百度每天平均有超过10亿个搜索请求,百度推广涵盖了95%的互联网用户和850,000个中国企业营销合作伙伴.
湖北拼多多采集并上传软件,购买用户迫切需要完整的信息,这在上传用户和购买用户之间形成了巨大的矛盾. 为了消除这种矛盾,网站自主开发了118套专业压缩包上传管理软件,上传用户可以按类别上传文件,图纸,音频,视频等文件,使上传的信息完整,全面. 同时,购买用户可以在线预览文档,视频和其他文件. 上传用户对需要上传的资料进行分类,大大减少了买家寻找资料的时间,提高了效率,增强了购买用户的体验. 上载用户使用我们自行开发的信息包专业上载管理软件上载资料,该包使上载更快,更方便;成功上传的zip压缩包以数据包的形式呈现给用户,以便用户可以清楚地了解该数据包的所有情况;
每月收入一万把刀的外贸精英教你做外贸!只需简单的操作即可添加水印和删除水印,方便快捷,效果可媲美专业软件! 查看全部
湖北拼多多的Amazon ERP ERP采集和上传软件,可以节省成本并缩短交货周期,真正帮助客户解决国际物流问题.
湖北拼多多的采集和上传软件,它可以是一套教程或一种相关的材料包. 它收录的内容组合可以说是灵活的. 未来已经到来,数据包网站将发挥其潜力. 不要推测和上传单个文件的数据包. 118专业压缩包上传管理软件是专用的压缩包上传软件,它集成了“预处理,转换前,判断,上传和管理”,并且由网站独立开发. 该软件支持用户上传和预览图片,音频和视频等文件资源,极大地满足了用户对各种资源的需求,并保护了数据的完整性. 步骤1: 解压缩并安装压缩包上传软件. 可以上传cad,cdr,psd和音频和视频文件等图片格式,并且可以在线预览这些上传格式的文件.
嘟嘟批量上传软件主工具,支持多文档导入,多账户登录,多IP操作,访问编码平台,自动上传软件工具. 每天上传成千上万的文档不是问题. 多线程操作可用于批量上传文档. 该程序占用更少的资源,运行速度更快. 您可以批量导入文本文件,并支持txt,doc,docx,pdf等文件,非常方便. 该程序可以在多个线程中运行,并且速度非常快. 支持多帐户导入和登录,快速批量上传以及adsl服务器挂断.

湖北拼多多采集并上传软件,甚至可以使用一些高质量的商店流量来增加交易增加的频率,例如淘宝,天猫,京东,拼多多和小红书. 信息流新媒体信息流通常是指采集了无数动态的页面. 新型零售系统,京东仓库系统,配送系统,多城市站群配送等互联网专业服务. 在竞争激烈的网站建设行业中,我们始终坚持以技术为核心,建立强大的技术开发团队. 陆胜软件,专业网络推广和视频文章推广很容易处理. 4.文章生成,云发布系统,自动推广,让您的信息无处不在,客户永不停止. 从媒体上看,达人一站式服务品牌的广告商希望取得成果,而有效的广告商希望获得更高的转换效率. 蓬勃发展的短视频广告如何实现质量与效率的融合. 让我们看一下短视频广告产品和效果整合的0条规则. 短视频广告的内容与目标受众一致. 基本原理取得了良好的沟通效果. 广告内容的一般化趋向于类似于原创内容,这很难被用户立即识别. 一旦出现,它将为用户提供受欢迎的场景. 兄弟的日常和流行小剧院广告都遵循这一原则.

如果同一平台采集1653并将其直接放在架子上,则此风险会更大. 一种更可靠的方法是在采集或跨平台采集之后自行修改图片. 当然,市场上的采集软件也不尽相同,这里推荐使用“古桥电子商务图片助手”,它支持多种平台,易于采集. 您对这个答案有何评价?转到下一步4102. 在这里,我想提醒大家注意1653申请的内容,通过审核后,无论如何都要收取190元的手续费. 不要把它当作小事. 百度每天平均有超过10亿个搜索请求,百度推广涵盖了95%的互联网用户和850,000个中国企业营销合作伙伴.

湖北拼多多采集并上传软件,购买用户迫切需要完整的信息,这在上传用户和购买用户之间形成了巨大的矛盾. 为了消除这种矛盾,网站自主开发了118套专业压缩包上传管理软件,上传用户可以按类别上传文件,图纸,音频,视频等文件,使上传的信息完整,全面. 同时,购买用户可以在线预览文档,视频和其他文件. 上传用户对需要上传的资料进行分类,大大减少了买家寻找资料的时间,提高了效率,增强了购买用户的体验. 上载用户使用我们自行开发的信息包专业上载管理软件上载资料,该包使上载更快,更方便;成功上传的zip压缩包以数据包的形式呈现给用户,以便用户可以清楚地了解该数据包的所有情况;
每月收入一万把刀的外贸精英教你做外贸!只需简单的操作即可添加水印和删除水印,方便快捷,效果可媲美专业软件!
You Caiyun-基本故障排除教程
采集交流 • 优采云 发表了文章 • 0 个评论 • 199 次浏览 • 2020-08-06 10:14
本教程主要讨论如何快速发现错误,解决错误或如何理解错误,以及在使用优采云时遇到问题时如何与客户服务更好地沟通.
优采云采集器主要使用技术来定位和模拟用户浏览网页以采集数据的操作. 用户不需要了解网页的结构,数据采集原理和其他技能,通过优采云采集器就可以形成优采云的获取过程,该过程可以理解并且可以循环工作.
如果存在采集模式不符合需要的情况,则在故障排除之后将有更详细的教程
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 如果采集不正常,请按照以下步骤进行操作. 解决并查找问题类型:
(1)再次手动执行规则: 打开界面右上角的流程图,
使用鼠标从上至下单击流程图中的规则,每次单击下一步时,都会有相应的响应,而没有反应的步骤就是发生问题的步骤.
注意:
a. 单击并提取循环中的元素以手动选择循环中第一个元素以外的内容,以防止循环失败,仅单击以提取循环中的第一个元素
b. 所有规则在下一步执行之后执行,然后再进行下一步,则网页未完全加载,即当浏览器上的圆圈等待图标未消失时,请观察网页内容是否已完全加载. 已完全加载,您可以自行取消加载,然后配置规则.
(2)执行独立采集并检查采集结果中尚未采集数据的项目.
注意: 最好将当前URL添加到规则中,以便某些项目尚未采集数据. 您可以复制URL并在浏览器中打开它,以检查原因并确定错误.
以下可能出现的问题的描述如下,供您参考:
(1)手动执行步骤时没有响应
有两种可能的现象:
1. 步骤无法正常执行
原因: 规则问题,采集器问题,定位模拟问题
解决方案:
您可以检查,删除该步骤,然后再次添加它,如果仍然无法执行,则排除了规则问题,您可以:
在浏览器中打开网页进行操作. 如果可以在浏览器中但不能在采集器中执行某些滚动或单击翻页的操作,则可能是采集器问题,因为采集器中嵌入的浏览器是Firefox浏览器,可能是嵌入式浏览器的版本已更改. 后续版本,导致可以在浏览器中实现的功能无法在采集器中嵌入的浏览器中执行. 这种类型的网页中的数据将被智能地采集并翻页或滚动以前的数据.
排除采集器问题和规则问题后,可以尝试以与制定规则时相同的布局在页面上重新添加步骤. 如果它可以在这样的页面上执行,但是仅页面的一部分不能执行,则这是定位模拟问题. 这个问题通常存在于时间跨度较大的网站上. 原因是网站的布局已更改,这导致采集器位置所需的XPath发生了更改. 请参考XPath章节以修改规则或咨询客户服务. 建议向客户服务说明网站URL和错误. 原因是,方便客户服务提供解决方案.
2. 循环中的单击或捕获仅发生在第一个内容中,而单击第二个内容仍捕获第一个内容
原因: 规则问题,定位模拟问题
解决方案:
检查循环中的第一项是否选中并单击当前循环中设置的元素
如果仍然无法检查,则可以:
如果该循环中还有其他循环,请首先参考问题1的动画以删除其中的内容,删除有问题的循环,然后再次进行重置. 如果删除的规则没有自动重置,则需要手动重置. 如果循环正常,请使用它排除规则问题. 如果没有,那就是定位仿真问题. 您可以:
检查自定义数据字段以在循环中提取数据,检查自定义定位元素方法,并查看其中是否存在相对的Xpath路径,如果没有,请删除该字段,并在外部高级选项中检查use循环,然后重新添加,然后重试. 如果有回应,则问题得到解决,如果仍然无法解决,您可以:
请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.
(2)单机采集无法采集数据
有四个可能的原因:
1. 单机操作规则,将在采集数据之前显示数据.
此现象分为3种情况
A. 打开网页后,将直接显示采集已完成
原因: 网页问题. 第一个网页加载太慢. 优采云会等一会儿. 如果一段时间后仍在加载,则彩云将跳过此步骤. 后续步骤认为未加载内容. 收到数据后,优采云结束了任务,因此没有数据采集.
解决方案: 延长网页的超时时间,或者等待设置下一步执行,以便网页有足够的时间加载.
B. 该网页始终处于加载状态
原因: 网页问题,某些网页加载缓慢. 您想要采集的数据不会出现.
解决方案: 如果当前步骤是打开网页,则可以增加网页的超时时间. 如果是单击元素的步骤,并且已加载要采集的数据,则可以在单击元素的步骤中设置ajax延迟. 单击后,将加载新数据,并且网页URL不会更改为ajax链接.
C. 该网页未进入采集页面
原因: 此问题通常发生在点击元素步骤中. 当某些网页中有ajax链接时,有必要根据点击位置确定是否需要设置它. 如果未设置,它将始终卡在独立采集过程中的上一步中,并且无法采集任何数据. 异步加载网页时,如果未设置ajax延迟,通常将无法正确执行该操作,从而导致该规则无法继续进行下一步,并且无法提取任何数据.
解决方案: 在相应的步骤中设置ajax延迟,通常为2-3S,如果网页加载时间较长,则可以适当增加延迟时间. 单击该元素,循环到下一页,将鼠标移到该元素,这三个步骤中都有ajax设置
2. 独立操作规则无法正常执行
原因: 规则问题或定位模拟问题
解决方案:
首先确定是否需要设置ajax,以及是否设置正确,如果不是ajax问题,则可以:
删除有问题的步骤,然后重新设置. 如果问题解决了,那就是规则问题. 如果问题没有解决,那就是定位仿真问题. 您可以:
请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.
3. 单机操作规则,首页或首页数据正常,以后不能执行
原因: 规则问题-循环部分有问题
解决方案: 请参阅第二内容的手动执行.
4. 单机操作规则,数据采集丢失或错误
此现象有5种情况:
A. 有些字段没有数据
原因: 网页中的数据为空,是模拟定位问题
解决方案:
检查没有字段的链接,然后使用浏览器打开它们. 如果确实没有字段,就没有问题. 如果浏览器打开内容,这是一个模拟定位问题. 您可以:
请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.
B. 采集的数据量不正确
原因: 规则问题-循环部分有问题
解决方案: 请参阅第二内容的手动执行
C. 采集的数据混乱,没有相应的信息
原因: 规则问题-太多的提取步骤,太长的网页加载时间,如果将ajax设置为忽略加载,则可能会在多个提取步骤中引起一些错误,因为未加载内容或加载不完整.
解决方案: 将规则分为两个步骤. 如果要采集评论网页数据,第一步是采集当前页面信息和评论页面URL,第二步是循环URL采集评论数据,然后将数据导出到Excel中,在数据库中进行匹配处理
D. 字段出现在不同的地方
原因: 网页问题-Xpath更改
解决方案: 请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务提供解决方案.
E. 数据重复
原因: 网页问题-Xpath定位问题. 问题主要发生在翻页时,例如只有一个或两个页面循环,或者仍然可以单击最后一页上的下一页按钮.
解决方案: 请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务提供解决方案.
(3)独立集合是正常的,但是云集合没有数据
这种现象有四种类型:
1. 阻止IP的网页问题原因
原因: 大多数具有IP阻止措施的网站都可以由优采云解决. 极少数网站采用非常严格的IP阻止措施,这将导致云采集无法采集数据.
解决方案:
如果它是独立集合,则可以使用代理IP功能. 有关具体操作,请参见代理IP教程.
如果是云采集,则可以将其分配给任务的多个节点,并且多个节点可以处于空闲状态,以避免在同一云和同一IP上采集任务.
2. 云问题-云服务器带宽小
原因: 云的带宽很小,这使得本地慢速打开网站的时间更长,无法在云中打开. 超时到期后,将无法打开网站或无法加载数据,因此将跳过此步骤.
解决方案: 设置打开URL的超时时间或下一步之前的等待时间更长.
3. 规则问题增量采集
原因: 在规则中设置了增量采集. 根据URL判断增量采集. 在某些网页上使用增量采集会导致增量判断错误,从而跳过网页.
解决方案: 关闭增量采集.
4. 规则问题浏览器禁止加载图片,并且云采集不会拆分任务
原因: 只有很少的网页无法检查以禁止浏览器在不分割任务的情况下加载图像和云集合
解决方案: 取消选中相关选项.
如果还有其他问题,请在官方网站或客户服务中提供反馈. 谢谢您的支持. 查看全部
优采云采集和故障排除教程
本教程主要讨论如何快速发现错误,解决错误或如何理解错误,以及在使用优采云时遇到问题时如何与客户服务更好地沟通.
优采云采集器主要使用技术来定位和模拟用户浏览网页以采集数据的操作. 用户不需要了解网页的结构,数据采集原理和其他技能,通过优采云采集器就可以形成优采云的获取过程,该过程可以理解并且可以循环工作.
如果存在采集模式不符合需要的情况,则在故障排除之后将有更详细的教程
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 如果采集不正常,请按照以下步骤进行操作. 解决并查找问题类型:
(1)再次手动执行规则: 打开界面右上角的流程图,

使用鼠标从上至下单击流程图中的规则,每次单击下一步时,都会有相应的响应,而没有反应的步骤就是发生问题的步骤.
注意:
a. 单击并提取循环中的元素以手动选择循环中第一个元素以外的内容,以防止循环失败,仅单击以提取循环中的第一个元素
b. 所有规则在下一步执行之后执行,然后再进行下一步,则网页未完全加载,即当浏览器上的圆圈等待图标未消失时,请观察网页内容是否已完全加载. 已完全加载,您可以自行取消加载,然后配置规则.
(2)执行独立采集并检查采集结果中尚未采集数据的项目.
注意: 最好将当前URL添加到规则中,以便某些项目尚未采集数据. 您可以复制URL并在浏览器中打开它,以检查原因并确定错误.
以下可能出现的问题的描述如下,供您参考:
(1)手动执行步骤时没有响应
有两种可能的现象:
1. 步骤无法正常执行
原因: 规则问题,采集器问题,定位模拟问题
解决方案:
您可以检查,删除该步骤,然后再次添加它,如果仍然无法执行,则排除了规则问题,您可以:
在浏览器中打开网页进行操作. 如果可以在浏览器中但不能在采集器中执行某些滚动或单击翻页的操作,则可能是采集器问题,因为采集器中嵌入的浏览器是Firefox浏览器,可能是嵌入式浏览器的版本已更改. 后续版本,导致可以在浏览器中实现的功能无法在采集器中嵌入的浏览器中执行. 这种类型的网页中的数据将被智能地采集并翻页或滚动以前的数据.
排除采集器问题和规则问题后,可以尝试以与制定规则时相同的布局在页面上重新添加步骤. 如果它可以在这样的页面上执行,但是仅页面的一部分不能执行,则这是定位模拟问题. 这个问题通常存在于时间跨度较大的网站上. 原因是网站的布局已更改,这导致采集器位置所需的XPath发生了更改. 请参考XPath章节以修改规则或咨询客户服务. 建议向客户服务说明网站URL和错误. 原因是,方便客户服务提供解决方案.

2. 循环中的单击或捕获仅发生在第一个内容中,而单击第二个内容仍捕获第一个内容
原因: 规则问题,定位模拟问题
解决方案:
检查循环中的第一项是否选中并单击当前循环中设置的元素

如果仍然无法检查,则可以:
如果该循环中还有其他循环,请首先参考问题1的动画以删除其中的内容,删除有问题的循环,然后再次进行重置. 如果删除的规则没有自动重置,则需要手动重置. 如果循环正常,请使用它排除规则问题. 如果没有,那就是定位仿真问题. 您可以:
检查自定义数据字段以在循环中提取数据,检查自定义定位元素方法,并查看其中是否存在相对的Xpath路径,如果没有,请删除该字段,并在外部高级选项中检查use循环,然后重新添加,然后重试. 如果有回应,则问题得到解决,如果仍然无法解决,您可以:
请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.

(2)单机采集无法采集数据
有四个可能的原因:
1. 单机操作规则,将在采集数据之前显示数据.
此现象分为3种情况
A. 打开网页后,将直接显示采集已完成
原因: 网页问题. 第一个网页加载太慢. 优采云会等一会儿. 如果一段时间后仍在加载,则彩云将跳过此步骤. 后续步骤认为未加载内容. 收到数据后,优采云结束了任务,因此没有数据采集.
解决方案: 延长网页的超时时间,或者等待设置下一步执行,以便网页有足够的时间加载.
B. 该网页始终处于加载状态
原因: 网页问题,某些网页加载缓慢. 您想要采集的数据不会出现.
解决方案: 如果当前步骤是打开网页,则可以增加网页的超时时间. 如果是单击元素的步骤,并且已加载要采集的数据,则可以在单击元素的步骤中设置ajax延迟. 单击后,将加载新数据,并且网页URL不会更改为ajax链接.
C. 该网页未进入采集页面
原因: 此问题通常发生在点击元素步骤中. 当某些网页中有ajax链接时,有必要根据点击位置确定是否需要设置它. 如果未设置,它将始终卡在独立采集过程中的上一步中,并且无法采集任何数据. 异步加载网页时,如果未设置ajax延迟,通常将无法正确执行该操作,从而导致该规则无法继续进行下一步,并且无法提取任何数据.
解决方案: 在相应的步骤中设置ajax延迟,通常为2-3S,如果网页加载时间较长,则可以适当增加延迟时间. 单击该元素,循环到下一页,将鼠标移到该元素,这三个步骤中都有ajax设置
2. 独立操作规则无法正常执行
原因: 规则问题或定位模拟问题
解决方案:
首先确定是否需要设置ajax,以及是否设置正确,如果不是ajax问题,则可以:
删除有问题的步骤,然后重新设置. 如果问题解决了,那就是规则问题. 如果问题没有解决,那就是定位仿真问题. 您可以:
请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.
3. 单机操作规则,首页或首页数据正常,以后不能执行
原因: 规则问题-循环部分有问题
解决方案: 请参阅第二内容的手动执行.
4. 单机操作规则,数据采集丢失或错误
此现象有5种情况:
A. 有些字段没有数据
原因: 网页中的数据为空,是模拟定位问题
解决方案:
检查没有字段的链接,然后使用浏览器打开它们. 如果确实没有字段,就没有问题. 如果浏览器打开内容,这是一个模拟定位问题. 您可以:
请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.

B. 采集的数据量不正确
原因: 规则问题-循环部分有问题
解决方案: 请参阅第二内容的手动执行

C. 采集的数据混乱,没有相应的信息
原因: 规则问题-太多的提取步骤,太长的网页加载时间,如果将ajax设置为忽略加载,则可能会在多个提取步骤中引起一些错误,因为未加载内容或加载不完整.
解决方案: 将规则分为两个步骤. 如果要采集评论网页数据,第一步是采集当前页面信息和评论页面URL,第二步是循环URL采集评论数据,然后将数据导出到Excel中,在数据库中进行匹配处理
D. 字段出现在不同的地方
原因: 网页问题-Xpath更改
解决方案: 请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务提供解决方案.
E. 数据重复
原因: 网页问题-Xpath定位问题. 问题主要发生在翻页时,例如只有一个或两个页面循环,或者仍然可以单击最后一页上的下一页按钮.
解决方案: 请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务提供解决方案.
(3)独立集合是正常的,但是云集合没有数据
这种现象有四种类型:
1. 阻止IP的网页问题原因
原因: 大多数具有IP阻止措施的网站都可以由优采云解决. 极少数网站采用非常严格的IP阻止措施,这将导致云采集无法采集数据.
解决方案:
如果它是独立集合,则可以使用代理IP功能. 有关具体操作,请参见代理IP教程.
如果是云采集,则可以将其分配给任务的多个节点,并且多个节点可以处于空闲状态,以避免在同一云和同一IP上采集任务.
2. 云问题-云服务器带宽小
原因: 云的带宽很小,这使得本地慢速打开网站的时间更长,无法在云中打开. 超时到期后,将无法打开网站或无法加载数据,因此将跳过此步骤.
解决方案: 设置打开URL的超时时间或下一步之前的等待时间更长.
3. 规则问题增量采集
原因: 在规则中设置了增量采集. 根据URL判断增量采集. 在某些网页上使用增量采集会导致增量判断错误,从而跳过网页.
解决方案: 关闭增量采集.
4. 规则问题浏览器禁止加载图片,并且云采集不会拆分任务
原因: 只有很少的网页无法检查以禁止浏览器在不分割任务的情况下加载图像和云集合
解决方案: 取消选中相关选项.
如果还有其他问题,请在官方网站或客户服务中提供反馈. 谢谢您的支持.
优采云采集器之PBOOTCMS入库
采集交流 • 优采云 发表了文章 • 0 个评论 • 318 次浏览 • 2020-08-10 12:18
本人使用的是优采云云端上下载的PBOOTCMS规则。然而在使用的时侯发觉入库选择的时侯只有新闻中心和新闻动态及公司动态三个类目可以入库。
今天我们来说一下怎么更改入库栏目。顺带从头到尾讲一下怎么优采云的使用吧。
第一步:下载插件。
首先我们去后台的云平台上搜索PBOOT找到这个插件,然后进行下载。
注意看一下,我们这儿可以看见一个APP标示: PbootDemoSkycaiji
此法为下载官方插件的方式。另外也可以自己发布一个插件。
不管是自己发布,还是官方下载,都可以。如果不是太熟的话,就直接用官方提供的这个插件。
第二步:我们来新建一个任务。
内容随意填一下都可以。
然后点:采集器设置
这些内容自己按需填写。
接着设置其他三个,都是比较简单的。不在这里重复。
第三步:我们点发布设置。
按此选择,然后选择绑定。
这个时侯会报错,由于PBOOCMS不是系统已知的CMS,所以须要在前面加上:@pboot
下面插件哪里会显示我们自己创建的和安装的插件。选择自己用的那一个。假如我选择云平台下载的那种pboot示例的。
相关选择自己按需填写。
此时,我们会发觉,在分类一栏中,我们只能见到三个栏目:新闻中心,公司新闻,行业新闻。
这也是我们明天要讲的重点。
我们刚刚说过,这个是要记住。这实际上是发布时所调用的一个PHP文件,具体路径为:你的优采云采集器网站从根目录开始,找到这个文件夹:
\plugin\release\cms
可以看见,这里有两个PHP文件,名字和刚刚的APP名子一样。你使用哪一个插件,对应的就更改哪一个PHP文件。
我使用官是PbootDemoSkycaiji这个,我们打开这个PHP文件。
在最顶部,我们看见
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->where("contenttpl='news.html'")->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
它上面指定了一个news.html,如果你将它改成:case.html,你将在优采云后台听到发布分类弄成了案例的栏目。于是,想要显示所有的栏目,我们可以这样更改。
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
然后返回发布后台,可以看见。所有的栏目都早已列下来了。然后再采集,正常发布。
查看全部
网上早已有优采云采集器的使用方式了。
本人使用的是优采云云端上下载的PBOOTCMS规则。然而在使用的时侯发觉入库选择的时侯只有新闻中心和新闻动态及公司动态三个类目可以入库。
今天我们来说一下怎么更改入库栏目。顺带从头到尾讲一下怎么优采云的使用吧。
第一步:下载插件。

首先我们去后台的云平台上搜索PBOOT找到这个插件,然后进行下载。
注意看一下,我们这儿可以看见一个APP标示: PbootDemoSkycaiji
此法为下载官方插件的方式。另外也可以自己发布一个插件。

不管是自己发布,还是官方下载,都可以。如果不是太熟的话,就直接用官方提供的这个插件。
第二步:我们来新建一个任务。
内容随意填一下都可以。

然后点:采集器设置

这些内容自己按需填写。

接着设置其他三个,都是比较简单的。不在这里重复。

第三步:我们点发布设置。

按此选择,然后选择绑定。

这个时侯会报错,由于PBOOCMS不是系统已知的CMS,所以须要在前面加上:@pboot

下面插件哪里会显示我们自己创建的和安装的插件。选择自己用的那一个。假如我选择云平台下载的那种pboot示例的。

相关选择自己按需填写。

此时,我们会发觉,在分类一栏中,我们只能见到三个栏目:新闻中心,公司新闻,行业新闻。
这也是我们明天要讲的重点。

我们刚刚说过,这个是要记住。这实际上是发布时所调用的一个PHP文件,具体路径为:你的优采云采集器网站从根目录开始,找到这个文件夹:
\plugin\release\cms

可以看见,这里有两个PHP文件,名字和刚刚的APP名子一样。你使用哪一个插件,对应的就更改哪一个PHP文件。
我使用官是PbootDemoSkycaiji这个,我们打开这个PHP文件。
在最顶部,我们看见
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->where("contenttpl='news.html'")->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
它上面指定了一个news.html,如果你将它改成:case.html,你将在优采云后台听到发布分类弄成了案例的栏目。于是,想要显示所有的栏目,我们可以这样更改。
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
然后返回发布后台,可以看见。所有的栏目都早已列下来了。然后再采集,正常发布。

优采云采集器 v8.1.12 官网免费版
采集交流 • 优采云 发表了文章 • 0 个评论 • 273 次浏览 • 2020-08-10 10:45
优采云采集器以完全自主研制的分布式云计算平台为核心,可以在太短的时间内,轻松从各类不同的网站或者网页获取大量的规范化数据,帮助任何须要从网页获取信息的顾客实现数据自动化采集,编辑,规范化,摆脱对人工搜索及搜集数据的依赖,从而减少获取信息的成本,提高效率。
优采云采集器的特色:
1、操作简单
操作简单,完全可视化图形操作,无需专业IT人员,任何会使用笔记本上网的人都可以轻松把握。
2、云采集
采集任务手动分配到云端多台服务器同时执行,提高采集效率,可以挺短的时间内 获取成千上万条信息。
3、拖拽式采集流程
模拟人的操作思维模式,可以登录,输入数据,点击链接,按钮等,还能对不同情况采取不同的采集流程。
4、图文辨识
内置可扩充的OCR插口,支持解析图片中的文字,可将图片上的文字提取下来。
5、定时手动采集
采集任务手动运行,可以根据指定的周期手动采集,并且还支持最快一分钟一次的实时采集。
6、2分钟快速入门
内置从入门到精通所须要的视频教程,2分钟才能上手使用,另外还有文档,论坛,qq群等。
7、免费使用
它是免费的,并且免费版本没有任何功能限制,你如今就可以试一试。
优采云采集器更新日志:
主要体验改进
【自定义模式】新增触发器功能,可依照特定条件进行采集
【自定义模式】提供优采云6内核模式,有效解决部份网站在优采云7上打不开的问题
【自定义模式】滚动页面功能间隔时间最小支持0.5秒
【自定义模式】选中所有链接时,新增「采集以下链接文本+链接」选项
【自定义模式】选中所有链接时,新增「采集以下元素Inner Html」和「采集以下元素Outer Html」选项
【自定义模式】关联任务采集支持增量模式
【自定义模式】设置关联任务时,支持搜索任务组名和任务名
【简易模式】增加「热门」分类
【简易模式】目前可按模板名和模板上线时间进行排序
【简易模式】增加搜索功能,可搜索模板
【其他】增强导入到数据库的健壮性
【其他】导出数据库选择数据表时,增加搜索功能
Bug修补
修复自动输入多个网址时,循环项消失问题
修复「从文本导出」网址后,采集时速率慢的问题
修复部份定时任务出错问题
修复「在iframe中循环输入文字采集时点击元素无效」问题
修复若干小问题 查看全部
优采云采集器是一款业界领先的网页采集软件,具有使用简单,功能强悍等众多优点。
优采云采集器以完全自主研制的分布式云计算平台为核心,可以在太短的时间内,轻松从各类不同的网站或者网页获取大量的规范化数据,帮助任何须要从网页获取信息的顾客实现数据自动化采集,编辑,规范化,摆脱对人工搜索及搜集数据的依赖,从而减少获取信息的成本,提高效率。
优采云采集器的特色:
1、操作简单
操作简单,完全可视化图形操作,无需专业IT人员,任何会使用笔记本上网的人都可以轻松把握。
2、云采集
采集任务手动分配到云端多台服务器同时执行,提高采集效率,可以挺短的时间内 获取成千上万条信息。
3、拖拽式采集流程
模拟人的操作思维模式,可以登录,输入数据,点击链接,按钮等,还能对不同情况采取不同的采集流程。
4、图文辨识
内置可扩充的OCR插口,支持解析图片中的文字,可将图片上的文字提取下来。
5、定时手动采集
采集任务手动运行,可以根据指定的周期手动采集,并且还支持最快一分钟一次的实时采集。
6、2分钟快速入门
内置从入门到精通所须要的视频教程,2分钟才能上手使用,另外还有文档,论坛,qq群等。
7、免费使用
它是免费的,并且免费版本没有任何功能限制,你如今就可以试一试。
优采云采集器更新日志:
主要体验改进
【自定义模式】新增触发器功能,可依照特定条件进行采集
【自定义模式】提供优采云6内核模式,有效解决部份网站在优采云7上打不开的问题
【自定义模式】滚动页面功能间隔时间最小支持0.5秒
【自定义模式】选中所有链接时,新增「采集以下链接文本+链接」选项
【自定义模式】选中所有链接时,新增「采集以下元素Inner Html」和「采集以下元素Outer Html」选项
【自定义模式】关联任务采集支持增量模式
【自定义模式】设置关联任务时,支持搜索任务组名和任务名
【简易模式】增加「热门」分类
【简易模式】目前可按模板名和模板上线时间进行排序
【简易模式】增加搜索功能,可搜索模板
【其他】增强导入到数据库的健壮性
【其他】导出数据库选择数据表时,增加搜索功能
Bug修补
修复自动输入多个网址时,循环项消失问题
修复「从文本导出」网址后,采集时速率慢的问题
修复部份定时任务出错问题
修复「在iframe中循环输入文字采集时点击元素无效」问题
修复若干小问题
优采云——基本排错教程
采集交流 • 优采云 发表了文章 • 0 个评论 • 134 次浏览 • 2020-08-10 06:42
本教程主要讲的是假如你在使用优采云采集时碰到一些问题,如何快速找出错误、解决错误或则怎么了解错误、更好的和客服沟通的技巧。
优采云采集器主要通过技术将用户浏览网页的操作进行定位和模拟来搜集数据,用户不需要明白网页构架、数据采集原理等技能,通过优采云采集器就可以构成优采云可以读懂的、可以循环工作的采集流程。
如果存在采集模式不满足需求的情况,排错旁边有愈发详尽的教程
采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当采集出现异常时,请先根据如下流程进行错误排查,寻找问题类型:
(1)手动执行一遍规则:打开界面右上角的流程图,
用键盘点击流程图内规则,从上至下,每次点击下一步都有相应反应,没有发生反应的步骤则是问题出现步骤。
注意点:
a.循环内的点击以及提取元素要自动选择循环中除第一个以外的内容,防止循环失效,只点击提取循环内第一个元素
b.所有规则每一步执行完才执行下一步,网页未加载完全,即浏览器上圆圈等待图标未消失时,观察网页内容是否加载完全,如果加载完全可以自行取消加载,再配置规则。
(2)进行单机采集,查看采集结果中未采集到数据的项目。
注意点:规则中最好加入当前网址,这样出现未采集到数据的项目,可以复制网址在浏览器中打开查看缘由,确定错误。
下面分别将可能出现问题的现象表述如下,供你参考:
(1)手动执行步骤无反应
可能现象有两种:
1.未正常执行步骤
原因:规则问题、采集器问题、定位模拟问题
解决方式:
可进行排查,删除该步骤,重新添加一遍,如果还是未能执行,则排除了规则问题,你可以:
将该网页在浏览器打开进行操作,如果一些滚动翻页或点击翻页在浏览器可以执行而采集器中不能执行,则是采集器问题,原因是采集器内镶浏览器为火狐浏览器,可能是内镶的浏览器版本在此后的版本发生了变化,导致在浏览器可以实现的功能,在采集器内镶浏览器中难以执行,该类网页中的数据,智能采集翻页或滚动之前的数据。
排除了采集器问题及规则问题后,你可以尝试在与制做规则时同样布局的页面上进行重新添加步骤,如果在这样的页面可以执行而只在部份页面难以执行,则是定位模拟问题,该问题常常存在于时间跨径较大的网站,原因是网站布局发生变化,导致采集器定位所需的XPath发生变化,请参考XPath章节更改规则或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
2.循环内的点击或采集只发生于第一条内容,点击第二条内容仍然采集到第一条内容时
原因:规则问题,定位模拟问题
解决方式:
查看循环当中的第一项是否勾选点击当前循环中设置的元素这一项
如果勾选了仍然不可以,你可以:
如果循环内有其他循环,先参考上问题1的动图将上面的内容移出去,删除有问题的循环,重新设置一次,如果移出去的规则没有手动复位须要自动复位,如果循环可以使用则排除规则问题,如果不可以,则是定位模拟问题,你可以:
查看循环中提取数据的自定义数据数组,查看自定义定位元素形式,看上面是否存在相对Xpath路径,如果不存在,则删掉数组,勾选内层中级选项中的使用循环,并重新添加,再次尝试假如有反应,则问题得到解决,如果仍然不行,你可以:
参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
(2)单机采集采不到数据
可能缘由有4种:
1.单机运行规则,数据还没采完便显示采集完成
此种现象分为3种情况
A.打开网页后直接显示采集完成
原因:网页问题,第一个网页加载过慢,优采云会等待一段时间,超出一定时间还在加载优采云就会跳过了这个步骤,后续步骤以为内容未加载下来采不到数据,优采云就结束了任务,造成采集不到数据。
解决方式:将网页的超时时间加长,或者在下一个步骤设置执行前等待,让网页有足够长的时间加载。
B.网页仍然处于加载状态
原因:网页问题,有些网页的加载会太慢。想要采集的数据没有出现。
解决方式:如果当前步骤是打开网页步骤,可以将网页的超时时间加长。如果是点击元素步骤,而且要采集的数据早已加载下来的时侯,可以在点击元素步骤设置ajax延时,点击了以后有新数据加载下来而网页网址没有变化的为ajax链接,
C.网页没有步入采集页面
原因:该问题往往是出现在点击元素步骤。有些网页中富含ajax链接时,根据点击位置判定是否须要设置。如果没有设置,在单机采集时会仍然卡在前一个步骤,采集不到数据。当网页为异步加载时,没有设置ajax延时的话,操作通常不会正确执行,导致规则难以进行下一步,提取不到数据。
解决方式:在相应步骤设置ajax延时,一般是2-3S,如果网页加载时间较长,可以适当降低延时时长。点击元素,循环下一页、移动滑鼠到元素上,这三个步骤中都有ajax设置
2.单机运行规则,无法正常执行
原因:规则问题或定位模拟问题
解决方式:
首先判定ajax是否须要设置以及是否设置正确,如果不是ajax问题,你可以:
将出现问题的步骤删掉并重新设置一遍,如果问题解决则为规则问题,如果问题没有解决,则为定位模拟问题,你可以:
参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
3.单机运行规则,第一条或第一页数据正常,后面未能执行
原因:规则问题-循环部份出现了问题
解决方式:参考自动执行第二条内容。
4.单机运行规则,漏采或则错采数据
此种现象分5种情况:
A.部分数组没有数据
原因:网页内该项数据为空、模拟定位问题
解决方式:
查看没有数组的链接,用浏览器打开假如确实没有数组,则没有问题,如果浏览器打开有内容,则为模拟定位问题,你可以:
参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
B.采集数据数目不对
原因:规则问题-循环部份出现了问题
解决方式:参考自动执行第二条内容
C.采集数据错乱,不是对应信息
原因:规则问题-提取步骤过多,网页加载时间过长,如果设置ajax去忽视加载就有可能导致多个提取步骤中的个别因内容没加载下来或加载不完全出错。
解决方式:将规则分为两步,假如采集评论网页数据,第一步是采集当前页面信息和评论页面的URL,第二步是循环URL采集 评论数据,后续将导入数据在excel、数据库中匹配处理
D.字段出现在不同位置
原因:网页问题-Xpath变化
解决方式:参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
E.数据重复
原因:网页问题-Xpath定位问题,问题主要出现在翻页处,比如只在一二页循环,或者最后一页的下一页按键仍然可以点击。
解决方式:参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
(3)单机采集正常,云采集没有数据
此种现象分4种情况:
1.网页问题-封IP缘由
原因:大多数存在封IP举措的网站优采云可以解决,极少数网站采用非常严格的封IP举措,这部份会导致云采集采集不到数据。
解决方式:
如果是单机采集可以使用代理IP功能,具体操作查看代理IP教程。
如果是云采集可以分配给任务多个节点,并让多个节点空闲,避免任务在同一个云端同一个IP上采集。
2.云端问题-云服务器带宽较小
原因:云端带宽较小,造成本地打开平缓的网站在云端打开愈发漫长,一旦超时都会打不开网站或者加载不下来数据导致跳过此步骤。
解决方式:把打开网址的超时时间或则下一步的执行前等待时间设置久一些。
3.规则问题-增量采集
原因:规则设置了增量采集,增量采集根据URL判定是否采集过,部分网页使用增量采集会导致增量判定失误跳过了该网页。
解决方式:关闭增量采集。
4.规则问题-禁止浏览器加载图片和云采集不分拆任务
原因:存在极少数网页不可以勾选严禁浏览器加载图片与云采集不分拆任务
解决方式:取消勾选相关选项。
如果出现更多问题,欢迎在官网或则向客服进行反馈,谢谢您的支持。 查看全部
优采云采集排错教程
本教程主要讲的是假如你在使用优采云采集时碰到一些问题,如何快速找出错误、解决错误或则怎么了解错误、更好的和客服沟通的技巧。
优采云采集器主要通过技术将用户浏览网页的操作进行定位和模拟来搜集数据,用户不需要明白网页构架、数据采集原理等技能,通过优采云采集器就可以构成优采云可以读懂的、可以循环工作的采集流程。
如果存在采集模式不满足需求的情况,排错旁边有愈发详尽的教程
采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当采集出现异常时,请先根据如下流程进行错误排查,寻找问题类型:
(1)手动执行一遍规则:打开界面右上角的流程图,

用键盘点击流程图内规则,从上至下,每次点击下一步都有相应反应,没有发生反应的步骤则是问题出现步骤。
注意点:
a.循环内的点击以及提取元素要自动选择循环中除第一个以外的内容,防止循环失效,只点击提取循环内第一个元素
b.所有规则每一步执行完才执行下一步,网页未加载完全,即浏览器上圆圈等待图标未消失时,观察网页内容是否加载完全,如果加载完全可以自行取消加载,再配置规则。
(2)进行单机采集,查看采集结果中未采集到数据的项目。
注意点:规则中最好加入当前网址,这样出现未采集到数据的项目,可以复制网址在浏览器中打开查看缘由,确定错误。
下面分别将可能出现问题的现象表述如下,供你参考:
(1)手动执行步骤无反应
可能现象有两种:
1.未正常执行步骤
原因:规则问题、采集器问题、定位模拟问题
解决方式:
可进行排查,删除该步骤,重新添加一遍,如果还是未能执行,则排除了规则问题,你可以:
将该网页在浏览器打开进行操作,如果一些滚动翻页或点击翻页在浏览器可以执行而采集器中不能执行,则是采集器问题,原因是采集器内镶浏览器为火狐浏览器,可能是内镶的浏览器版本在此后的版本发生了变化,导致在浏览器可以实现的功能,在采集器内镶浏览器中难以执行,该类网页中的数据,智能采集翻页或滚动之前的数据。
排除了采集器问题及规则问题后,你可以尝试在与制做规则时同样布局的页面上进行重新添加步骤,如果在这样的页面可以执行而只在部份页面难以执行,则是定位模拟问题,该问题常常存在于时间跨径较大的网站,原因是网站布局发生变化,导致采集器定位所需的XPath发生变化,请参考XPath章节更改规则或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。

2.循环内的点击或采集只发生于第一条内容,点击第二条内容仍然采集到第一条内容时
原因:规则问题,定位模拟问题
解决方式:
查看循环当中的第一项是否勾选点击当前循环中设置的元素这一项

如果勾选了仍然不可以,你可以:
如果循环内有其他循环,先参考上问题1的动图将上面的内容移出去,删除有问题的循环,重新设置一次,如果移出去的规则没有手动复位须要自动复位,如果循环可以使用则排除规则问题,如果不可以,则是定位模拟问题,你可以:
查看循环中提取数据的自定义数据数组,查看自定义定位元素形式,看上面是否存在相对Xpath路径,如果不存在,则删掉数组,勾选内层中级选项中的使用循环,并重新添加,再次尝试假如有反应,则问题得到解决,如果仍然不行,你可以:
参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。

(2)单机采集采不到数据
可能缘由有4种:
1.单机运行规则,数据还没采完便显示采集完成
此种现象分为3种情况
A.打开网页后直接显示采集完成
原因:网页问题,第一个网页加载过慢,优采云会等待一段时间,超出一定时间还在加载优采云就会跳过了这个步骤,后续步骤以为内容未加载下来采不到数据,优采云就结束了任务,造成采集不到数据。
解决方式:将网页的超时时间加长,或者在下一个步骤设置执行前等待,让网页有足够长的时间加载。
B.网页仍然处于加载状态
原因:网页问题,有些网页的加载会太慢。想要采集的数据没有出现。
解决方式:如果当前步骤是打开网页步骤,可以将网页的超时时间加长。如果是点击元素步骤,而且要采集的数据早已加载下来的时侯,可以在点击元素步骤设置ajax延时,点击了以后有新数据加载下来而网页网址没有变化的为ajax链接,
C.网页没有步入采集页面
原因:该问题往往是出现在点击元素步骤。有些网页中富含ajax链接时,根据点击位置判定是否须要设置。如果没有设置,在单机采集时会仍然卡在前一个步骤,采集不到数据。当网页为异步加载时,没有设置ajax延时的话,操作通常不会正确执行,导致规则难以进行下一步,提取不到数据。
解决方式:在相应步骤设置ajax延时,一般是2-3S,如果网页加载时间较长,可以适当降低延时时长。点击元素,循环下一页、移动滑鼠到元素上,这三个步骤中都有ajax设置
2.单机运行规则,无法正常执行
原因:规则问题或定位模拟问题
解决方式:
首先判定ajax是否须要设置以及是否设置正确,如果不是ajax问题,你可以:
将出现问题的步骤删掉并重新设置一遍,如果问题解决则为规则问题,如果问题没有解决,则为定位模拟问题,你可以:
参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
3.单机运行规则,第一条或第一页数据正常,后面未能执行
原因:规则问题-循环部份出现了问题
解决方式:参考自动执行第二条内容。
4.单机运行规则,漏采或则错采数据
此种现象分5种情况:
A.部分数组没有数据
原因:网页内该项数据为空、模拟定位问题
解决方式:
查看没有数组的链接,用浏览器打开假如确实没有数组,则没有问题,如果浏览器打开有内容,则为模拟定位问题,你可以:
参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。

B.采集数据数目不对
原因:规则问题-循环部份出现了问题
解决方式:参考自动执行第二条内容

C.采集数据错乱,不是对应信息
原因:规则问题-提取步骤过多,网页加载时间过长,如果设置ajax去忽视加载就有可能导致多个提取步骤中的个别因内容没加载下来或加载不完全出错。
解决方式:将规则分为两步,假如采集评论网页数据,第一步是采集当前页面信息和评论页面的URL,第二步是循环URL采集 评论数据,后续将导入数据在excel、数据库中匹配处理
D.字段出现在不同位置
原因:网页问题-Xpath变化
解决方式:参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
E.数据重复
原因:网页问题-Xpath定位问题,问题主要出现在翻页处,比如只在一二页循环,或者最后一页的下一页按键仍然可以点击。
解决方式:参考Xpath章节对网页Xpath进行更改或咨询客服,建议向客服说明网站网址和错误缘由,方便客服给出解决方案。
(3)单机采集正常,云采集没有数据
此种现象分4种情况:
1.网页问题-封IP缘由
原因:大多数存在封IP举措的网站优采云可以解决,极少数网站采用非常严格的封IP举措,这部份会导致云采集采集不到数据。
解决方式:
如果是单机采集可以使用代理IP功能,具体操作查看代理IP教程。
如果是云采集可以分配给任务多个节点,并让多个节点空闲,避免任务在同一个云端同一个IP上采集。
2.云端问题-云服务器带宽较小
原因:云端带宽较小,造成本地打开平缓的网站在云端打开愈发漫长,一旦超时都会打不开网站或者加载不下来数据导致跳过此步骤。
解决方式:把打开网址的超时时间或则下一步的执行前等待时间设置久一些。
3.规则问题-增量采集
原因:规则设置了增量采集,增量采集根据URL判定是否采集过,部分网页使用增量采集会导致增量判定失误跳过了该网页。
解决方式:关闭增量采集。
4.规则问题-禁止浏览器加载图片和云采集不分拆任务
原因:存在极少数网页不可以勾选严禁浏览器加载图片与云采集不分拆任务
解决方式:取消勾选相关选项。
如果出现更多问题,欢迎在官网或则向客服进行反馈,谢谢您的支持。
【新手入门】常见问题清单
采集交流 • 优采云 发表了文章 • 0 个评论 • 179 次浏览 • 2020-08-10 05:11
教程地址:
视频教程是由我们官方培训讲师给你们讲解优采云采集器的使用方式,每一篇教程似乎都太简略,如果你们在开始采集之前先看一下那些视频讲解教程,大部分问题都能得到解答。
2、XX 网站能不能采集?XX 数据能不能采集?
请先参考第一条。
官网视频讲解教程中我们早已介绍过,优采云采集器是一款通用网页采集软件,只要是有网址,可以通过网页浏览,您能看得见的内容,大多都是可以采集的(视频比较特殊,得剖析具体情况)。
为了保护您的隐私,您所有的任务及配置都以加密方式储存于云端,除了您个人外任何人都未能查看具体的内容,您在采集过程中输入的帐号密码以及您的采集结果都存在您的本地笔记本中。但请您严格遵循相关的法律法规,若优采云采集器官方收到任何关于非法采集的举报,将会第一时间封停该帐号。
3、为什么采集数据提早停止了?
如果您遇见采集提前停止的问题,请根据以下步骤自检一下:
第一步:请确认您在浏览器中能看到多少内容
有的时候搜索显示数目和你最终能看得见的数目不是一致的,请确认您能看到多少条数据,然后再确定采集是提早停止还是正常停止。
第二步:采集结果数目和在浏览器中见到的数目不一致
在采集过程中,如果碰到这个问题,有以下两种可能性:
第一种可能性是采集速度过快而网页加载时间过慢,从而造成难以采集到网页中的数据。
遇到这些情况时请降低恳求等待时间,等待时间长一点以后,就有足够的时间留给网页加载内容。
请求等待时间的设置在 启动设置—>智能策略中,如下图所示:
第二种可能性是你遇见了其他问题
我们可以通过在运行过程中,点击运行界面中的“查看网页”来观察一下当前的网页内容是否正常,是否未能正常显示,是否出现异常提示等。
如果出现了上述情况,我们可以通过增加采集速度、切换代理IP、手动打码等形式,至于哪种方法可以起作用,这个须要测试才晓得,不同的网站问题不同,没有一个统一的解决方案。
如果尝试了以上方案后一直未能解决,你可以在帮助中心反馈给我们,我们会为您提供支持。
4、为什么采集字段不全?
字段不全通常有以下两种情况:
第一种,由于列表元素的结构不同,有些元素中有的数组其他元素中没有,这是正常的现象,请你们先在网页中确认对应元素中是否存在你想要的主键。
第二种,页面结构发生了变化,这种一般会发生在同一个搜索结果中收录多种页面结构的场景,例如搜索引擎的搜索结果(收录好多种网站)。
这种情况须要针对具体问题进行剖析,您可以导入您的采集任务,发到我们官方的帮助中心,我们的客服会帮您进行测试剖析。
5、为什么采集数据重复?
首先请确认你已然看过视频教程,你的采集任务没有页面类型的设置问题,即错把单页类型设置为列表类型,或是你错误地理解了循环采集的使用技巧。
然后请确定你是多次反复采集数据出现重复还是某一次单独采集出现了重复数据。
在未更改采集任务时,每一次运行采集任务都是从头开始采集,所以每一次采集的数据都是重复的,这是正常的。
如果是在单次采集时出现了重复数据,请确认是否满足以下情况:
第一种:重复数据均为最后一页的数据,这种有可能是翻到最后一页无法停止翻页,请尝试更改采集范围,然后看是否就会出现重复数据的情况。
第二种:重复数据为中间页的数据,这种情况未能直接得出结论。
以上两种情况下,都请上传你的采集任务到帮助中心,我们的客服会帮您进行测试剖析。
6、采集停止了,再运行是不是从头开始?
是的,采集停止以后,下次再直接启动会默认根据上一次的设置从头开始采集。
如果想进行断点续采,请看这个教程:
7、软件崩溃了,重启后右侧数据都是0,数据丢了吗?
请放心,已经采集到的数据除非你自动删掉,否则都不会遗失。
在软件非正常关掉时,重启后右侧任务采集的数据的数目须要自动刷新,你只需点击一下那种数字,就会恢复正常。
8、管理员能不能帮我看一下采集任务那里有问题
优采云采集器为你们提供了QQ群和帮助中心两种解决采集问题的渠道。
在QQ群中通常适宜提比较简单的具体问题,管理员看到后才能通过简单几句话帮你解决。
如果碰到复杂的采集问题,尤其是须要查看采集任务能够晓得的问题,建议你们直接发到帮助中心。
QQ群中用户较多,聊天内容过多时,您的问题容易被忽略,而且管理员面对那么多用户,反馈可能会比较慢。
帮助中心的问题会有专人客服跟踪,所有问题就会得到解答,请你们尽量使用帮助中心来反馈问题。
9、编辑任务时出现验证码该如何办?
如果你们在编辑任务时出现了验证码,软件会进行手动检查并给出提示,请你们按照软件的提示进行自动打码操作。
需要注意的是,自动检查会存在一定的误辨识机率,如果你判定页面中不需要进行验证码操作,点击取消即可。
此外,如果软件并未辨识,请点击右上角“手动打码”(蓝色)按钮进行打码操作。
10、编辑采集任务时页面未能正常显示该如何办?
首先请确认你在Chrome浏览器中,直接粘贴该网址是否可以访问。
如果Chrome浏览器未能打开,那么软件目前就是支持不了的,你可以反馈到帮助中心,我们的客服会帮您进行测试和剖析。
如果浏览器中可以访问,但是软件中难以访问,请点击右上角“手动打码”(蓝色)按钮,然后在弹出的窗口中点击访问你输入网址的网站的首页,例如点击左上角的网站LOGO或首页按键之类的。
在正常打开首页以后,点击预登陆窗口右下角的验证完成按键,这样软件中应当就可以正常访问了。
某些网址可能不容许用户在未访问过首页或列表页的情况下直接访问详情页,所以尽量不要直接从详情页开始采集,可以选择从列表页开始采集。
11、运行过程中须要输入验证码该如何办?
针对这些情况,优采云采集器支持验证码自动打码,不支持手动打码。
固定位置的验证码打码,请参考这个教程:
运行过程中的验证码软件会手动检查并给出打码提示。
具体打码过程请根据软件提示操作即可。
需要注意的是,软件在运行过程中手动检查验证码并弹出提示时,采集任务会暂停出来,手动打码以后软件都会继续运行当前任务。此外,自动辨识验证码存在一定的误辨识机率,如果你判定页面中不需要打码,点击跳过即可,连续跳过两次以后软件将不再检查验证码。
12、发布到数据库报错如何办?
(1)连接问题总结
1)宝塔控制面板
使用此管理工具时须要注意mysql数据库访问权限设置,和远程访问端口的开放。
2) localhost、192.168.xxx.xxx
使用这种主机地址须要注意是本机须要开启MySQL服务
3)不确定报错详请
可使用navicat先确定具体报错详情
(2)字段映射问题总结
1)字段类型
仅支持数据表中字符串和整型数组的映射(如果须要映射日期数组,需要将数据表中对应数组改成字符串类型)
2)字段宽度
需要注意数组宽度是否可以满足本地采集的数据宽度
(3)导出中的错误日志总结:
mysql插入数据时出现Incorrect string value: ‘\xF0\x9F…’ for column ‘name’ at row 1的异常,原因是UTF-8编码有可能是两个、三个、四个字节。Emoji表情或则个别特殊字符是4个字节,而 mysql 的utf8编码最多3个字节,所以数据插不进去。解决方式如下:
在mysql的安装目录下找到my.ini,作如下更改:
[mysql] default-character-set=utf8mb4 [mysqld] character-set-server=utf8mb4
修改后重启Mysql sudo service mysql restart
通过管理工具将早已建好的表以及相应的数组也转换成utf8mb4 查看全部
1、如果您是菜鸟,请勿必先看一下官网视频讲解教程。
教程地址:
视频教程是由我们官方培训讲师给你们讲解优采云采集器的使用方式,每一篇教程似乎都太简略,如果你们在开始采集之前先看一下那些视频讲解教程,大部分问题都能得到解答。
2、XX 网站能不能采集?XX 数据能不能采集?
请先参考第一条。
官网视频讲解教程中我们早已介绍过,优采云采集器是一款通用网页采集软件,只要是有网址,可以通过网页浏览,您能看得见的内容,大多都是可以采集的(视频比较特殊,得剖析具体情况)。
为了保护您的隐私,您所有的任务及配置都以加密方式储存于云端,除了您个人外任何人都未能查看具体的内容,您在采集过程中输入的帐号密码以及您的采集结果都存在您的本地笔记本中。但请您严格遵循相关的法律法规,若优采云采集器官方收到任何关于非法采集的举报,将会第一时间封停该帐号。
3、为什么采集数据提早停止了?
如果您遇见采集提前停止的问题,请根据以下步骤自检一下:
第一步:请确认您在浏览器中能看到多少内容
有的时候搜索显示数目和你最终能看得见的数目不是一致的,请确认您能看到多少条数据,然后再确定采集是提早停止还是正常停止。
第二步:采集结果数目和在浏览器中见到的数目不一致
在采集过程中,如果碰到这个问题,有以下两种可能性:
第一种可能性是采集速度过快而网页加载时间过慢,从而造成难以采集到网页中的数据。
遇到这些情况时请降低恳求等待时间,等待时间长一点以后,就有足够的时间留给网页加载内容。
请求等待时间的设置在 启动设置—>智能策略中,如下图所示:

第二种可能性是你遇见了其他问题
我们可以通过在运行过程中,点击运行界面中的“查看网页”来观察一下当前的网页内容是否正常,是否未能正常显示,是否出现异常提示等。
如果出现了上述情况,我们可以通过增加采集速度、切换代理IP、手动打码等形式,至于哪种方法可以起作用,这个须要测试才晓得,不同的网站问题不同,没有一个统一的解决方案。
如果尝试了以上方案后一直未能解决,你可以在帮助中心反馈给我们,我们会为您提供支持。
4、为什么采集字段不全?
字段不全通常有以下两种情况:
第一种,由于列表元素的结构不同,有些元素中有的数组其他元素中没有,这是正常的现象,请你们先在网页中确认对应元素中是否存在你想要的主键。
第二种,页面结构发生了变化,这种一般会发生在同一个搜索结果中收录多种页面结构的场景,例如搜索引擎的搜索结果(收录好多种网站)。
这种情况须要针对具体问题进行剖析,您可以导入您的采集任务,发到我们官方的帮助中心,我们的客服会帮您进行测试剖析。
5、为什么采集数据重复?
首先请确认你已然看过视频教程,你的采集任务没有页面类型的设置问题,即错把单页类型设置为列表类型,或是你错误地理解了循环采集的使用技巧。
然后请确定你是多次反复采集数据出现重复还是某一次单独采集出现了重复数据。
在未更改采集任务时,每一次运行采集任务都是从头开始采集,所以每一次采集的数据都是重复的,这是正常的。
如果是在单次采集时出现了重复数据,请确认是否满足以下情况:
第一种:重复数据均为最后一页的数据,这种有可能是翻到最后一页无法停止翻页,请尝试更改采集范围,然后看是否就会出现重复数据的情况。
第二种:重复数据为中间页的数据,这种情况未能直接得出结论。
以上两种情况下,都请上传你的采集任务到帮助中心,我们的客服会帮您进行测试剖析。
6、采集停止了,再运行是不是从头开始?
是的,采集停止以后,下次再直接启动会默认根据上一次的设置从头开始采集。
如果想进行断点续采,请看这个教程:
7、软件崩溃了,重启后右侧数据都是0,数据丢了吗?
请放心,已经采集到的数据除非你自动删掉,否则都不会遗失。
在软件非正常关掉时,重启后右侧任务采集的数据的数目须要自动刷新,你只需点击一下那种数字,就会恢复正常。
8、管理员能不能帮我看一下采集任务那里有问题
优采云采集器为你们提供了QQ群和帮助中心两种解决采集问题的渠道。
在QQ群中通常适宜提比较简单的具体问题,管理员看到后才能通过简单几句话帮你解决。
如果碰到复杂的采集问题,尤其是须要查看采集任务能够晓得的问题,建议你们直接发到帮助中心。
QQ群中用户较多,聊天内容过多时,您的问题容易被忽略,而且管理员面对那么多用户,反馈可能会比较慢。
帮助中心的问题会有专人客服跟踪,所有问题就会得到解答,请你们尽量使用帮助中心来反馈问题。
9、编辑任务时出现验证码该如何办?
如果你们在编辑任务时出现了验证码,软件会进行手动检查并给出提示,请你们按照软件的提示进行自动打码操作。
需要注意的是,自动检查会存在一定的误辨识机率,如果你判定页面中不需要进行验证码操作,点击取消即可。
此外,如果软件并未辨识,请点击右上角“手动打码”(蓝色)按钮进行打码操作。
10、编辑采集任务时页面未能正常显示该如何办?
首先请确认你在Chrome浏览器中,直接粘贴该网址是否可以访问。
如果Chrome浏览器未能打开,那么软件目前就是支持不了的,你可以反馈到帮助中心,我们的客服会帮您进行测试和剖析。
如果浏览器中可以访问,但是软件中难以访问,请点击右上角“手动打码”(蓝色)按钮,然后在弹出的窗口中点击访问你输入网址的网站的首页,例如点击左上角的网站LOGO或首页按键之类的。
在正常打开首页以后,点击预登陆窗口右下角的验证完成按键,这样软件中应当就可以正常访问了。
某些网址可能不容许用户在未访问过首页或列表页的情况下直接访问详情页,所以尽量不要直接从详情页开始采集,可以选择从列表页开始采集。
11、运行过程中须要输入验证码该如何办?
针对这些情况,优采云采集器支持验证码自动打码,不支持手动打码。
固定位置的验证码打码,请参考这个教程:
运行过程中的验证码软件会手动检查并给出打码提示。
具体打码过程请根据软件提示操作即可。
需要注意的是,软件在运行过程中手动检查验证码并弹出提示时,采集任务会暂停出来,手动打码以后软件都会继续运行当前任务。此外,自动辨识验证码存在一定的误辨识机率,如果你判定页面中不需要打码,点击跳过即可,连续跳过两次以后软件将不再检查验证码。
12、发布到数据库报错如何办?
(1)连接问题总结
1)宝塔控制面板
使用此管理工具时须要注意mysql数据库访问权限设置,和远程访问端口的开放。
2) localhost、192.168.xxx.xxx
使用这种主机地址须要注意是本机须要开启MySQL服务
3)不确定报错详请
可使用navicat先确定具体报错详情
(2)字段映射问题总结
1)字段类型
仅支持数据表中字符串和整型数组的映射(如果须要映射日期数组,需要将数据表中对应数组改成字符串类型)
2)字段宽度
需要注意数组宽度是否可以满足本地采集的数据宽度
(3)导出中的错误日志总结:
mysql插入数据时出现Incorrect string value: ‘\xF0\x9F…’ for column ‘name’ at row 1的异常,原因是UTF-8编码有可能是两个、三个、四个字节。Emoji表情或则个别特殊字符是4个字节,而 mysql 的utf8编码最多3个字节,所以数据插不进去。解决方式如下:
在mysql的安装目录下找到my.ini,作如下更改:
[mysql] default-character-set=utf8mb4 [mysqld] character-set-server=utf8mb4
修改后重启Mysql sudo service mysql restart
通过管理工具将早已建好的表以及相应的数组也转换成utf8mb4
做电商必须会的一个工具!教你用爬虫工具采集什么值得买商品数据
采集交流 • 优采云 发表了文章 • 0 个评论 • 366 次浏览 • 2020-08-09 16:47
采集工具简介:
优采云采集器()是一款基于人工智能技术的网路爬虫工具,只须要输入网址才能够手动辨识网页数据,无需配置即可完成数据采集,是业内首家支持三种操作系统(包括Windows、Mac和Linux)的数据采集软件。
这是一款真正免费的数据采集软件,对采集结果导入没有任何限制,没有编程基础的小白用户也可轻松实现数据采集要求。
官方网址:
采集字段:
商品标题、商品链接、价格、商品描述、商品所属网站、主图、推荐人、商品在售情况
功能点目录:
如何采集列表+详情页类型网页
如何下载图片
采集结果预览:
导出到Excel表格:
导出到本地图片:
下面我们来详尽介绍一下怎么免费采集“什么值得买”网站上推荐的商品数据,我们以西装为例,具体步骤如下:
步骤一:下载安装优采云采集器,并注册登入
1、打开优采云采集器官网,下载并安装爬虫软件工具—优采云采集器软件
2、点击注册登入,注册新帐号,登录优采云采集器
【温馨提示】您可以直接使用此款爬虫软件,不需要进行注册,但是匿名帐户下的任务在切换到注册用户时会遗失,因此建议您注册后使用。
优采云采集器为优采云云旗下产品,如果您是优采云用户,可直接登入。
步骤二:新建采集任务
1、复制“什么值得买”毛衣的网页(需要搜索结果页的网址,而不是首页的网址)
2、新建智能模式采集任务
您可以在软件上直接新建采集任务,也可以通过导出规则来创建任务。
步骤三:配置采集规则
1、设置提取数据字段
在智能模式下,我们输入网址后软件即可手动辨识出页面上的数据并生成采集结果,每一类数据对应一个采集字段,我们可以右击数组进行相关设置,包括更改数组名称、增减数组、处理数据等。
由于采集软件辨识出了好多我们不需要的数组,而我们只须要部份数组的内容,这种情况下可以将原本辨识下来的数组全部清空,再自动添加数组,也可以在以前数组的基础上进行更改。
我们添加商品标题、商品链接、价格、商品描述、商品所属网站以及主图等数组,字段设置疗效如下:
2、使用深入采集功能提取详情页数据
在列表页上展示出了“什么值得买”毛衣的大部分信息,但是假如我们想要采集到推荐人及商品在售情况的信息,需要右击“商品链接 ”使用深入采集功能,跳转到详情页进行采集。
在详情页面我们可以看见推荐人以及商品在售情况等信息,我们可以点击“添加数组”添加采集字段,字段设置疗效如下:
步骤四:设置并启动采集任务
1、设置采集任务
完成了采集数据添加,我们可以开始启动采集任务了。在启动之前我们须要对采集任务进行一些设置,从而提升采集的稳定性和成功率。
点击“设置”按钮,在弹出的运行设置页面中我们可以进行运行设置和防屏蔽设置,这里我们勾选“跳过继续采集”,设置“2”秒恳求等待时间,勾选“不加载网页图片”,防屏蔽设置就根据系统默认设置,然后点击保存。
2、启动采集任务
点击“保存并启动”按钮,可在弹出的页面中进行一些中级设置,包括定时启动、自动入库和下载图片,本次示例中未使用到定时采集及手动入库功能,勾选下载图片到本地的功能后,点击“启动”运行爬虫工具。
【温馨提示】免费版本可以使用非周期性定时采集功能,下载图片功能是免费的。个人专业版及以上版本可以使用中级定时功能和手动入库功能。
3、运行任务提取数据
任务启动以后便开始手动采集数据,我们从界面上可以直观的看见程序运行过程和采集结果,采集结束以后会有提醒。
步骤五:导出并查看数据
数据采集完成后,我们可以查看和导入数据,优采云采集器支持多种导入方法(手动导入到本地、手动导入到数据库、自动发布到数据库、自动发布到网站)和导入文件的格式(EXCEL、CSV、HTML和TXT),我们选择自己须要方法和文件类型,点击“确认导入”。
【温馨提示】:所有自动导入功能都是免费的。个人专业版及以上版本可以使用发布到网站功能。 查看全部
本文主要介绍怎样使用优采云采集器的智能模式,免费采集“什么值得买”商品价钱、图片、标题及推荐人等信息。
采集工具简介:
优采云采集器()是一款基于人工智能技术的网路爬虫工具,只须要输入网址才能够手动辨识网页数据,无需配置即可完成数据采集,是业内首家支持三种操作系统(包括Windows、Mac和Linux)的数据采集软件。
这是一款真正免费的数据采集软件,对采集结果导入没有任何限制,没有编程基础的小白用户也可轻松实现数据采集要求。
官方网址:
采集字段:
商品标题、商品链接、价格、商品描述、商品所属网站、主图、推荐人、商品在售情况
功能点目录:
如何采集列表+详情页类型网页
如何下载图片
采集结果预览:
导出到Excel表格:
导出到本地图片:
下面我们来详尽介绍一下怎么免费采集“什么值得买”网站上推荐的商品数据,我们以西装为例,具体步骤如下:
步骤一:下载安装优采云采集器,并注册登入
1、打开优采云采集器官网,下载并安装爬虫软件工具—优采云采集器软件
2、点击注册登入,注册新帐号,登录优采云采集器
【温馨提示】您可以直接使用此款爬虫软件,不需要进行注册,但是匿名帐户下的任务在切换到注册用户时会遗失,因此建议您注册后使用。
优采云采集器为优采云云旗下产品,如果您是优采云用户,可直接登入。
步骤二:新建采集任务
1、复制“什么值得买”毛衣的网页(需要搜索结果页的网址,而不是首页的网址)
2、新建智能模式采集任务
您可以在软件上直接新建采集任务,也可以通过导出规则来创建任务。
步骤三:配置采集规则
1、设置提取数据字段
在智能模式下,我们输入网址后软件即可手动辨识出页面上的数据并生成采集结果,每一类数据对应一个采集字段,我们可以右击数组进行相关设置,包括更改数组名称、增减数组、处理数据等。
由于采集软件辨识出了好多我们不需要的数组,而我们只须要部份数组的内容,这种情况下可以将原本辨识下来的数组全部清空,再自动添加数组,也可以在以前数组的基础上进行更改。
我们添加商品标题、商品链接、价格、商品描述、商品所属网站以及主图等数组,字段设置疗效如下:
2、使用深入采集功能提取详情页数据
在列表页上展示出了“什么值得买”毛衣的大部分信息,但是假如我们想要采集到推荐人及商品在售情况的信息,需要右击“商品链接 ”使用深入采集功能,跳转到详情页进行采集。
在详情页面我们可以看见推荐人以及商品在售情况等信息,我们可以点击“添加数组”添加采集字段,字段设置疗效如下:
步骤四:设置并启动采集任务
1、设置采集任务
完成了采集数据添加,我们可以开始启动采集任务了。在启动之前我们须要对采集任务进行一些设置,从而提升采集的稳定性和成功率。
点击“设置”按钮,在弹出的运行设置页面中我们可以进行运行设置和防屏蔽设置,这里我们勾选“跳过继续采集”,设置“2”秒恳求等待时间,勾选“不加载网页图片”,防屏蔽设置就根据系统默认设置,然后点击保存。
2、启动采集任务
点击“保存并启动”按钮,可在弹出的页面中进行一些中级设置,包括定时启动、自动入库和下载图片,本次示例中未使用到定时采集及手动入库功能,勾选下载图片到本地的功能后,点击“启动”运行爬虫工具。
【温馨提示】免费版本可以使用非周期性定时采集功能,下载图片功能是免费的。个人专业版及以上版本可以使用中级定时功能和手动入库功能。
3、运行任务提取数据
任务启动以后便开始手动采集数据,我们从界面上可以直观的看见程序运行过程和采集结果,采集结束以后会有提醒。
步骤五:导出并查看数据
数据采集完成后,我们可以查看和导入数据,优采云采集器支持多种导入方法(手动导入到本地、手动导入到数据库、自动发布到数据库、自动发布到网站)和导入文件的格式(EXCEL、CSV、HTML和TXT),我们选择自己须要方法和文件类型,点击“确认导入”。
【温馨提示】:所有自动导入功能都是免费的。个人专业版及以上版本可以使用发布到网站功能。
优采云采集器使用要点
采集交流 • 优采云 发表了文章 • 0 个评论 • 314 次浏览 • 2020-08-09 15:34
不少用户会在工单或则是扣扣群里咨询优采云采集相关的问题,我们把这种问题做了整理,做成一份使用要点,希望它们能帮助你解决在使用优采云采集器碰到的问题。
1、手动检测工作流设计器中的规则
采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当可以先检测配置的规则是否有效,寻找存在的问题,最好在运行任务之前自动检测工作流程中的规则。这样可以看见什么步骤在可视外置浏览器和数据字段中不起作用。因此,一旦发觉错误,可以更改相应地规则。查看下边的教程可以了解规则排错的具体方式:
优采云7.0版本——基本排错教程:
/tutorialdetail-1/jbpc_7.html
2、设置正确的超时和滚动时间
有时会发觉,即使配置了正确的规则,并且可以在自动检测规则时获取数据,但是在启动提取时,数据却会遗漏。这是因为没有设置中级选中的Ajax, 最简单的方式是在规则中选中“打开网页”和“点击元素”的操作下设置AJAX加载。另外,您可以在工作流设计器的不同操作下设置等待时间,以便确保加载所需的数据。
有时网页会出现这样的情况,除非向上滚动,否则不会显示个别内容,因此须要在“打开网页”这一步骤中设置滚动时间,否则可能会遗漏设置滚动时间而错过个别数据。选择向上滚动的方法并设置适当的滚动时间。这对采集到完整的数据也很重要。
但在执行上述步骤之前,您应当记住,所有步骤都应在页面完全加载后进行; 如果不是,即使您修改了规则,该规则一直无效。
此外,我们不建议同时选择“在新标签页中打开”和“AJAX加载页面”,除非优采云仍然未能打开个别网站。
具体操作可以参照这个教程:/tutorialdetail-1/ajaxdjfy_7.html
3、手动更改XPath
正确使用XPath是使用优采云采集数据的关键。列如翻页,缺失数据和不规则值域等步骤大多数时间涉及XPath的修改。所以强烈建议用户学习一些关于XPath的知识。只需稍为了解一下XPath就可以帮助您解决使用优采云时遇见的许多问题。下面的教程可以帮助您快速学习XPath。
XPath入门1:
/tutorialdetail-1/xpathrm1.html
XPath入门2:
/media/44656/xpath.pdf
4、设置缓存设置
有时我们会发觉外置浏览器在“打开页面”的操作下未打开须要采集的网址。这可能是因为打开网站的次数过多,并且计算机记录了缓存。所以须要选择在打开网页前去除缓存,然后打开须要的网站即可。
设置缓存的另一个反例是提取须要登陆的网站。登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,以便您不需要一次又一次检测登陆步骤。这也会保护你的个人信息。
cookie指个别网站为了分辨用户身分、进行 session 跟踪而存储在用户本地终端上的数据(通常经过加密),在优采云里获取登入后的cookie记住登入状态达到采集数据的目的。
cookie登录方式:
/tutorialdetail-1/cookie70.html 查看全部
摘要:不少用户会在工单或则是扣扣群里咨询优采云采集相关的问题,我们把这种问题做了整理,做成一份使用要点,希望它们能帮助你解决在使用优采云采集器碰到的问题。
不少用户会在工单或则是扣扣群里咨询优采云采集相关的问题,我们把这种问题做了整理,做成一份使用要点,希望它们能帮助你解决在使用优采云采集器碰到的问题。
1、手动检测工作流设计器中的规则
采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当可以先检测配置的规则是否有效,寻找存在的问题,最好在运行任务之前自动检测工作流程中的规则。这样可以看见什么步骤在可视外置浏览器和数据字段中不起作用。因此,一旦发觉错误,可以更改相应地规则。查看下边的教程可以了解规则排错的具体方式:
优采云7.0版本——基本排错教程:
/tutorialdetail-1/jbpc_7.html
2、设置正确的超时和滚动时间
有时会发觉,即使配置了正确的规则,并且可以在自动检测规则时获取数据,但是在启动提取时,数据却会遗漏。这是因为没有设置中级选中的Ajax, 最简单的方式是在规则中选中“打开网页”和“点击元素”的操作下设置AJAX加载。另外,您可以在工作流设计器的不同操作下设置等待时间,以便确保加载所需的数据。
有时网页会出现这样的情况,除非向上滚动,否则不会显示个别内容,因此须要在“打开网页”这一步骤中设置滚动时间,否则可能会遗漏设置滚动时间而错过个别数据。选择向上滚动的方法并设置适当的滚动时间。这对采集到完整的数据也很重要。
但在执行上述步骤之前,您应当记住,所有步骤都应在页面完全加载后进行; 如果不是,即使您修改了规则,该规则一直无效。
此外,我们不建议同时选择“在新标签页中打开”和“AJAX加载页面”,除非优采云仍然未能打开个别网站。
具体操作可以参照这个教程:/tutorialdetail-1/ajaxdjfy_7.html
3、手动更改XPath
正确使用XPath是使用优采云采集数据的关键。列如翻页,缺失数据和不规则值域等步骤大多数时间涉及XPath的修改。所以强烈建议用户学习一些关于XPath的知识。只需稍为了解一下XPath就可以帮助您解决使用优采云时遇见的许多问题。下面的教程可以帮助您快速学习XPath。
XPath入门1:
/tutorialdetail-1/xpathrm1.html
XPath入门2:
/media/44656/xpath.pdf
4、设置缓存设置
有时我们会发觉外置浏览器在“打开页面”的操作下未打开须要采集的网址。这可能是因为打开网站的次数过多,并且计算机记录了缓存。所以须要选择在打开网页前去除缓存,然后打开须要的网站即可。
设置缓存的另一个反例是提取须要登陆的网站。登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,以便您不需要一次又一次检测登陆步骤。这也会保护你的个人信息。
cookie指个别网站为了分辨用户身分、进行 session 跟踪而存储在用户本地终端上的数据(通常经过加密),在优采云里获取登入后的cookie记住登入状态达到采集数据的目的。
cookie登录方式:
/tutorialdetail-1/cookie70.html
太好了!有了这三个采集器工件,我要编写什么代码!
采集交流 • 优采云 发表了文章 • 0 个评论 • 327 次浏览 • 2020-08-09 06:06
对于临时使用的工作场所,学习爬虫可以提高效率. 程序员的兄弟太忙了,找人的成本太高了. 爬虫技术本身太昂贵了,无法学习
有人说我是开发人员,陶弟兄,我在几分钟之内使用Python捕获了几行代码来取回数据. 我当然想说你很棒,但是更多的人还没有达到那个程度.
退一步说,即使我很熟练,如果我可以使用工具和现成的模板进行抓取并生成Excle导出,整个过程将只需要几分钟. 我认为作为开发人员,这会有点令人兴奋.
掌握爬行器工具可以大大提高我们工作场所的工作效率. 成为首席执行官并嫁给白富美指日可待.
我知道我们为什么要学习以及学习的目的. 接下来,我将向您介绍我认为不错的三种采集器工具. 它们是Jishouke,优采云和优采云 Collector,对您来说更方便. 使用和选择.
优采云
图片
Ucaiyun,让我简单谈谈它的优点:
提供了用于云采集的第三方模板,该模板方便快捷地在10分钟内采集数据,并且对于个人而言更昂贵.
需要注册,登录,没有Mac&Linux版本,基本模板是免费的,需要支付更多模板,需要支付高级版本,免费版本只能使用最基本的导出,有限制.
采集招揽客户
图片
采集采购客户的优势
浏览器采集了许多网站模板,付费版本直接登录采集. 在10分钟内提供了Mac版本,以使单个用户可以便宜地获取数据.
客户端是浏览器. 我个人认为这是一种趋势. 登录后采集数据. 此外,采集客户的工具相对简单易用. 但是,这种价格歧视是非常不科学的. 使用Mac客户端版本,您真的认为Apple用户更富有吗?
他们为获取数据而付费的方式是免费的,下载的下载也带有积分. 我认为采集客户临时使用的资源比优采云更方便.
优采云采集器
图片
我认为优采云采集器的优势:
浏览器模式采集和采集,完全可视化,免费导出,无积分,完全免费,在5分钟内就开始支持Mac&Linux版本,个人通常可以负担得起数据捕获
无需登录,无需注册即可采集数据,无需积分,几乎可以完全免费使用,缺点是没有第三方模板网站,这对于新手来说有点不方便,但是取胜很简单,这也是一个优势.
摘要
这三个工具都很优秀且易于使用,但是从个人使用来看,采集和采集客户更加方便,灵活且便宜. 优采云采集器位居第二(很简单,真的很简单),优采云最后一位.
当然,就个人经验而言,是否支持Mac系统,价格等因素,我们没有更深入地研究. 如果有错误,请不要打我,仅是普通用户. 查看全部
普通人学习爬虫工具的原因有三个:
对于临时使用的工作场所,学习爬虫可以提高效率. 程序员的兄弟太忙了,找人的成本太高了. 爬虫技术本身太昂贵了,无法学习
有人说我是开发人员,陶弟兄,我在几分钟之内使用Python捕获了几行代码来取回数据. 我当然想说你很棒,但是更多的人还没有达到那个程度.
退一步说,即使我很熟练,如果我可以使用工具和现成的模板进行抓取并生成Excle导出,整个过程将只需要几分钟. 我认为作为开发人员,这会有点令人兴奋.
掌握爬行器工具可以大大提高我们工作场所的工作效率. 成为首席执行官并嫁给白富美指日可待.
我知道我们为什么要学习以及学习的目的. 接下来,我将向您介绍我认为不错的三种采集器工具. 它们是Jishouke,优采云和优采云 Collector,对您来说更方便. 使用和选择.
优采云
图片
Ucaiyun,让我简单谈谈它的优点:
提供了用于云采集的第三方模板,该模板方便快捷地在10分钟内采集数据,并且对于个人而言更昂贵.
需要注册,登录,没有Mac&Linux版本,基本模板是免费的,需要支付更多模板,需要支付高级版本,免费版本只能使用最基本的导出,有限制.
采集招揽客户
图片
采集采购客户的优势
浏览器采集了许多网站模板,付费版本直接登录采集. 在10分钟内提供了Mac版本,以使单个用户可以便宜地获取数据.
客户端是浏览器. 我个人认为这是一种趋势. 登录后采集数据. 此外,采集客户的工具相对简单易用. 但是,这种价格歧视是非常不科学的. 使用Mac客户端版本,您真的认为Apple用户更富有吗?
他们为获取数据而付费的方式是免费的,下载的下载也带有积分. 我认为采集客户临时使用的资源比优采云更方便.
优采云采集器
图片
我认为优采云采集器的优势:
浏览器模式采集和采集,完全可视化,免费导出,无积分,完全免费,在5分钟内就开始支持Mac&Linux版本,个人通常可以负担得起数据捕获
无需登录,无需注册即可采集数据,无需积分,几乎可以完全免费使用,缺点是没有第三方模板网站,这对于新手来说有点不方便,但是取胜很简单,这也是一个优势.
摘要
这三个工具都很优秀且易于使用,但是从个人使用来看,采集和采集客户更加方便,灵活且便宜. 优采云采集器位居第二(很简单,真的很简单),优采云最后一位.
当然,就个人经验而言,是否支持Mac系统,价格等因素,我们没有更深入地研究. 如果有错误,请不要打我,仅是普通用户.
优采云采集器正式版v7.6.0
采集交流 • 优采云 发表了文章 • 0 个评论 • 378 次浏览 • 2020-08-08 01:34
优采云采集器的正式版是具有实用功能且易于使用的Web数据采集器. 优采云采集器的正式版是任何需要从网络获取信息的孩子的必备神器,该工具可让您超级轻松地采集信息.
软件功能
简单的操作,完全可视化的图形操作,不需要专业的IT人员,任何能够使用计算机访问Internet的人都可以轻松掌握优采云采集器正式版的操作.
云采集
采集任务会自动分发到云中的多个服务器以同时执行,以提高采集效率. 优采云采集器的正式版可以在短时间内获得数千条信息.
拖放采集过程
模仿人的操作思维方式,可以登录,输入数据,单击链接,按钮等,并且可以针对不同情况采用不同的采集程序.
图像识别
内置可扩展的OCR界面,优采云采集器的正式版支持解析图片中的文本,并可以提取图片中的文本.
定时自动采集
采集任务自动运行,可以根据指定的时间段自动采集,并且还支持每分钟一次的实时采集.
2分钟内快速入门
从入门到精通的内置视频教程,可以在2分钟内使用,并且还提供文档,论坛,QQ群组等.
免费使用
它是免费的,免费版本没有功能限制. 您可以立即尝试,立即下载并安装.
功能介绍
简而言之,您可以使用优采云轻松地从任何网页上采集所需的数据,并生成自定义的常规数据格式. 优采云数据采集系统可以执行的操作包括但不限于以下内容:
1. 财务数据,例如季度报告,年度报告,财务报告,包括自动采集最新的每日净资产;
2. 实时监控主要新闻门户,自动更新和上传最新新闻;
3. 监视竞争对手的最新信息,包括商品价格和库存; 查看全部

优采云采集器的正式版是具有实用功能且易于使用的Web数据采集器. 优采云采集器的正式版是任何需要从网络获取信息的孩子的必备神器,该工具可让您超级轻松地采集信息.

软件功能
简单的操作,完全可视化的图形操作,不需要专业的IT人员,任何能够使用计算机访问Internet的人都可以轻松掌握优采云采集器正式版的操作.
云采集
采集任务会自动分发到云中的多个服务器以同时执行,以提高采集效率. 优采云采集器的正式版可以在短时间内获得数千条信息.
拖放采集过程
模仿人的操作思维方式,可以登录,输入数据,单击链接,按钮等,并且可以针对不同情况采用不同的采集程序.
图像识别
内置可扩展的OCR界面,优采云采集器的正式版支持解析图片中的文本,并可以提取图片中的文本.
定时自动采集
采集任务自动运行,可以根据指定的时间段自动采集,并且还支持每分钟一次的实时采集.
2分钟内快速入门
从入门到精通的内置视频教程,可以在2分钟内使用,并且还提供文档,论坛,QQ群组等.
免费使用
它是免费的,免费版本没有功能限制. 您可以立即尝试,立即下载并安装.

功能介绍
简而言之,您可以使用优采云轻松地从任何网页上采集所需的数据,并生成自定义的常规数据格式. 优采云数据采集系统可以执行的操作包括但不限于以下内容:
1. 财务数据,例如季度报告,年度报告,财务报告,包括自动采集最新的每日净资产;
2. 实时监控主要新闻门户,自动更新和上传最新新闻;
3. 监视竞争对手的最新信息,包括商品价格和库存;
六个采集器的特征比较
采集交流 • 优采云 发表了文章 • 0 个评论 • 325 次浏览 • 2020-08-08 01:30
功能: 采集无限的网页,无限的内容;分布式采集系统,提高效率;支持PHP和C#插件扩展,以促进数据的修改和处理. 优采云 Cloud 采集: 一种基于优采云分布式云采集器框架的新型云在线智能采集器/采集器,可帮助用户快速获取大量标准化Web数据,并帮助客户快速轻松地获取大量标准化数据. 特点: 直接访问代理IP,无需设置以避免由于对IP的访问受限而无法解决的问题;自动登录验证码识别,网站自动完成验证码输入,无需人工监督;它可以在线生成图标并采集结果. 本地化的隐私保护,云采集,用户IP可以被隐藏. 优采云采集器: 一套专业的网站内容采集软件,支持采集各种论坛的帖子和答复,以及网站和博客文章的内容采集,分为三类: 论坛采集器,CMS采集器和博客采集器. 功能: 支持批量替换和过滤文章内容中的文本和链接;您可以同时批量发布到网站或论坛的多个部分;在完成采集或过帐任务后,具有自动关机功能;三行采集器: 一套就可以了网站管理员工具可以轻松地将其他人的网站,论坛和博客的图形内容采集到您自己的网站,论坛和博客中,包括论坛注册王,采集帖子等三种软件国王和采集国王. 功能: 采集需要注册和登录的论坛帖子;您可以同时批量发布到论坛的多个部分;支持批量替换和过滤文章内容中的文本和链接.
Heiner采集器: 具有简单,清晰且易于使用的界面的采集器,具有低成本,安全性和稳定性以及自定义用户单词的特点. 特点: 您可以通过设置关键字来采集信息,而无需设置规则;主要用于捕捉主题内容;适用于网站主题,例如文章和博客. 一个简单易用的网页信息爬网软件,可以捕获网页文本,图表,超链接和其他网页元素,提供了易于使用的网页爬网软件,数据挖掘策略,行业信息和尖端技术. 特点: 可以在移动网站上获取数据;支持抓取数据浮动显示在索引图上;成员互相帮助以提高采集效率. 优采云采集器: 一种网页采集软件,可以从不同的网站获取标准化数据,以帮助客户实现自动数据采集,编辑和标准化,从而降低成本并提高效率. 特点: 易于使用,完全可视化的图形操作;内置可扩展的OCR接口,支持解析图片中的文字;自动执行采集任务,可以根据指定的周期自动采集. 查看全部
Internet的快速发展每天使网站上有成千上万的数据可用. 如何获取和使用Internet上可用的大量数据也是一个关键问题. 有许多方法可以在Internet上获取大量数据,而使用采集或爬网是重要且有效的方法之一. 那么网络采集的含义是什么?网站集合是从网站页面中提取指定的数据. 也可以手动复制和粘贴,但是效率很低. 因此,期望计算机可以自动执行手动操作以完成数据采集工作. 计算机自动执行手动操作,并且需要某些指导操作. 例如,计算机应打开哪个页面,应复制哪些信息,并将复制的信息粘贴到何处?这些都是必须在手动操作期间制定的操作. 当转换为计算机时,您还必须知道计算机以这种方式执行. 因此,需要配置一些规则来指导计算机的操作. 规则的这种组合称为网络矿工之间的采集任务. 通过以上描述,我们知道采集任务必须至少包括网页地址和用于复制网页数据的规则. 由于网络采集非常有效并且可以大大提高运营效率,我们如何简单地进行运营以获得所需的数据?现在,我们介绍几种常见且易于使用的采集器,供所有人选择. 优采云采集器: 一种Internet数据捕获,处理,分析和挖掘软件,可以捕获网页上的分散数据信息,并通过一系列分析和处理准确地挖掘所需的数据.
功能: 采集无限的网页,无限的内容;分布式采集系统,提高效率;支持PHP和C#插件扩展,以促进数据的修改和处理. 优采云 Cloud 采集: 一种基于优采云分布式云采集器框架的新型云在线智能采集器/采集器,可帮助用户快速获取大量标准化Web数据,并帮助客户快速轻松地获取大量标准化数据. 特点: 直接访问代理IP,无需设置以避免由于对IP的访问受限而无法解决的问题;自动登录验证码识别,网站自动完成验证码输入,无需人工监督;它可以在线生成图标并采集结果. 本地化的隐私保护,云采集,用户IP可以被隐藏. 优采云采集器: 一套专业的网站内容采集软件,支持采集各种论坛的帖子和答复,以及网站和博客文章的内容采集,分为三类: 论坛采集器,CMS采集器和博客采集器. 功能: 支持批量替换和过滤文章内容中的文本和链接;您可以同时批量发布到网站或论坛的多个部分;在完成采集或过帐任务后,具有自动关机功能;三行采集器: 一套就可以了网站管理员工具可以轻松地将其他人的网站,论坛和博客的图形内容采集到您自己的网站,论坛和博客中,包括论坛注册王,采集帖子等三种软件国王和采集国王. 功能: 采集需要注册和登录的论坛帖子;您可以同时批量发布到论坛的多个部分;支持批量替换和过滤文章内容中的文本和链接.
Heiner采集器: 具有简单,清晰且易于使用的界面的采集器,具有低成本,安全性和稳定性以及自定义用户单词的特点. 特点: 您可以通过设置关键字来采集信息,而无需设置规则;主要用于捕捉主题内容;适用于网站主题,例如文章和博客. 一个简单易用的网页信息爬网软件,可以捕获网页文本,图表,超链接和其他网页元素,提供了易于使用的网页爬网软件,数据挖掘策略,行业信息和尖端技术. 特点: 可以在移动网站上获取数据;支持抓取数据浮动显示在索引图上;成员互相帮助以提高采集效率. 优采云采集器: 一种网页采集软件,可以从不同的网站获取标准化数据,以帮助客户实现自动数据采集,编辑和标准化,从而降低成本并提高效率. 特点: 易于使用,完全可视化的图形操作;内置可扩展的OCR接口,支持解析图片中的文字;自动执行采集任务,可以根据指定的周期自动采集.
优采云采集器的PBOOTCMS存储
采集交流 • 优采云 发表了文章 • 0 个评论 • 693 次浏览 • 2020-08-07 22:06
我使用从优采云的云下载的PBOOTCMS规则. 但是,使用它时,发现数据库中只能存储新闻中心,新闻和公司动态这三类.
今天,我们将讨论如何修改“仓储”列. 顺便说一句,让我们从头到尾讨论如何使用优秀的彩云.
第一步: 下载插件.
首先,我们在后端云平台上搜索PBOOT以找到此插件,然后将其下载.
请看一下,我们可以在此处看到一个APP徽标: PbootDemoSkycaiji
此方法是下载官方插件. 您也可以自己发布插件.
您自己发布还是正式下载都无所谓. 如果您不熟悉,请使用官方插件.
第2步: 让我们创建一个新任务.
您可以填写任何内容.
然后单击: 采集器设置
根据需要自己填写这些内容.
接下来,设置其他三个相对简单的选项. 我在这里不再重复.
第3步: 让我们点击“发布设置”.
按选择,然后选择绑定.
此时将报告一个错误,因为PBOOCMS不是系统已知的CMS,因此您需要添加: @pboot
下面的插件将显示我们创建和安装的插件. 选择您使用的那个. 如果我选择从云平台下载的pboot示例.
自己填写相关选择.
这时,我们将在类别列中发现仅三列: 新闻中心,公司新闻和行业新闻.
这也是今天的焦点.
我们只是说要记住这一点. 这实际上是发布时调用的PHP文件. 具体路径为: 您的优采云采集器网站从根目录开始并找到以下文件夹:
\plugin\release\cms
如您所见,现在有两个与APP相同名称的PHP文件. 您使用哪个插件,相应地修改哪个PHP文件.
我的官员是PbootDemoSkycaiji,打开这个PHP文件.
在最底部,我们看到
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->where("contenttpl='news.html'")->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
其中指定了一个news.html. 如果将其更改为: case.html,您将看到版本分类成为Ucai Cloud后端中的案例列. 因此,如果要显示所有列,可以像这样修改它.
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
然后可以看到发布背景. 所有列均已列出. 然后正常采集并发布.
查看全部
已经存在一种在Internet上使用优采云采集器的方法.
我使用从优采云的云下载的PBOOTCMS规则. 但是,使用它时,发现数据库中只能存储新闻中心,新闻和公司动态这三类.
今天,我们将讨论如何修改“仓储”列. 顺便说一句,让我们从头到尾讨论如何使用优秀的彩云.
第一步: 下载插件.

首先,我们在后端云平台上搜索PBOOT以找到此插件,然后将其下载.
请看一下,我们可以在此处看到一个APP徽标: PbootDemoSkycaiji
此方法是下载官方插件. 您也可以自己发布插件.

您自己发布还是正式下载都无所谓. 如果您不熟悉,请使用官方插件.
第2步: 让我们创建一个新任务.
您可以填写任何内容.

然后单击: 采集器设置

根据需要自己填写这些内容.

接下来,设置其他三个相对简单的选项. 我在这里不再重复.

第3步: 让我们点击“发布设置”.

按选择,然后选择绑定.

此时将报告一个错误,因为PBOOCMS不是系统已知的CMS,因此您需要添加: @pboot

下面的插件将显示我们创建和安装的插件. 选择您使用的那个. 如果我选择从云平台下载的pboot示例.

自己填写相关选择.

这时,我们将在类别列中发现仅三列: 新闻中心,公司新闻和行业新闻.
这也是今天的焦点.

我们只是说要记住这一点. 这实际上是发布时调用的PHP文件. 具体路径为: 您的优采云采集器网站从根目录开始并找到以下文件夹:
\plugin\release\cms

如您所见,现在有两个与APP相同名称的PHP文件. 您使用哪个插件,相应地修改哪个PHP文件.
我的官员是PbootDemoSkycaiji,打开这个PHP文件.
在最底部,我们看到
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->where("contenttpl='news.html'")->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
其中指定了一个news.html. 如果将其更改为: case.html,您将看到版本分类成为Ucai Cloud后端中的案例列. 因此,如果要显示所有列,可以像这样修改它.
public function param_option_category(){
$catsDb=$this->db()->table('__CONTENT_SORT__')->limit(100)->select();//文章分类
$catList=array();
foreach ($catsDb as $cat){
$catList[$cat['id']]=$cat['name'];
}
return $catList;
}
然后可以看到发布背景. 所有列均已列出. 然后正常采集并发布.

使用优采云采集器.docx的要点
采集交流 • 优采云 发表了文章 • 0 个评论 • 358 次浏览 • 2020-08-07 22:02
使用优采云采集器的要点
许多用户将在工作单或扣除组中咨询优采云 采集相关问题. 我们已经解决了这些问题并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.
1. 在工作流设计器中手动检查规则
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以相应地修改规则. 查看以下教程,了解规则故障排除的具体方法:
优采云 7.0版本基本故障排除教程:
orialdetail-1 / jbpc_7.html
2,设置正确的超时时间和滚动时间
有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获得数据,但在开始提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.
有时该网页会这样显示. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.
但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;否则,即使您更改规则,规则仍然无效.
此外,我们不建议您同时选择“在新标签页中打开”和“ AJAX加载页面”,除非优采云仍然无法打开某些网站.
有关具体操作,请参阅本教程: orialdetail-1 / ajaxdjfy_7.html
3. 手动修改XPath
正确使用XPath是使用优采云采集数据的关键. 页面翻页,数据丢失和不规则值范围之类的步骤大多数时候都涉及XPath的更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.
XPath条目1:
orialdetail-1 / xpathrm1.html
XPath条目2:
ia / 44656 / xpath.pdf
4,设置缓存设置
有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.
设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.
Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.
Cookie登录方法: 查看全部
文档简介:
使用优采云采集器的要点
许多用户将在工作单或扣除组中咨询优采云 采集相关问题. 我们已经解决了这些问题并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.
1. 在工作流设计器中手动检查规则
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以相应地修改规则. 查看以下教程,了解规则故障排除的具体方法:
优采云 7.0版本基本故障排除教程:
orialdetail-1 / jbpc_7.html
2,设置正确的超时时间和滚动时间
有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获得数据,但在开始提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.
有时该网页会这样显示. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.
但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;否则,即使您更改规则,规则仍然无效.
此外,我们不建议您同时选择“在新标签页中打开”和“ AJAX加载页面”,除非优采云仍然无法打开某些网站.
有关具体操作,请参阅本教程: orialdetail-1 / ajaxdjfy_7.html
3. 手动修改XPath
正确使用XPath是使用优采云采集数据的关键. 页面翻页,数据丢失和不规则值范围之类的步骤大多数时候都涉及XPath的更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.
XPath条目1:
orialdetail-1 / xpathrm1.html
XPath条目2:
ia / 44656 / xpath.pdf
4,设置缓存设置
有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.
设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.
Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.
Cookie登录方法:
优采云采集器制作Points.docx
采集交流 • 优采云 发表了文章 • 0 个评论 • 340 次浏览 • 2020-08-07 21:40
使用优采云采集器的要点
许多用户将在工作单或扣除组中咨询优采云 采集相关问题. 我们已经解决了这些问题并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.
1. 在工作流设计器中手动检查规则
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以相应地修改规则. 查看以下教程,了解规则故障排除的具体方法:
优采云 7.0版本基本故障排除教程:
orialdetail-1 / jbpc_7.html
2,设置正确的超时时间和滚动时间
有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获得数据,但在开始提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.
有时该网页会这样显示. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.
但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;否则,即使您更改规则,规则仍然无效.
此外,我们不建议您同时选择“在新标签页中打开”和“ AJAX加载页面”,除非优采云仍然无法打开某些网站.
有关具体操作,请参阅本教程: orialdetail-1 / ajaxdjfy_7.html
3. 手动修改XPath
正确使用XPath是使用优采云采集数据的关键. 页面翻页,数据丢失和不规则值范围之类的步骤大多数时候都涉及XPath的更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.
XPath条目1:
orialdetail-1 / xpathrm1.html
XPath条目2:
ia / 44656 / xpath.pdf
4,设置缓存设置
有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.
设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.
Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.
Cookie登录方法: 查看全部
文档简介:
使用优采云采集器的要点
许多用户将在工作单或扣除组中咨询优采云 采集相关问题. 我们已经解决了这些问题并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.
1. 在工作流设计器中手动检查规则
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以相应地修改规则. 查看以下教程,了解规则故障排除的具体方法:
优采云 7.0版本基本故障排除教程:
orialdetail-1 / jbpc_7.html
2,设置正确的超时时间和滚动时间
有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获得数据,但在开始提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.
有时该网页会这样显示. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.
但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;否则,即使您更改规则,规则仍然无效.
此外,我们不建议您同时选择“在新标签页中打开”和“ AJAX加载页面”,除非优采云仍然无法打开某些网站.
有关具体操作,请参阅本教程: orialdetail-1 / ajaxdjfy_7.html
3. 手动修改XPath
正确使用XPath是使用优采云采集数据的关键. 页面翻页,数据丢失和不规则值范围之类的步骤大多数时候都涉及XPath的更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.
XPath条目1:
orialdetail-1 / xpathrm1.html
XPath条目2:
ia / 44656 / xpath.pdf
4,设置缓存设置
有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.
设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.
Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.
Cookie登录方法:
优采云采集器 for Mac版本v3.4.12
采集交流 • 优采云 发表了文章 • 0 个评论 • 284 次浏览 • 2020-08-07 21:36
优采云采集器的操作方法
1. 输入正确的URL
输入正确的URL后,此采集任务成功完成一半. 优采云采集器支持单个URL和多个URL采集,还支持从本地TXT文件导入URL.
2,选择页面类型并设置分页
在智能模式下,优采云采集器将默认识别列表类型. 如果输入单个页面类型,这时会出现识别错误;或由于其他原因,即使对于列表类型的网页,智能识别也出现了偏差(我们将始终优化智能识别功能). 此时,您可以手动选择页面类型并设置页面调度,以帮助软件识别正确的结果.
3. 登录前
在数据采集过程中,有时会遇到需要登录才能查看内容的网页. 这时,我们需要使用预登录功能. 登录成功后,可以进行正常的数据采集.
4. 切换浏览器模式
在数据采集过程中,可以使用不同的浏览器模式来优化采集效果. 具体使用场景需要根据实际情况进行判断.
5. 设置提取字段
在智能模式下,该软件将自动识别网页中的数据并将其显示在采集结果预览窗口中,用户可以根据需要设置字段.
6. 采集任务的基本设置
在开始采集任务之前,我们需要设置采集任务,包括一些基本设置和防屏蔽设置.
7. 采集任务的高级设置: 定时采集
定时采集功能属于采集任务的高级设置. 该功能可以在用户设置的时间段内的固定时间启动和停止数据采集任务. 如果您已设置时间采集,请确保该软件始终可以运行(无法关闭).
8. 采集任务的高级设置: 自动存储
自动存储功能属于采集任务的高级设置. 此功能可以在采集数据时实现将采集结果自动发布到数据库,而无需等待任务结束以导出数据. 自动仓储功能与定时采集功能相结合,可以大大节省时间,提高工作效率.
9. 采集任务的高级设置: 下载图片
下载图片属于采集任务的高级设置. 该功能可以实现在采集数据的同时将网页上的图片下载到本地.
10. 查看采集结果并导出数据
如果不使用自动存储功能,则需要手动导出采集的结果. 完成上述设置后,我们可以启动采集任务. 在设置任务的过程中,采集任务将被自动保存. 采集任务结束后,用户可以查看采集结果并导出数据. 优采云采集器对导出结果的输出没有任何限制,不需要积分,它是完全免费的,因此每个人都可以放心使用它.
软件功能
1. 智能采集
智能分析和提取列表/表数据,并可以自动识别分页符. 一键采集各种网站,包括分页,滚动加载,登录采集,AJAX等.
2,各种数据导出
一键导出所有采集的数据. 支持CSV,EXCEL和HTML等,还支持将数据导出到数据库.
3. 云帐户
采集任务会自动保存到云中,因此无需担心任务丢失. 一个帐户的多终端操作可以随时随地创建和修改收款任务.
4. 跨平台支持
优采云采集器支持各种操作系统,包括Windows,Mac和Linux. 无论是个人采集还是团队/业务使用,它都可以满足您的各种需求.
更新日志
优采云采集器 v3.4.12更新日志(2020-01-04)
解决常规处理问题 查看全部
网络数据采集器通常用于批量采集网页,论坛和其他内容,并将其直接保存到数据中或发布到Internet. 优采云采集器 for Mac是由“前Google技术团队”创建的macOS网络数据采集软件. 它使用最先进的人工智能技术. 用户只需要在页面上输入网址. 这是通过智能识别要提取和分页的数据来采集网页的最简单方法. 该软件具有完全的可视化操作,单击以修改要提取的数据等,这种简单的操作方法甚至可以由计算机初学者轻松使用. 优采云采集器具有多种采集模式(智能采集和高级采集,可以满足不同的采集要求),可以通过任何网站进行采集,包括XPATH,JSON,HTTP和POST.

优采云采集器的操作方法
1. 输入正确的URL
输入正确的URL后,此采集任务成功完成一半. 优采云采集器支持单个URL和多个URL采集,还支持从本地TXT文件导入URL.
2,选择页面类型并设置分页
在智能模式下,优采云采集器将默认识别列表类型. 如果输入单个页面类型,这时会出现识别错误;或由于其他原因,即使对于列表类型的网页,智能识别也出现了偏差(我们将始终优化智能识别功能). 此时,您可以手动选择页面类型并设置页面调度,以帮助软件识别正确的结果.
3. 登录前
在数据采集过程中,有时会遇到需要登录才能查看内容的网页. 这时,我们需要使用预登录功能. 登录成功后,可以进行正常的数据采集.
4. 切换浏览器模式
在数据采集过程中,可以使用不同的浏览器模式来优化采集效果. 具体使用场景需要根据实际情况进行判断.
5. 设置提取字段
在智能模式下,该软件将自动识别网页中的数据并将其显示在采集结果预览窗口中,用户可以根据需要设置字段.
6. 采集任务的基本设置
在开始采集任务之前,我们需要设置采集任务,包括一些基本设置和防屏蔽设置.
7. 采集任务的高级设置: 定时采集
定时采集功能属于采集任务的高级设置. 该功能可以在用户设置的时间段内的固定时间启动和停止数据采集任务. 如果您已设置时间采集,请确保该软件始终可以运行(无法关闭).
8. 采集任务的高级设置: 自动存储
自动存储功能属于采集任务的高级设置. 此功能可以在采集数据时实现将采集结果自动发布到数据库,而无需等待任务结束以导出数据. 自动仓储功能与定时采集功能相结合,可以大大节省时间,提高工作效率.
9. 采集任务的高级设置: 下载图片
下载图片属于采集任务的高级设置. 该功能可以实现在采集数据的同时将网页上的图片下载到本地.
10. 查看采集结果并导出数据
如果不使用自动存储功能,则需要手动导出采集的结果. 完成上述设置后,我们可以启动采集任务. 在设置任务的过程中,采集任务将被自动保存. 采集任务结束后,用户可以查看采集结果并导出数据. 优采云采集器对导出结果的输出没有任何限制,不需要积分,它是完全免费的,因此每个人都可以放心使用它.

软件功能
1. 智能采集
智能分析和提取列表/表数据,并可以自动识别分页符. 一键采集各种网站,包括分页,滚动加载,登录采集,AJAX等.
2,各种数据导出
一键导出所有采集的数据. 支持CSV,EXCEL和HTML等,还支持将数据导出到数据库.
3. 云帐户
采集任务会自动保存到云中,因此无需担心任务丢失. 一个帐户的多终端操作可以随时随地创建和修改收款任务.
4. 跨平台支持
优采云采集器支持各种操作系统,包括Windows,Mac和Linux. 无论是个人采集还是团队/业务使用,它都可以满足您的各种需求.
更新日志
优采云采集器 v3.4.12更新日志(2020-01-04)
解决常规处理问题
优采云采集器 v2.3.2的最新正式版本
采集交流 • 优采云 发表了文章 • 0 个评论 • 525 次浏览 • 2020-08-07 20:45
软件简介
优采云采集器是用于数据采集和发布的免费爬虫软件. 它是用php + mysql开发的,可以部署在云服务器上. 它可以采集几乎所有类型的网页,并且无需登录即可无缝连接各种CMS网站构建程序. 实时实时发布数据,无需人工干预. 它是在云时代自动采集大数据和网站数据的最佳云爬虫软件!
软件功能
关于软件
SkyCaiji致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,从而使数据采集变得方便,智能且基于云,使您可以随时随地在Office上移动!
数据采集
支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别
内容发布
与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.
自动化和云平台
该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供需信息以及社区帮助,交流等.
使用方法
升级软件
您可以直接在后台主页上检查更新并单击升级,或将压缩包上传到服务器以解压并覆盖它!
安装软件
将下载的软件上载到您的服务器. 如果根目录中有一个站点,建议将其放在子目录中. 解压缩后,打开浏览器并输入服务器域名或IP地址(存储在子目录中时添加子目录的名称),进入安装界面
点击“接受”进入环境检测页面
您必须确保所有参数正确,否则在使用过程中会发生错误,请单击“下一步”进入数据安装界面
填写数据库和Founder配置,单击“下一步”
最后,安装完成,现在您可以使用优采云采集器了!
匹配规则
“规则”支持: (*)(通配符),正则表达式,使用[content](通用匹配)或捕获组(常规捕获组)将匹配的数据另存为标记,并在“拼接的”中引用内容” [内容N]标签组成结果
[内容]和捕获组之间的区别: [内容]将自动转换为固定格式的捕获组: (?. *?)
捕获组: (?[\ s \ S] *?),您可以编写任何正则表达式
[内容]适用于精度较低的常规匹配,捕获组适用于精确匹配
默认为单个匹配项,可以选中多个匹配项“允许多个元素匹配” 查看全部
优采云采集器可以帮助用户快速抓取网站数据,无需本地管理即可将所有数据存储在云中,节省大量硬盘空间,支持多级和多页采集方法以及内容发布功能,用户谁需要它,来下载它.
软件简介
优采云采集器是用于数据采集和发布的免费爬虫软件. 它是用php + mysql开发的,可以部署在云服务器上. 它可以采集几乎所有类型的网页,并且无需登录即可无缝连接各种CMS网站构建程序. 实时实时发布数据,无需人工干预. 它是在云时代自动采集大数据和网站数据的最佳云爬虫软件!

软件功能
关于软件
SkyCaiji致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,从而使数据采集变得方便,智能且基于云,使您可以随时随地在Office上移动!
数据采集
支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别
内容发布
与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.
自动化和云平台
该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供需信息以及社区帮助,交流等.
使用方法
升级软件
您可以直接在后台主页上检查更新并单击升级,或将压缩包上传到服务器以解压并覆盖它!
安装软件
将下载的软件上载到您的服务器. 如果根目录中有一个站点,建议将其放在子目录中. 解压缩后,打开浏览器并输入服务器域名或IP地址(存储在子目录中时添加子目录的名称),进入安装界面

点击“接受”进入环境检测页面

您必须确保所有参数正确,否则在使用过程中会发生错误,请单击“下一步”进入数据安装界面

填写数据库和Founder配置,单击“下一步”

最后,安装完成,现在您可以使用优采云采集器了!
匹配规则
“规则”支持: (*)(通配符),正则表达式,使用[content](通用匹配)或捕获组(常规捕获组)将匹配的数据另存为标记,并在“拼接的”中引用内容” [内容N]标签组成结果
[内容]和捕获组之间的区别: [内容]将自动转换为固定格式的捕获组: (?. *?)
捕获组: (?[\ s \ S] *?),您可以编写任何正则表达式
[内容]适用于精度较低的常规匹配,捕获组适用于精确匹配
默认为单个匹配项,可以选中多个匹配项“允许多个元素匹配”
优采云采集器 v2.3.2正式版
采集交流 • 优采云 发表了文章 • 0 个评论 • 266 次浏览 • 2020-08-07 20:42
优采云采集器的破解版是一种爬网程序工具,可以采集各种网页上的数据. 我们可以使用优采云采集器采集网页上的所有数据信息,从而使您可以建立一个网站使用它.
软件简介
优采云采集器是用于数据采集和发布的免费爬虫软件. 它是用php + mysql开发的,可以部署在云服务器上. 它可以采集几乎所有类型的网页,并且无需登录即可无缝连接各种CMS网站构建程序. 实时实时发布数据,无需人工干预. 它是在云时代自动采集大数据和网站数据的最佳云爬虫软件!
优采云采集器破解版的功能
关于软件
SkyCaiji致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,从而使数据采集变得方便,智能且基于云,使您可以随时随地在Office上移动!
数据采集
支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别
内容发布
与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.
自动化和云平台
该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供需信息以及社区帮助,交流等.
设置说明
设置包括: 采集设置,网站设置,邮件发送设置,代理设置等.
启用自动采集,设置采集参数和图像本地化
页面呈现设置
代理设置
防止IP被阻止
翻译设置
支持百度翻译和有道翻译
网站设置 查看全部
软件简介
优采云采集器的破解版是一种爬网程序工具,可以采集各种网页上的数据. 我们可以使用优采云采集器采集网页上的所有数据信息,从而使您可以建立一个网站使用它.

软件简介
优采云采集器是用于数据采集和发布的免费爬虫软件. 它是用php + mysql开发的,可以部署在云服务器上. 它可以采集几乎所有类型的网页,并且无需登录即可无缝连接各种CMS网站构建程序. 实时实时发布数据,无需人工干预. 它是在云时代自动采集大数据和网站数据的最佳云爬虫软件!
优采云采集器破解版的功能
关于软件
SkyCaiji致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,从而使数据采集变得方便,智能且基于云,使您可以随时随地在Office上移动!
数据采集
支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别
内容发布
与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.
自动化和云平台
该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供需信息以及社区帮助,交流等.
设置说明
设置包括: 采集设置,网站设置,邮件发送设置,代理设置等.
启用自动采集,设置采集参数和图像本地化
页面呈现设置
代理设置
防止IP被阻止
翻译设置
支持百度翻译和有道翻译
网站设置
优采云采集器破解版的功能
采集交流 • 优采云 发表了文章 • 0 个评论 • 324 次浏览 • 2020-08-07 20:40
优采云采集器的破解版是一种爬网程序工具,可以采集各种网页上的数据. 我们可以使用优采云采集器采集网页上的所有数据信息,从而使您可以建立一个网站使用它.
软件简介
优采云采集器是用于数据采集和发布的免费爬虫软件. 它是用php + mysql开发的,可以部署在云服务器上. 它可以采集几乎所有类型的网页,并且无需登录即可无缝连接各种CMS网站构建程序. 实时实时发布数据,无需人工干预. 它是在云时代自动采集大数据和网站数据的最佳云爬虫软件!
优采云采集器破解版的功能
关于软件
SkyCaiji致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,从而使数据采集变得方便,智能且基于云,使您可以随时随地在Office上移动!
数据采集
支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别
内容发布
与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.
自动化和云平台
该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供需信息以及社区帮助,交流等.
设置说明
设置包括: 采集设置,网站设置,邮件发送设置,代理设置等.
启用自动采集,设置采集参数和图像本地化
页面呈现设置
代理设置
防止IP被阻止
翻译设置
支持百度翻译和有道翻译
网站设置 查看全部
软件简介
优采云采集器的破解版是一种爬网程序工具,可以采集各种网页上的数据. 我们可以使用优采云采集器采集网页上的所有数据信息,从而使您可以建立一个网站使用它.

软件简介
优采云采集器是用于数据采集和发布的免费爬虫软件. 它是用php + mysql开发的,可以部署在云服务器上. 它可以采集几乎所有类型的网页,并且无需登录即可无缝连接各种CMS网站构建程序. 实时实时发布数据,无需人工干预. 它是在云时代自动采集大数据和网站数据的最佳云爬虫软件!
优采云采集器破解版的功能
关于软件
SkyCaiji致力于自动采集和发布网站数据. 该系统是用PHP + Mysql开发的,可以部署在云服务器上,从而使数据采集变得方便,智能且基于云,使您可以随时随地在Office上移动!
数据采集
支持多级,多页和分页采集,自定义采集规则(支持常规,XPATH,JSON等)准确匹配任何信息流,几乎所有类型的网页都可以采集,并且内容大多数文章类型都可以智能识别
内容发布
与各种CMS网站构建程序无缝对接,实现免登录导入数据,支持自定义数据发布插件或直接导入数据库,存储为Excel文件,生成API接口等.
自动化和云平台
该软件可实现定时和定量自动采集和发布,而无需人工干预!内置的云平台,用户可以共享和下载采集规则,发布供需信息以及社区帮助,交流等.
设置说明
设置包括: 采集设置,网站设置,邮件发送设置,代理设置等.
启用自动采集,设置采集参数和图像本地化
页面呈现设置
代理设置
防止IP被阻止
翻译设置
支持百度翻译和有道翻译
网站设置
使用优采云采集器的要点
采集交流 • 优采云 发表了文章 • 0 个评论 • 376 次浏览 • 2020-08-07 20:13
许多用户将在工作单或扣除组中查询与优采云 采集相关的问题. 我们对这些问题进行了分类,并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.
1. 在工作流设计器中手动检查规则
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以修改相应的规则. 请查看以下教程,以了解具体的故障排除方法:
优采云 7.0版本基本故障排除教程:
/tutorialdetail-1/jbpc_7.html
2,设置正确的超时时间和滚动时间
有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获取数据,但是在启动提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.
有时网页会出现这种情况. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.
但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;如果不是这样,即使您更改规则,该规则仍然无效.
此外,除非优采云仍然无法打开某些网站,否则我们建议您不要同时选择“在新选项卡中打开”和“ AJAX加载页面”.
有关具体操作,请参阅本教程: /tutorialdetail-1/ajaxdjfy_7.html
3. 手动修改XPath
正确使用XPath是使用优采云采集数据的关键. 翻页,丢失数据和不规则范围之类的步骤大多数时候都涉及XPath更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.
XPath条目1:
/tutorialdetail-1/xpathrm1.html
XPath条目2:
/media/44656/xpath.pdf
4,设置缓存设置
有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.
设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.
Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.
Cookie登录方法:
/tutorialdetail-1/cookie70.html 查看全部
摘要: 许多用户将在工作单或扣除组中咨询优采云 采集的相关问题. 我们已经解决了这些问题并提出了使用要点. 希望他们能帮助您解决使用中的问题. 优采云采集器遇到的问题.
许多用户将在工作单或扣除组中查询与优采云 采集相关的问题. 我们对这些问题进行了分类,并提出了使用要点. 希望他们能帮助您解决使用优彩的问题. 云采集器遇到的问题.
1. 在工作流设计器中手动检查规则
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 您可以首先检查配置的规则是否有效,然后查找现有规则. 问题,最好在运行任务之前手动检查工作流程中的规则. 这样,您可以在可视的内置浏览器和数据字段中查看哪些步骤不起作用. 因此,一旦发现错误,就可以修改相应的规则. 请查看以下教程,以了解具体的故障排除方法:
优采云 7.0版本基本故障排除教程:
/tutorialdetail-1/jbpc_7.html
2,设置正确的超时时间和滚动时间
有时会发现,即使配置了正确的规则,并且在手动检查规则时也可以获取数据,但是在启动提取时会丢失数据. 这是因为没有高级选择的Ajax,最简单的方法是在规则中选择“打开网页”和“单击元素”的操作下设置AJAX加载. 此外,您可以在工作流设计器的不同操作下设置等待时间,以确保加载所需的数据.
有时网页会出现这种情况. 除非向下滚动,否则不会显示某些内容. 因此,您需要在“打开网页”的步骤中设置滚动时间,否则可能会错过滚动时间的设置并丢失一些数据. 选择向下滚动的方法并设置适当的滚动时间. 这对于采集完整数据也很重要.
但是在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后执行;如果不是这样,即使您更改规则,该规则仍然无效.
此外,除非优采云仍然无法打开某些网站,否则我们建议您不要同时选择“在新选项卡中打开”和“ AJAX加载页面”.
有关具体操作,请参阅本教程: /tutorialdetail-1/ajaxdjfy_7.html
3. 手动修改XPath
正确使用XPath是使用优采云采集数据的关键. 翻页,丢失数据和不规则范围之类的步骤大多数时候都涉及XPath更改. 因此,强烈建议用户学习有关XPath的知识. 对XPath的一点了解可以帮助您解决使用优采云时遇到的许多问题. 以下教程可以帮助您快速学习XPath.
XPath条目1:
/tutorialdetail-1/xpathrm1.html
XPath条目2:
/media/44656/xpath.pdf
4,设置缓存设置
有时,我们可能会发现内置浏览器没有打开“打开页面”操作下需要采集的URL. 这可能是因为该网站已打开太多次,并且计算机已记录了缓存. 因此,您需要在打开网页之前选择清除缓存,然后再打开所需的网站.
设置缓存的另一个示例是提取需要登录的网站. 登录后,您可以选择“使用指定的Cookie”来记录您的帐户信息,因此您无需再次检查登录步骤. 然后再次. 这也将保护您的个人信息.
Cookie是指某些网站存储在用户本地终端上的数据(通常是加密的),以便识别用户的身份并执行会话跟踪. 登录后的cookie是在优采云中获取的,用以记住登录状态,以达到采集数据的目的.
Cookie登录方法:
/tutorialdetail-1/cookie70.html
优采云采集器 v7查看数据并导出data.docx
采集交流 • 优采云 发表了文章 • 0 个评论 • 293 次浏览 • 2020-08-07 18:31
优采云采集器 v7查看数据并导出数据
作为一种工具,优采云采集器可以在Internet上采集可见的公共数据. 除了采集器中的配置任务外,当然还有数据显示和数据导出,它们为以后的数据分析和挖掘提供了数据支持.
相关采集教程:
优采云采集原则
58个相同城市的信息采集
搜狗微信文章采集
如何使用优采云采集器查看数据:
在7.0版中,我们可以在任务列表界面中查看最新任务中每个任务采集的数据量.
步骤1: 打开7.0版的优采云,单击左侧的任务选项,将弹出任务列表界面. 在每个任务的中间,记录了任务的当前采集状态,最近一次云中采集的数据量以及本地采集的数据量.
优采云查看数据并导出数据-图1: 云采集
优采云查看数据并导出数据-图2: 本地集合
第2步: 点击“云集合: 已采集XXX条数据...”或“本地集合: 已采集XXX条数据”. 该页面将直接跳到数据查看界面. 该界面显示了当前任务采集的最终数据表单.
优采云查看数据并导出数据-图3
云数据界面:
云数据界面显示当前任务的名称(在页面中间),以及任务的总数据量和页面数(页面左下方). 同时,有一个提醒: 数据仅存储3个月. (页面右上角)就是说,云采集的数据将在云中存储3个月,之后数据将被清除. 因此,需要及时导出数据.
优采云查看数据并导出数据-图4
本地数据:
本地数据接口和云数据接口之间基本上没有区别. 但是,任务执行本地采集时会生成本地数据. 每个本地集合将清除以前保存的本地数据,仅保留最新数据. 云数据是每次运行云采集后的数据摘要.
优采云查看数据并导出数据-图5
跳转任务编辑界面
在云数据界面中,您可以直接跳至任务编辑界面,并直接单击“编辑任务”(左上角的蓝色框). 当任务数据不符合预期时,可以执行操作,跳至任务编辑界面,然后进行修改. 然后再次运行任务.
优采云查看数据并导出数据-图6
优采云查看数据并导出数据-图7
数据页翻页,跳转
您可以单击左下角的翻页操作以查看后续数据. 同时,填写特定的页码,然后单击“跳转”以自动跳转到相应的页面.
优采云查看数据并导出数据-图8
清除数据
单击“清除数据”以清除当前所有显示的数据. 主要是当当前数据不符合预期或数据错误时,需要清除数据,不会影响下次采集的数据.
优采云查看数据并导出数据-图9
在所有数据和未导出的数据之间切换
长时间更新数据时,用户将在采集数据时导出. 此时,将区分未导出的数据和所有数据. 用户以后可以方便地过滤和导出. 在云数据界面中,可以交换这两套数据. 查看全部
文档简介:
优采云采集器 v7查看数据并导出数据
作为一种工具,优采云采集器可以在Internet上采集可见的公共数据. 除了采集器中的配置任务外,当然还有数据显示和数据导出,它们为以后的数据分析和挖掘提供了数据支持.
相关采集教程:
优采云采集原则
58个相同城市的信息采集
搜狗微信文章采集
如何使用优采云采集器查看数据:
在7.0版中,我们可以在任务列表界面中查看最新任务中每个任务采集的数据量.
步骤1: 打开7.0版的优采云,单击左侧的任务选项,将弹出任务列表界面. 在每个任务的中间,记录了任务的当前采集状态,最近一次云中采集的数据量以及本地采集的数据量.
优采云查看数据并导出数据-图1: 云采集
优采云查看数据并导出数据-图2: 本地集合
第2步: 点击“云集合: 已采集XXX条数据...”或“本地集合: 已采集XXX条数据”. 该页面将直接跳到数据查看界面. 该界面显示了当前任务采集的最终数据表单.
优采云查看数据并导出数据-图3
云数据界面:
云数据界面显示当前任务的名称(在页面中间),以及任务的总数据量和页面数(页面左下方). 同时,有一个提醒: 数据仅存储3个月. (页面右上角)就是说,云采集的数据将在云中存储3个月,之后数据将被清除. 因此,需要及时导出数据.
优采云查看数据并导出数据-图4
本地数据:
本地数据接口和云数据接口之间基本上没有区别. 但是,任务执行本地采集时会生成本地数据. 每个本地集合将清除以前保存的本地数据,仅保留最新数据. 云数据是每次运行云采集后的数据摘要.
优采云查看数据并导出数据-图5
跳转任务编辑界面
在云数据界面中,您可以直接跳至任务编辑界面,并直接单击“编辑任务”(左上角的蓝色框). 当任务数据不符合预期时,可以执行操作,跳至任务编辑界面,然后进行修改. 然后再次运行任务.
优采云查看数据并导出数据-图6
优采云查看数据并导出数据-图7
数据页翻页,跳转
您可以单击左下角的翻页操作以查看后续数据. 同时,填写特定的页码,然后单击“跳转”以自动跳转到相应的页面.
优采云查看数据并导出数据-图8
清除数据
单击“清除数据”以清除当前所有显示的数据. 主要是当当前数据不符合预期或数据错误时,需要清除数据,不会影响下次采集的数据.
优采云查看数据并导出数据-图9
在所有数据和未导出的数据之间切换
长时间更新数据时,用户将在采集数据时导出. 此时,将区分未导出的数据和所有数据. 用户以后可以方便地过滤和导出. 在云数据界面中,可以交换这两套数据.
湖北拼多多采集上传软件_Amazon ERP
采集交流 • 优采云 发表了文章 • 0 个评论 • 338 次浏览 • 2020-08-07 13:09
湖北拼多多的采集和上传软件,它可以是一套教程或一种相关的材料包. 它收录的内容组合可以说是灵活的. 未来已经到来,数据包网站将发挥其潜力. 不要推测和上传单个文件的数据包. 118专业压缩包上传管理软件是专用的压缩包上传软件,它集成了“预处理,转换前,判断,上传和管理”,并且由网站独立开发. 该软件支持用户上传和预览图片,音频和视频等文件资源,极大地满足了用户对各种资源的需求,并保护了数据的完整性. 步骤1: 解压缩并安装压缩包上传软件. 可以上传cad,cdr,psd和音频和视频文件等图片格式,并且可以在线预览这些上传格式的文件.
嘟嘟批量上传软件主工具,支持多文档导入,多账户登录,多IP操作,访问编码平台,自动上传软件工具. 每天上传成千上万的文档不是问题. 多线程操作可用于批量上传文档. 该程序占用更少的资源,运行速度更快. 您可以批量导入文本文件,并支持txt,doc,docx,pdf等文件,非常方便. 该程序可以在多个线程中运行,并且速度非常快. 支持多帐户导入和登录,快速批量上传以及adsl服务器挂断.
湖北拼多多采集并上传软件,甚至可以使用一些高质量的商店流量来增加交易增加的频率,例如淘宝,天猫,京东,拼多多和小红书. 信息流新媒体信息流通常是指采集了无数动态的页面. 新型零售系统,京东仓库系统,配送系统,多城市站群配送等互联网专业服务. 在竞争激烈的网站建设行业中,我们始终坚持以技术为核心,建立强大的技术开发团队. 陆胜软件,专业网络推广和视频文章推广很容易处理. 4.文章生成,云发布系统,自动推广,让您的信息无处不在,客户永不停止. 从媒体上看,达人一站式服务品牌的广告商希望取得成果,而有效的广告商希望获得更高的转换效率. 蓬勃发展的短视频广告如何实现质量与效率的融合. 让我们看一下短视频广告产品和效果整合的0条规则. 短视频广告的内容与目标受众一致. 基本原理取得了良好的沟通效果. 广告内容的一般化趋向于类似于原创内容,这很难被用户立即识别. 一旦出现,它将为用户提供受欢迎的场景. 兄弟的日常和流行小剧院广告都遵循这一原则.
如果同一平台采集1653并将其直接放在架子上,则此风险会更大. 一种更可靠的方法是在采集或跨平台采集之后自行修改图片. 当然,市场上的采集软件也不尽相同,这里推荐使用“古桥电子商务图片助手”,它支持多种平台,易于采集. 您对这个答案有何评价?转到下一步4102. 在这里,我想提醒大家注意1653申请的内容,通过审核后,无论如何都要收取190元的手续费. 不要把它当作小事. 百度每天平均有超过10亿个搜索请求,百度推广涵盖了95%的互联网用户和850,000个中国企业营销合作伙伴.
湖北拼多多采集并上传软件,购买用户迫切需要完整的信息,这在上传用户和购买用户之间形成了巨大的矛盾. 为了消除这种矛盾,网站自主开发了118套专业压缩包上传管理软件,上传用户可以按类别上传文件,图纸,音频,视频等文件,使上传的信息完整,全面. 同时,购买用户可以在线预览文档,视频和其他文件. 上传用户对需要上传的资料进行分类,大大减少了买家寻找资料的时间,提高了效率,增强了购买用户的体验. 上载用户使用我们自行开发的信息包专业上载管理软件上载资料,该包使上载更快,更方便;成功上传的zip压缩包以数据包的形式呈现给用户,以便用户可以清楚地了解该数据包的所有情况;
每月收入一万把刀的外贸精英教你做外贸!只需简单的操作即可添加水印和删除水印,方便快捷,效果可媲美专业软件! 查看全部
湖北拼多多的Amazon ERP ERP采集和上传软件,可以节省成本并缩短交货周期,真正帮助客户解决国际物流问题.
湖北拼多多的采集和上传软件,它可以是一套教程或一种相关的材料包. 它收录的内容组合可以说是灵活的. 未来已经到来,数据包网站将发挥其潜力. 不要推测和上传单个文件的数据包. 118专业压缩包上传管理软件是专用的压缩包上传软件,它集成了“预处理,转换前,判断,上传和管理”,并且由网站独立开发. 该软件支持用户上传和预览图片,音频和视频等文件资源,极大地满足了用户对各种资源的需求,并保护了数据的完整性. 步骤1: 解压缩并安装压缩包上传软件. 可以上传cad,cdr,psd和音频和视频文件等图片格式,并且可以在线预览这些上传格式的文件.
嘟嘟批量上传软件主工具,支持多文档导入,多账户登录,多IP操作,访问编码平台,自动上传软件工具. 每天上传成千上万的文档不是问题. 多线程操作可用于批量上传文档. 该程序占用更少的资源,运行速度更快. 您可以批量导入文本文件,并支持txt,doc,docx,pdf等文件,非常方便. 该程序可以在多个线程中运行,并且速度非常快. 支持多帐户导入和登录,快速批量上传以及adsl服务器挂断.

湖北拼多多采集并上传软件,甚至可以使用一些高质量的商店流量来增加交易增加的频率,例如淘宝,天猫,京东,拼多多和小红书. 信息流新媒体信息流通常是指采集了无数动态的页面. 新型零售系统,京东仓库系统,配送系统,多城市站群配送等互联网专业服务. 在竞争激烈的网站建设行业中,我们始终坚持以技术为核心,建立强大的技术开发团队. 陆胜软件,专业网络推广和视频文章推广很容易处理. 4.文章生成,云发布系统,自动推广,让您的信息无处不在,客户永不停止. 从媒体上看,达人一站式服务品牌的广告商希望取得成果,而有效的广告商希望获得更高的转换效率. 蓬勃发展的短视频广告如何实现质量与效率的融合. 让我们看一下短视频广告产品和效果整合的0条规则. 短视频广告的内容与目标受众一致. 基本原理取得了良好的沟通效果. 广告内容的一般化趋向于类似于原创内容,这很难被用户立即识别. 一旦出现,它将为用户提供受欢迎的场景. 兄弟的日常和流行小剧院广告都遵循这一原则.

如果同一平台采集1653并将其直接放在架子上,则此风险会更大. 一种更可靠的方法是在采集或跨平台采集之后自行修改图片. 当然,市场上的采集软件也不尽相同,这里推荐使用“古桥电子商务图片助手”,它支持多种平台,易于采集. 您对这个答案有何评价?转到下一步4102. 在这里,我想提醒大家注意1653申请的内容,通过审核后,无论如何都要收取190元的手续费. 不要把它当作小事. 百度每天平均有超过10亿个搜索请求,百度推广涵盖了95%的互联网用户和850,000个中国企业营销合作伙伴.

湖北拼多多采集并上传软件,购买用户迫切需要完整的信息,这在上传用户和购买用户之间形成了巨大的矛盾. 为了消除这种矛盾,网站自主开发了118套专业压缩包上传管理软件,上传用户可以按类别上传文件,图纸,音频,视频等文件,使上传的信息完整,全面. 同时,购买用户可以在线预览文档,视频和其他文件. 上传用户对需要上传的资料进行分类,大大减少了买家寻找资料的时间,提高了效率,增强了购买用户的体验. 上载用户使用我们自行开发的信息包专业上载管理软件上载资料,该包使上载更快,更方便;成功上传的zip压缩包以数据包的形式呈现给用户,以便用户可以清楚地了解该数据包的所有情况;
每月收入一万把刀的外贸精英教你做外贸!只需简单的操作即可添加水印和删除水印,方便快捷,效果可媲美专业软件!
You Caiyun-基本故障排除教程
采集交流 • 优采云 发表了文章 • 0 个评论 • 199 次浏览 • 2020-08-06 10:14
本教程主要讨论如何快速发现错误,解决错误或如何理解错误,以及在使用优采云时遇到问题时如何与客户服务更好地沟通.
优采云采集器主要使用技术来定位和模拟用户浏览网页以采集数据的操作. 用户不需要了解网页的结构,数据采集原理和其他技能,通过优采云采集器就可以形成优采云的获取过程,该过程可以理解并且可以循环工作.
如果存在采集模式不符合需要的情况,则在故障排除之后将有更详细的教程
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 如果采集不正常,请按照以下步骤进行操作. 解决并查找问题类型:
(1)再次手动执行规则: 打开界面右上角的流程图,
使用鼠标从上至下单击流程图中的规则,每次单击下一步时,都会有相应的响应,而没有反应的步骤就是发生问题的步骤.
注意:
a. 单击并提取循环中的元素以手动选择循环中第一个元素以外的内容,以防止循环失败,仅单击以提取循环中的第一个元素
b. 所有规则在下一步执行之后执行,然后再进行下一步,则网页未完全加载,即当浏览器上的圆圈等待图标未消失时,请观察网页内容是否已完全加载. 已完全加载,您可以自行取消加载,然后配置规则.
(2)执行独立采集并检查采集结果中尚未采集数据的项目.
注意: 最好将当前URL添加到规则中,以便某些项目尚未采集数据. 您可以复制URL并在浏览器中打开它,以检查原因并确定错误.
以下可能出现的问题的描述如下,供您参考:
(1)手动执行步骤时没有响应
有两种可能的现象:
1. 步骤无法正常执行
原因: 规则问题,采集器问题,定位模拟问题
解决方案:
您可以检查,删除该步骤,然后再次添加它,如果仍然无法执行,则排除了规则问题,您可以:
在浏览器中打开网页进行操作. 如果可以在浏览器中但不能在采集器中执行某些滚动或单击翻页的操作,则可能是采集器问题,因为采集器中嵌入的浏览器是Firefox浏览器,可能是嵌入式浏览器的版本已更改. 后续版本,导致可以在浏览器中实现的功能无法在采集器中嵌入的浏览器中执行. 这种类型的网页中的数据将被智能地采集并翻页或滚动以前的数据.
排除采集器问题和规则问题后,可以尝试以与制定规则时相同的布局在页面上重新添加步骤. 如果它可以在这样的页面上执行,但是仅页面的一部分不能执行,则这是定位模拟问题. 这个问题通常存在于时间跨度较大的网站上. 原因是网站的布局已更改,这导致采集器位置所需的XPath发生了更改. 请参考XPath章节以修改规则或咨询客户服务. 建议向客户服务说明网站URL和错误. 原因是,方便客户服务提供解决方案.
2. 循环中的单击或捕获仅发生在第一个内容中,而单击第二个内容仍捕获第一个内容
原因: 规则问题,定位模拟问题
解决方案:
检查循环中的第一项是否选中并单击当前循环中设置的元素
如果仍然无法检查,则可以:
如果该循环中还有其他循环,请首先参考问题1的动画以删除其中的内容,删除有问题的循环,然后再次进行重置. 如果删除的规则没有自动重置,则需要手动重置. 如果循环正常,请使用它排除规则问题. 如果没有,那就是定位仿真问题. 您可以:
检查自定义数据字段以在循环中提取数据,检查自定义定位元素方法,并查看其中是否存在相对的Xpath路径,如果没有,请删除该字段,并在外部高级选项中检查use循环,然后重新添加,然后重试. 如果有回应,则问题得到解决,如果仍然无法解决,您可以:
请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.
(2)单机采集无法采集数据
有四个可能的原因:
1. 单机操作规则,将在采集数据之前显示数据.
此现象分为3种情况
A. 打开网页后,将直接显示采集已完成
原因: 网页问题. 第一个网页加载太慢. 优采云会等一会儿. 如果一段时间后仍在加载,则彩云将跳过此步骤. 后续步骤认为未加载内容. 收到数据后,优采云结束了任务,因此没有数据采集.
解决方案: 延长网页的超时时间,或者等待设置下一步执行,以便网页有足够的时间加载.
B. 该网页始终处于加载状态
原因: 网页问题,某些网页加载缓慢. 您想要采集的数据不会出现.
解决方案: 如果当前步骤是打开网页,则可以增加网页的超时时间. 如果是单击元素的步骤,并且已加载要采集的数据,则可以在单击元素的步骤中设置ajax延迟. 单击后,将加载新数据,并且网页URL不会更改为ajax链接.
C. 该网页未进入采集页面
原因: 此问题通常发生在点击元素步骤中. 当某些网页中有ajax链接时,有必要根据点击位置确定是否需要设置它. 如果未设置,它将始终卡在独立采集过程中的上一步中,并且无法采集任何数据. 异步加载网页时,如果未设置ajax延迟,通常将无法正确执行该操作,从而导致该规则无法继续进行下一步,并且无法提取任何数据.
解决方案: 在相应的步骤中设置ajax延迟,通常为2-3S,如果网页加载时间较长,则可以适当增加延迟时间. 单击该元素,循环到下一页,将鼠标移到该元素,这三个步骤中都有ajax设置
2. 独立操作规则无法正常执行
原因: 规则问题或定位模拟问题
解决方案:
首先确定是否需要设置ajax,以及是否设置正确,如果不是ajax问题,则可以:
删除有问题的步骤,然后重新设置. 如果问题解决了,那就是规则问题. 如果问题没有解决,那就是定位仿真问题. 您可以:
请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.
3. 单机操作规则,首页或首页数据正常,以后不能执行
原因: 规则问题-循环部分有问题
解决方案: 请参阅第二内容的手动执行.
4. 单机操作规则,数据采集丢失或错误
此现象有5种情况:
A. 有些字段没有数据
原因: 网页中的数据为空,是模拟定位问题
解决方案:
检查没有字段的链接,然后使用浏览器打开它们. 如果确实没有字段,就没有问题. 如果浏览器打开内容,这是一个模拟定位问题. 您可以:
请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.
B. 采集的数据量不正确
原因: 规则问题-循环部分有问题
解决方案: 请参阅第二内容的手动执行
C. 采集的数据混乱,没有相应的信息
原因: 规则问题-太多的提取步骤,太长的网页加载时间,如果将ajax设置为忽略加载,则可能会在多个提取步骤中引起一些错误,因为未加载内容或加载不完整.
解决方案: 将规则分为两个步骤. 如果要采集评论网页数据,第一步是采集当前页面信息和评论页面URL,第二步是循环URL采集评论数据,然后将数据导出到Excel中,在数据库中进行匹配处理
D. 字段出现在不同的地方
原因: 网页问题-Xpath更改
解决方案: 请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务提供解决方案.
E. 数据重复
原因: 网页问题-Xpath定位问题. 问题主要发生在翻页时,例如只有一个或两个页面循环,或者仍然可以单击最后一页上的下一页按钮.
解决方案: 请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务提供解决方案.
(3)独立集合是正常的,但是云集合没有数据
这种现象有四种类型:
1. 阻止IP的网页问题原因
原因: 大多数具有IP阻止措施的网站都可以由优采云解决. 极少数网站采用非常严格的IP阻止措施,这将导致云采集无法采集数据.
解决方案:
如果它是独立集合,则可以使用代理IP功能. 有关具体操作,请参见代理IP教程.
如果是云采集,则可以将其分配给任务的多个节点,并且多个节点可以处于空闲状态,以避免在同一云和同一IP上采集任务.
2. 云问题-云服务器带宽小
原因: 云的带宽很小,这使得本地慢速打开网站的时间更长,无法在云中打开. 超时到期后,将无法打开网站或无法加载数据,因此将跳过此步骤.
解决方案: 设置打开URL的超时时间或下一步之前的等待时间更长.
3. 规则问题增量采集
原因: 在规则中设置了增量采集. 根据URL判断增量采集. 在某些网页上使用增量采集会导致增量判断错误,从而跳过网页.
解决方案: 关闭增量采集.
4. 规则问题浏览器禁止加载图片,并且云采集不会拆分任务
原因: 只有很少的网页无法检查以禁止浏览器在不分割任务的情况下加载图像和云集合
解决方案: 取消选中相关选项.
如果还有其他问题,请在官方网站或客户服务中提供反馈. 谢谢您的支持. 查看全部
优采云采集和故障排除教程
本教程主要讨论如何快速发现错误,解决错误或如何理解错误,以及在使用优采云时遇到问题时如何与客户服务更好地沟通.
优采云采集器主要使用技术来定位和模拟用户浏览网页以采集数据的操作. 用户不需要了解网页的结构,数据采集原理和其他技能,通过优采云采集器就可以形成优采云的获取过程,该过程可以理解并且可以循环工作.
如果存在采集模式不符合需要的情况,则在故障排除之后将有更详细的教程
采集过程中的错误可以分为五个区域,分别是网页问题,规则问题,定位模拟问题,采集器问题和云问题. 如果采集不正常,请按照以下步骤进行操作. 解决并查找问题类型:
(1)再次手动执行规则: 打开界面右上角的流程图,

使用鼠标从上至下单击流程图中的规则,每次单击下一步时,都会有相应的响应,而没有反应的步骤就是发生问题的步骤.
注意:
a. 单击并提取循环中的元素以手动选择循环中第一个元素以外的内容,以防止循环失败,仅单击以提取循环中的第一个元素
b. 所有规则在下一步执行之后执行,然后再进行下一步,则网页未完全加载,即当浏览器上的圆圈等待图标未消失时,请观察网页内容是否已完全加载. 已完全加载,您可以自行取消加载,然后配置规则.
(2)执行独立采集并检查采集结果中尚未采集数据的项目.
注意: 最好将当前URL添加到规则中,以便某些项目尚未采集数据. 您可以复制URL并在浏览器中打开它,以检查原因并确定错误.
以下可能出现的问题的描述如下,供您参考:
(1)手动执行步骤时没有响应
有两种可能的现象:
1. 步骤无法正常执行
原因: 规则问题,采集器问题,定位模拟问题
解决方案:
您可以检查,删除该步骤,然后再次添加它,如果仍然无法执行,则排除了规则问题,您可以:
在浏览器中打开网页进行操作. 如果可以在浏览器中但不能在采集器中执行某些滚动或单击翻页的操作,则可能是采集器问题,因为采集器中嵌入的浏览器是Firefox浏览器,可能是嵌入式浏览器的版本已更改. 后续版本,导致可以在浏览器中实现的功能无法在采集器中嵌入的浏览器中执行. 这种类型的网页中的数据将被智能地采集并翻页或滚动以前的数据.
排除采集器问题和规则问题后,可以尝试以与制定规则时相同的布局在页面上重新添加步骤. 如果它可以在这样的页面上执行,但是仅页面的一部分不能执行,则这是定位模拟问题. 这个问题通常存在于时间跨度较大的网站上. 原因是网站的布局已更改,这导致采集器位置所需的XPath发生了更改. 请参考XPath章节以修改规则或咨询客户服务. 建议向客户服务说明网站URL和错误. 原因是,方便客户服务提供解决方案.

2. 循环中的单击或捕获仅发生在第一个内容中,而单击第二个内容仍捕获第一个内容
原因: 规则问题,定位模拟问题
解决方案:
检查循环中的第一项是否选中并单击当前循环中设置的元素

如果仍然无法检查,则可以:
如果该循环中还有其他循环,请首先参考问题1的动画以删除其中的内容,删除有问题的循环,然后再次进行重置. 如果删除的规则没有自动重置,则需要手动重置. 如果循环正常,请使用它排除规则问题. 如果没有,那就是定位仿真问题. 您可以:
检查自定义数据字段以在循环中提取数据,检查自定义定位元素方法,并查看其中是否存在相对的Xpath路径,如果没有,请删除该字段,并在外部高级选项中检查use循环,然后重新添加,然后重试. 如果有回应,则问题得到解决,如果仍然无法解决,您可以:
请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.

(2)单机采集无法采集数据
有四个可能的原因:
1. 单机操作规则,将在采集数据之前显示数据.
此现象分为3种情况
A. 打开网页后,将直接显示采集已完成
原因: 网页问题. 第一个网页加载太慢. 优采云会等一会儿. 如果一段时间后仍在加载,则彩云将跳过此步骤. 后续步骤认为未加载内容. 收到数据后,优采云结束了任务,因此没有数据采集.
解决方案: 延长网页的超时时间,或者等待设置下一步执行,以便网页有足够的时间加载.
B. 该网页始终处于加载状态
原因: 网页问题,某些网页加载缓慢. 您想要采集的数据不会出现.
解决方案: 如果当前步骤是打开网页,则可以增加网页的超时时间. 如果是单击元素的步骤,并且已加载要采集的数据,则可以在单击元素的步骤中设置ajax延迟. 单击后,将加载新数据,并且网页URL不会更改为ajax链接.
C. 该网页未进入采集页面
原因: 此问题通常发生在点击元素步骤中. 当某些网页中有ajax链接时,有必要根据点击位置确定是否需要设置它. 如果未设置,它将始终卡在独立采集过程中的上一步中,并且无法采集任何数据. 异步加载网页时,如果未设置ajax延迟,通常将无法正确执行该操作,从而导致该规则无法继续进行下一步,并且无法提取任何数据.
解决方案: 在相应的步骤中设置ajax延迟,通常为2-3S,如果网页加载时间较长,则可以适当增加延迟时间. 单击该元素,循环到下一页,将鼠标移到该元素,这三个步骤中都有ajax设置
2. 独立操作规则无法正常执行
原因: 规则问题或定位模拟问题
解决方案:
首先确定是否需要设置ajax,以及是否设置正确,如果不是ajax问题,则可以:
删除有问题的步骤,然后重新设置. 如果问题解决了,那就是规则问题. 如果问题没有解决,那就是定位仿真问题. 您可以:
请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.
3. 单机操作规则,首页或首页数据正常,以后不能执行
原因: 规则问题-循环部分有问题
解决方案: 请参阅第二内容的手动执行.
4. 单机操作规则,数据采集丢失或错误
此现象有5种情况:
A. 有些字段没有数据
原因: 网页中的数据为空,是模拟定位问题
解决方案:
检查没有字段的链接,然后使用浏览器打开它们. 如果确实没有字段,就没有问题. 如果浏览器打开内容,这是一个模拟定位问题. 您可以:
请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务可以提供解决方案.

B. 采集的数据量不正确
原因: 规则问题-循环部分有问题
解决方案: 请参阅第二内容的手动执行

C. 采集的数据混乱,没有相应的信息
原因: 规则问题-太多的提取步骤,太长的网页加载时间,如果将ajax设置为忽略加载,则可能会在多个提取步骤中引起一些错误,因为未加载内容或加载不完整.
解决方案: 将规则分为两个步骤. 如果要采集评论网页数据,第一步是采集当前页面信息和评论页面URL,第二步是循环URL采集评论数据,然后将数据导出到Excel中,在数据库中进行匹配处理
D. 字段出现在不同的地方
原因: 网页问题-Xpath更改
解决方案: 请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务提供解决方案.
E. 数据重复
原因: 网页问题-Xpath定位问题. 问题主要发生在翻页时,例如只有一个或两个页面循环,或者仍然可以单击最后一页上的下一页按钮.
解决方案: 请参阅Xpath章节以修改网页Xpath或咨询客户服务. 建议向客户服务说明网站的URL和错误原因,以便客户服务提供解决方案.
(3)独立集合是正常的,但是云集合没有数据
这种现象有四种类型:
1. 阻止IP的网页问题原因
原因: 大多数具有IP阻止措施的网站都可以由优采云解决. 极少数网站采用非常严格的IP阻止措施,这将导致云采集无法采集数据.
解决方案:
如果它是独立集合,则可以使用代理IP功能. 有关具体操作,请参见代理IP教程.
如果是云采集,则可以将其分配给任务的多个节点,并且多个节点可以处于空闲状态,以避免在同一云和同一IP上采集任务.
2. 云问题-云服务器带宽小
原因: 云的带宽很小,这使得本地慢速打开网站的时间更长,无法在云中打开. 超时到期后,将无法打开网站或无法加载数据,因此将跳过此步骤.
解决方案: 设置打开URL的超时时间或下一步之前的等待时间更长.
3. 规则问题增量采集
原因: 在规则中设置了增量采集. 根据URL判断增量采集. 在某些网页上使用增量采集会导致增量判断错误,从而跳过网页.
解决方案: 关闭增量采集.
4. 规则问题浏览器禁止加载图片,并且云采集不会拆分任务
原因: 只有很少的网页无法检查以禁止浏览器在不分割任务的情况下加载图像和云集合
解决方案: 取消选中相关选项.
如果还有其他问题,请在官方网站或客户服务中提供反馈. 谢谢您的支持.