【新手入门】常见问题清单
优采云 发布时间: 2020-08-10 05:111、如果您是菜鸟,请勿必先看一下官网视频讲解教程。
教程地址:
视频教程是由我们官方培训讲师给你们讲解优采云采集器的使用方式,每一篇教程似乎都太简略,如果你们在开始采集之前先看一下那些视频讲解教程,大部分问题都能得到解答。
2、XX 网站能不能采集?XX 数据能不能采集?
请先参考第一条。
官网视频讲解教程中我们早已介绍过,优采云采集器是一款通用网页采集软件,只要是有网址,可以通过网页浏览,您能看得见的内容,大多都是可以采集的(视频比较特殊,得剖析具体情况)。
为了保护您的隐私,您所有的任务及配置都以加密方式储存于云端,除了您个人外任何人都未能查看具体的内容,您在采集过程中输入的帐号密码以及您的采集结果都存在您的本地笔记本中。但请您严格遵循相关的法律法规,若优采云采集器官方收到任何关于非法采集的举报,将会第一时间封停该帐号。
3、为什么采集数据提早停止了?
如果您遇见采集提前停止的问题,请根据以下步骤自检一下:
第一步:请确认您在浏览器中能看到多少内容
有的时候搜索显示数目和你最终能看得见的数目不是一致的,请确认您能看到多少条数据,然后再确定采集是提早停止还是正常停止。
第二步:采集结果数目和在浏览器中见到的数目不一致
在采集过程中,如果碰到这个问题,有以下两种可能性:
第一种可能性是采集速度过快而网页加载时间过慢,从而造成难以采集到网页中的数据。
遇到这些情况时请降低恳求等待时间,等待时间长一点以后,就有足够的时间留给网页加载内容。
请求等待时间的设置在 启动设置—>智能策略中,如下图所示:
第二种可能性是你遇见了其他问题
我们可以通过在运行过程中,点击运行界面中的“查看网页”来观察一下当前的网页内容是否正常,是否未能正常显示,是否出现异常提示等。
如果出现了上述情况,我们可以通过增加采集速度、切换代理IP、手动打码等形式,至于哪种方法可以起作用,这个须要测试才晓得,不同的网站问题不同,没有一个统一的解决方案。
如果尝试了以上方案后一直未能解决,你可以在帮助中心反馈给我们,我们会为您提供支持。
4、为什么采集字段不全?
字段不全通常有以下两种情况:
第一种,由于列表元素的结构不同,有些元素中有的数组其他元素中没有,这是正常的现象,请你们先在网页中确认对应元素中是否存在你想要的主键。
第二种,页面结构发生了变化,这种一般会发生在同一个搜索结果中收录多种页面结构的场景,例如搜索引擎的搜索结果(收录好多种网站)。
这种情况须要针对具体问题进行剖析,您可以导入您的采集任务,发到我们官方的帮助中心,我们的客服会帮您进行测试剖析。
5、为什么采集数据重复?
首先请确认你已然看过视频教程,你的采集任务没有页面类型的设置问题,即错把单页类型设置为列表类型,或是你错误地理解了循环采集的使用技巧。
然后请确定你是多次反复采集数据出现重复还是某一次单独采集出现了重复数据。
在未更改采集任务时,每一次运行采集任务都是从头开始采集,所以每一次采集的数据都是重复的,这是正常的。
如果是在单次采集时出现了重复数据,请确认是否满足以下情况:
第一种:重复数据均为最后一页的数据,这种有可能是翻到最后一页无法停止翻页,请尝试更改采集范围,然后看是否就会出现重复数据的情况。
第二种:重复数据为中间页的数据,这种情况未能直接得出结论。
以上两种情况下,都请上传你的采集任务到帮助中心,我们的客服会帮您进行测试剖析。
6、采集停止了,再运行是不是从头开始?
是的,采集停止以后,下次再直接启动会默认根据上一次的设置从头开始采集。
如果想进行断点续采,请看这个教程:
7、软件崩溃了,重启后右侧数据都是0,数据丢了吗?
请放心,已经采集到的数据除非你自动删掉,否则都不会遗失。
在软件非正常关掉时,重启后右侧任务采集的数据的数目须要自动刷新,你只需点击一下那种数字,就会恢复正常。
8、管理员能不能帮我看一下采集任务那里有问题
优采云采集器为你们提供了QQ群和帮助中心两种解决采集问题的渠道。
在QQ群中通常适宜提比较简单的具体问题,管理员看到后才能通过简单几句话帮你解决。
如果碰到复杂的采集问题,尤其是须要查看采集任务能够晓得的问题,建议你们直接发到帮助中心。
QQ群中用户较多,聊天内容过多时,您的问题容易被忽略,而且管理员面对那么多用户,反馈可能会比较慢。
帮助中心的问题会有专人客服跟踪,所有问题就会得到解答,请你们尽量使用帮助中心来反馈问题。
9、编辑任务时出现验证码该如何办?
如果你们在编辑任务时出现了验证码,软件会进行手动检查并给出提示,请你们按照软件的提示进行自动打码操作。
需要注意的是,自动检查会存在一定的误辨识机率,如果你判定页面中不需要进行验证码操作,点击取消即可。
此外,如果软件并未辨识,请点击右上角“手动打码”(蓝色)按钮进行打码操作。
10、编辑采集任务时页面未能正常显示该如何办?
首先请确认你在Chrome浏览器中,直接粘贴该网址是否可以访问。
如果Chrome浏览器未能打开,那么软件目前就是支持不了的,你可以反馈到帮助中心,我们的客服会帮您进行测试和剖析。
如果浏览器中可以访问,但是软件中难以访问,请点击右上角“手动打码”(蓝色)按钮,然后在弹出的窗口中点击访问你输入网址的网站的首页,例如点击左上角的网站LOGO或首页按键之类的。
在正常打开首页以后,点击预登陆窗口右下角的验证完成按键,这样软件中应当就可以正常访问了。
某些网址可能不容许用户在未访问过首页或列表页的情况下直接访问详情页,所以尽量不要直接从详情页开始采集,可以选择从列表页开始采集。
11、运行过程中须要输入验证码该如何办?
针对这些情况,优采云采集器支持验证码自动打码,不支持手动打码。
固定位置的验证码打码,请参考这个教程:
运行过程中的验证码软件会手动检查并给出打码提示。
具体打码过程请根据软件提示操作即可。
需要注意的是,软件在运行过程中手动检查验证码并弹出提示时,采集任务会暂停出来,手动打码以后软件都会继续运行当前任务。此外,自动辨识验证码存在一定的误辨识机率,如果你判定页面中不需要打码,点击跳过即可,连续跳过两次以后软件将不再检查验证码。
12、发布到数据库报错如何办?
(1)连接问题总结
1)宝塔控制面板
使用此管理工具时须要注意mysql数据库访问权限设置,和远程访问端口的开放。
2) localhost、192.168.xxx.xxx
使用这种主机地址须要注意是本机须要开启MySQL服务
3)不确定报错详请
可使用navicat先确定具体报错详情
(2)字段映射问题总结
1)字段类型
仅支持数据表中字符串和整型数组的映射(如果须要映射日期数组,需要将数据表中对应数组改成字符串类型)
2)字段宽度
需要注意数组宽度是否可以满足本地采集的数据宽度
(3)导出中的错误日志总结:
mysql插入数据时出现Incorrect string value: ‘\xF0\x9F…’ for column ‘name’ at row 1的异常,原因是UTF-8编码有可能是两个、三个、四个字节。Emoji表情或则个别特殊字符是4个字节,而 mysql 的utf8编码最多3个字节,所以数据插不进去。解决方式如下:
在mysql的安装目录下找到my.ini,作如下更改:
[mysql] default-character-set=utf8mb4 [mysqld] character-set-server=utf8mb4
修改后重启Mysql sudo service mysql restart
通过管理工具将早已建好的表以及相应的数组也转换成utf8mb4