智能识别,一键采集(先看一下官网视频讲解教程(一)采集器的使用方法)
优采云 发布时间: 2021-09-02 23:02智能识别,一键采集(先看一下官网视频讲解教程(一)采集器的使用方法)
1、如果你是新手,请先看官网视频教程。
视频教程由我们的官方培训讲师向您解释如何使用优采云采集器。每个教程实际上都很短。如果你在开始采集之前看看这些视频教程,会很棒一些问题可以得到解答。
2、XX 网站你能采集吗? XX数据可以采集吗?
请先参考第一个。
在官网的视频教程中,我们已经介绍过优采云采集器是一个通用的网页采集软件。只要有网站,就可以浏览网页。你能看到的大部分内容是可以采集(视频很特殊,所以要具体情况具体分析)。
为了保护您的隐私,您的所有任务和配置都以加密形式存储在云端。没有人,但您可以查看具体内容。你在采集过程中输入的账号密码和你的采集结果都存储在你的本地电脑上。但请严格遵守相关法律法规。如优采云采集器官方收到采集违法举报,将第一时间暂停账号。
3、为什么采集data 提前停止?
如果遇到采集提前停车的问题,请按照以下步骤进行自检:
第一步:请确认浏览器能看到多少内容
有时搜索中显示的数字与您最后看到的数字不同。请确认你能看到多少条数据,然后判断采集是提前停止还是正常停止。
第2步:采集结果的数量与浏览器中看到的数量不一致
在采集的过程中,如果遇到这个问题,有两种可能:
第一种可能是采集太快,页面加载时间太慢,导致采集无法访问页面中的数据。
在这种情况下,请增加请求的等待时间。等待时间变长之后,网页就会有足够的时间加载内容。
请求等待时间在Startup Settings—>Smart Strategy中设置,如下图:
第二种可能是你遇到了其他问题
在操作过程中,我们可以在操作界面点击“查看网页”,观察当前网页内容是否正常,是否无法正常显示,是否有异常提示等
如果出现上述情况,我们可以降低采集的速度,手动输入验证码等。至于哪种方法行得通,需要自己测试一下才知道,不同的网站问题不一样,没有统一的解决方案。
如果您在尝试上述解决方案后仍然无法解决问题,您可以在帮助中心给我们反馈,我们将为您提供解答。
4、为什么采集不见了?
不完整的字段一般有以下两种情况:
首先,由于列表元素的结构不同,有些元素有其他元素没有的字段。这是正常现象。请在网页上确认相应元素中是否存在您想要的字段。
其次,页面结构发生了变化。这通常发生在收录多个页面结构的同一个搜索结果中,例如搜索引擎搜索结果(包括多种网站)。
这种情况需要具体问题具体分析。您可以将您的采集任务导出并发送到我们的官方帮助中心,我们的客服会帮您测试分析。
5、为什么采集数据是重复的?
首先请确认你看过视频教程,你的采集任务没有页面类型设置问题,就是单页类型错误设置为列表类型,或者你理解错了循环采集方法的使用。
然后请确认您是否有重复的采集数据或单个采集重复数据。
采集task 不修改时,每次采集task 都从采集 开始运行,所以每次采集 数据重复,这是正常的。
如果单个采集存在重复数据,请确认是否满足以下条件:
第一种:重复数据是最后一页的数据。此类数据可能翻到最后一页,无法停止翻页。请尝试修改采集范围,然后查看是否有重复数据条件。
第二种:重复数据是中间页的数据。在这种情况下,无法得出直接结论。
以上两种情况,请将您的采集任务上传到帮助中心,我们的客服会帮您测试分析。
6、采集停了,你从头开始?
是的,采集停止后,下次直接启动,会按照之前的默认设置从头开始采集。
7、软件崩溃了。重启后,左边的数据全是0,是不是数据丢失了?
请放心,已经采集的数据不会丢失,除非您手动删除。
软件异常关闭时,重启后需要手动刷新左侧任务采集中的数据个数。你只需要点击那个数字,它就会恢复正常。
8、Administrator,你能帮我看看采集task 有什么问题吗
优采云采集器为您提供QQ客服和帮助中心两个渠道解决采集问题。
QQ客服一般比较适合问简单具体的问题,管理员看到简单几句就可以帮你解决。
如果遇到复杂的采集问题,特别是需要查看采集任务才知道的,建议直接发到帮助中心。
帮助中心的问题将由专门的客户服务跟踪,所有问题都会得到解答。请尽量使用帮助中心反馈问题。
9、编辑任务时出现验证码怎么办?
如果您在编辑任务时有验证码,软件会自动检测并给出提示。请按照软件提示手动输入验证码内容。
需要注意的是,自动检测会有一定的误识别概率。如果确定页面不需要验证码操作,直接点击取消即可。
另外,如果软件无法识别,请点击右上角的“手动输入验证码”(蓝色)按钮输入验证码。
10、编辑采集时页面无法正常显示怎么办?
首先请确认在Chrome浏览器中直接粘贴网址是否可以访问。
如果无法打开 Chrome 浏览器,则该软件目前不受支持。您可以向帮助中心报告,我们的客服会帮您测试分析。
如果浏览器可以访问,软件不能访问,请点击右上角“手动编码”(蓝色)按钮,然后在弹窗中点击访问网站的主页@您输入的网址,例如点击左上角的网站LOGO或主页按钮。
正常打开首页后,点击预登录窗口右下角的验证完成按钮,软件应该可以正常访问了。
有些网址可能不允许用户不访问首页或列表页直接访问详情页,所以尽量不要直接从详情页采集开始,可以选择从列表页采集开始。
11、 操作时需要输入验证码怎么办?
此时优采云采集器支持手动输入验证码,不支持自动编码。
验证码软件在运行过程中会自动检测并提示有验证码。
具体流程请按照软件提示操作。
需要注意的是,当软件在运行过程中自动检测到验证码并弹出提示时,采集任务将被暂停。手动输入验证码后,软件会继续运行当前任务。另外,对于验证码的自动识别,存在一定的误识别概率。如果判断页面没有验证码,直接点击跳过即可。连续跳过两次后,软件将不再检测验证码。
12、发布到数据库报错怎么办?
(1)连接问题总结
1)宝塔控制面板
使用本管理工具时需要注意mysql数据库访问权限设置和远程访问端口的开启。
2)本地主机,192.168.xxx.xxx
使用这种类型的主机地址注意本机需要开启MySQL服务
3)如果您不确定是否报告错误,请
可以先用 Navicat 确定具体的错误详情
(2)Field Mapping问题总结
1)字段类型
只支持数据表中字符串和整数字段的映射(如果需要映射日期字段,需要将数据表中对应的字段改为字符串类型)
2)字段长度
需要注意字段长度是否可以满足本地采集的数据长度
(3)Export 错误日志摘要:
不正确的字符串值:当mysql插入数据时,第1行的列'name'出现'\xF0\x9F...'。原因是 UTF-8 编码可能是两个、三个或四个字节。 emoji或者一些特殊字符是4个字节,而mysql的utf8编码最多3个字节,所以无法插入数据。解决方法如下:
在mysql安装目录中找到my.ini,做如下修改:
[mysql] default-character-set=utf8mb4 [mysqld] character-set-server=utf8mb4 修改后重启mysql sudo service mysql restart
使用管理工具将已经建好的表和对应的字段转换成utf8mb4