网页采集器的自动识别算法(优采云采集器常见的优采云问题有哪些?如何选择采集器)
优采云 发布时间: 2021-10-25 17:09网页采集器的自动识别算法(优采云采集器常见的优采云问题有哪些?如何选择采集器)
如果你是一个数据采集人,那么你一定对比较常用的采集工具有所了解。例如:优采云采集器、优采云采集器、优采云 浏览器、优采云、优采云采集器 和 < @优采云采集器 等等。每个采集工具都有不同的使用方法,每个工具在使用时的优势都是一样的。所以我们在选择采集工具的时候,一定要根据自己的需求来选择。那么如果选择使用优采云采集器,我们常见的优采云问题是什么?这里总结了 13 个常见的 优采云 问题。我希望他们能帮助你。它有帮助。
1、如果你是新手,请先看一下官网的视频教程。
教程地址:视频教程是我们官方培训讲师讲解优采云采集器的使用方法。每个教程实际上都很短。如果你想在开始之前看看采集这些视频解释了教程,大部分问题都可以回答。
2、XX 网站可以吗采集?XX数据采集可以吗?
请先参阅第 1 条。
我们在官网的视频教程中已经介绍过优采云采集器是一款万能网页采集软件。只要有网站,就可以浏览网页,看到内容。大部分都可以是采集(视频很特殊,具体情况要具体分析)。
为了保护您的隐私,您的所有任务和配置都以加密形式存储在云端,除了您可以查看特定内容、您在采集过程中输入的帐户密码以及您的采集 结果存储在您的本地计算机中。但请严格遵守相关法律法规。如优采云采集器官方收到任何关于采集违法的举报,将第一时间暂停账号。
3、为什么采集数据提前停止?
如果您遇到采集提前停车的问题,请按照以下步骤进行自检:
第一步:请确认浏览器能看到多少内容
有时搜索中显示的数字与您最后看到的数字不一样。请确认你能看到多少条数据,然后判断采集是提前停止还是正常停止。
第二步:采集结果数量与浏览器看到的数量不一致
在采集的过程中,如果遇到这个问题,有两种可能:
第一种可能是采集速度太快,网页加载时间太慢,导致采集无法访问网页中的数据。
在这种情况下,请增加请求的等待时间。等待时间变长之后,网页就会有足够的时间加载内容。
请求等待时间在Startup Settings->Smart Strategy中设置,如下图:
第二种可能是你遇到了其他问题
在操作过程中,我们可以在操作界面点击“查看网页”,观察当前网页内容是否正常,是否无法正常显示,是否有异常提示等。
如果出现上述情况,我们可以降低采集的速度,切换代理IP,手动编码等,至于哪种方法可以工作,这个需要测试一下才知道,不同的网站问题不同,没有统一的解决方案。
如果您在尝试上述解决方案后仍然无法解决问题,您可以在帮助中心给我们反馈,我们将为您提供支持。
4、为什么缺少 采集 字段?
不完整的字段一般有以下两种情况:
首先,由于列表元素的结构不同,某些元素具有其他元素中没有的字段。这是正常现象。请在网页上确认相应元素中是否存在您想要的字段。
第二种是页面结构发生了变化。这通常发生在同一个搜索结果收录多个页面结构的场景,比如搜索引擎搜索结果(包括多种类型的网站)。
在这种情况下,您需要分析具体问题。您可以将您的采集任务导出并发送到我们的官方帮助中心,我们的客服会帮您测试分析。
5、为什么采集数据重复?
首先请确认你看过视频教程,你的采集任务没有页面类型设置问题,就是单页类型被错误地设置为列表类型,或者你理解错了循环 采集 指令。
然后请确定您是否有重复的采集 数据重复或单个采集 重复数据。
当采集任务没有被修改时,每次采集任务运行时,都是从采集开始,所以每次重复采集的数据,这个是正常的。
如果单个采集中存在重复数据,请确认是否满足以下条件:
第一种:重复数据为最后一页的数据。这可能是最后一页,页面无法停止。请尝试修改采集范围,然后查看是否有重复数据。.
第二种:重复数据为中间页的数据。在这种情况下,不能直接得出结论。
以上两种情况,请将您的采集任务上传到帮助中心,我们的客服会帮您进行测试分析。
6、采集 停了,你从头开始?
是的,采集停止后,下次直接启动时会默认按照之前的设置从头开始采集。
如果您想在断点处恢复挖掘,请参阅本教程:
7、软件崩溃了。重启后,左边的数据全是0,是不是数据丢失了?
请放心,已经采集的数据不会丢失,除非您手动删除。
软件异常关闭时,需要重启后手动刷新左侧任务采集中的数据个数。你只需要点击那个数字,它就会恢复正常。
8、管理员能不能帮我看看任务有什么问题采集
优采云采集器为您提供了两个解决采集问题的渠道,QQ群和帮助中心。
在QQ群里,一般比较适合问比较简单具体的问题,管理员看到简单的几句话就可以帮你解决。
如果遇到复杂的采集问题,尤其是需要查看采集任务才能知道的问题,建议直接发到帮助中心。
QQ群里的用户很多,聊天太多的时候,你的问题很容易被忽略,管理员回复这么多用户可能会很慢。
帮助中心的问题会有专门的客服跟踪,所有问题都会得到解答。请尝试使用帮助中心反馈问题。
9、编辑任务时出现验证码怎么办?
如果您在编辑任务时有验证码,软件会自动检测并给出提示。请按照软件提示进行手动编码操作。
需要注意的是,自动检测会有一定的误识别概率。如果判断页面不需要验证码操作,直接点击取消即可。
另外,如果软件无法识别,请点击右上角的“手动编码”(蓝色)按钮进行编码操作。
10、编辑采集任务时页面无法正常显示怎么办?
首先请确认在Chrome浏览器中直接粘贴网址是否可以访问。
如果Chrome浏览器打不开,则说明目前不支持该软件,您可以向帮助中心报告,我们的客服会帮您测试分析。
如果在浏览器中可以访问,但在软件中不能访问,请点击右上角的“手动代码”(蓝色)按钮,然后在弹出的窗口中,点击访问网站的主页输入网址的地方,例如点击左上角的网站 LOGO或首页按钮。
正常打开首页后,点击登录前窗口右下角的验证完成按钮,软件应该可以正常访问了。
有些网址可能不允许用户不访问首页或列表页直接访问详情页,所以尽量不要直接从详情页采集开始,可以选择从列表页采集开始.
11、 操作时需要输入验证码怎么办?
针对这种情况,优采云采集器支持验证码手动编码,不支持自动编码。
固定位置打印验证码请参考本教程:验证码软件在运行过程中会自动检测并给出打码提示。
具体编码过程请按照软件提示进行。
需要注意的是,当软件在运行过程中自动检测到验证码并弹出提示时,采集任务将被暂停,软件将在手动编码后继续运行当前任务。另外,对于验证码的自动识别,存在一定的误识别概率。如果判断页面不需要编码,点击跳过。连续跳过两次后,软件将不再检测验证码。
12、 发布到数据库报错怎么办?
(1)连接问题总结
1)宝塔控制面板
使用本管理工具时,需要注意mysql数据库访问权限设置和远程访问端口的开启。
2) 本地主机,192.168.xxx.xxx
使用这种类型的主机地址需要注意本机需要开启MySQL服务
3)不确定详情,请
可以先用 Navicat 确定具体的错误详情
(2)字段映射问题总结
1)字段类型
只支持数据表中字符串和整数字段的映射(如果需要映射日期字段,需要将数据表中对应的字段改为字符串类型)
2)字段长度
需要注意字段的长度是否可以满足本地采集的数据长度
(3)导出错误日志摘要:
mysql 插入数据时,第 1 行的列 'name' 出现不正确的字符串值:'\xF0\x9F...'。原因是 UTF-8 编码可能是两个、三个或四个字节。emoji或者一些特殊字符是4个字节,而mysql的utf8编码最多3个字节,所以无法插入数据。解决方法如下:
在mysql安装目录中找到my.ini,做如下修改:
[mysql] default-character-set=utf8mb4 [mysqld] character-set-server=utf8mb4
修改后重启mysql sudo service mysql restart
使用管理工具将已经建好的表和对应的字段转换成utf8mb4
如果还有其他问题,可以来本站搜索相关问题,这里有你想要的答案:优采云脚本网