网站程序自带的采集器采集文章(先看一下官网视频讲解教程(一)采集器的使用方法)

优采云 发布时间: 2022-04-08 00:14

  网站程序自带的采集器采集文章(先看一下官网视频讲解教程(一)采集器的使用方法)

  1、如果你是新手,一定要先看官网的视频教程。

  视频教程由我们的官方培训讲师提供,讲解优采云采集器的使用。每个教程实际上都很短。如果您在开始 采集 教程之前观看这些视频说明,则可以回答大多数问题。

  2、XX 网站你能采集吗?XX数据可以是采集吗?

  请先参阅第 1 条。

  我们在官网视频教程中已经介绍过了,优采云采集器是一个通用的网页采集软件,只要有网站,就可以通过网页浏览,可以看一下内容,大部分都可以是采集(视频比较特殊,具体情况还要分析)。

  为了保护您的隐私,您所有的任务和配置都以加密形式存储在云端,除了您可以查看具体内容、您在采集流程中输入的账号密码和您的采集 @采集结果全部存储在您的本地计算机上。但请严格遵守相关法律法规。如果优采云采集器官方收到任何非法采集的举报,将立即暂停账号。

  3、为什么采集 数据提前停止了?

  如果您遇到 采集 过早停止,请按照以下步骤测试自己:

  第 1 步:请确认您可以在浏览器中看到多少内容

  有时搜索显示的数字与您最终能看到的数字不一样。请确认你能看到多少条数据,然后判断采集是提前停止还是正常停止。

  第二步:采集结果数与浏览器中看到的数不符

  在采集过程中,如果遇到这个问题,有两种可能:

  第一种可能是采集速度太快,页面加载时间太慢,导致数据采集无法到达页面。

  在这种情况下,请增加请求等待时间。等待时间较长后,网页将有足够的时间加载内容。

  请求等待时间的设置在启动设置->智能策略,如下图:

  第二种可能是你有其他问题

  在运行过程中,我们可以在运行界面点击“查看网页”,观察当前网页内容是否正常,是否无法正常显示,是否有异常提示等。

  如果出现上述情况,我们可以降低采集的速度,手动输入验证码等方法,至于哪种方法能行,还需要自己测试一下才知道。不同的网站 问题是不同的。没有一个统一的解决方案。

  如果您在尝试以上解决方案后仍然无法解决问题,您可以在帮助中心给我们反馈,我们会为您提供解答。

  4、为什么 采集 字段不完整?

  不完整的字段一般有以下两种情况:

  首先,由于列表元素的结构不同,一些元素具有其他元素中没有的字段。这是正常现象。请先确认网页对应元素中是否存在您要的字段。

  其次,页面结构发生了变化,这通常发生在同一个搜索结果中收录多个页面结构时,例如搜索引擎搜索结果(包括多种网站)。

  在这种情况下,您需要分析具体问题。您可以将您的采集任务导出并发送到我们的官方帮助中心,我们的客服会帮助您进行测试和分析。

  5、为什么采集 数据重复?

  首先请确认您已经观看了视频教程,并且您的采集任务没有页面类型设置问题,即您错误地将单页面类型设置为列表类型,或者您误解了循环采集 说明。

  然后确保您有多个重复的 采集 数据重复或单个 采集 重复的数据。

  在采集任务没有被修改的情况下,每次采集任务从采集开始运行,所以每个采集的数据都是重复的,这是正常的。

  如果单个采集出现重复数据,请确认是否满足以下条件:

  第一种:重复数据是最后一页的数据。这可能是翻到最后一页后无法停止翻页。请尝试修改采集的范围,看看是否还有重复数据。.

  第二种:重复数据是中间页的数据,不能直接断定。

  以上两种情况,请将你的采集任务上传到帮助中心,我们的客服会帮你测试分析。

  6、采集 停止了,是不是又从头开始了?

  是的,采集停止后,下次直接启动时,默认按照上次设置从头采集开始。

  7、软件崩溃了。重启后左侧数据全为0,是不是数据丢失了?

  请放心,您拥有 采集 的数据不会丢失,除非您手动将其删除。

  软件异常关闭时,重启后需要手动刷新左侧任务采集中的数据个数。您只需要点击数字,它就会恢复正常。

  8、管理员能帮我看看采集任务有什么问题吗

  优采云采集器为您提供解决采集问题的两个渠道:QQ客服和帮助中心。

  在QQ客服中,一般比较适合问一些比较简单的具体问题。管理员看到后,简单几句就能帮你解决。

  如果你遇到复杂的采集问题,特别是只有查看采集任务才能知道的问题,建议你直接发到帮助中心。

  帮助中心的问题将由专门的客服人员进行跟踪,所有问题都会得到解答。请尽可能使用帮助中心反馈问题。

  9、编辑任务时出现验证码怎么办?

  如果编辑任务时出现验证码,软件会自动检测并提示。请根据软件提示手动输入验证码。

  需要注意的是,自动检测会有一定的误识别概率。如果判断页面不需要验证码操作,点击取消。

  另外,如果软件无法识别,请点击右上角的“手动输入验证码”(蓝色)按钮输入验证码。

  10、编辑采集任务时页面显示不正常怎么办?

  首先,确保你在 Chrome 浏览器中,直接粘贴 URL 看看是否可以访问。

  如果无法打开 Chrome 浏览器,则该软件当前不受支持。您可以向帮助中心举报,我们的客服会帮您测试分析。

  如果您在浏览器中可以访问,但在软件中无法访问,请点击右上角的“手动代码”(蓝色)按钮,然后在弹出的窗口中点击进入网站 输入网址的地方,例如点击左上角的网站LOGO或home键等。

  正常打开首页后,点击预登录窗口右下角的验证按钮,软件应该可以正常访问了。

  有些网址可能不允许用户不访问首页或列表页就直接访问详情页,所以尽量不要直接从详情页采集开始,可以选择从列表页采集开始.

  11、操作时需要输入验证码怎么办?

  针对这种情况,优采云采集器支持手动输入验证码,但不支持自动输入。

  运行过程中的验证码软件会自动检测并提示此处有验证码。

  具体流程请按照软件提示进行。

  需要注意的是,当软件在运行过程中自动检测到验证码并弹出提示时,采集任务会暂停,手动输入验证码后软件会继续运行当前任务。另外,验证码的自动识别存在一定的误识别概率。如果判断页面没有验证码,点击跳过。连续跳过两次后,软件将不再检测验证码。

  12、发布到数据库报错怎么办?

  (1)连接问题总结

  1)宝塔控制面板

  使用本管理工具时,需要注意mysql数据库访问权限设置和远程访问端口的开放情况。

  2)localhost,192.168.xxx.xxx

  在使用这种类型的主机地址时,需要注意的是需要在本机上开启 MySQL 服务。

  3)如果不确定错误,请报告

  可以先用navicat判断具体的错误详情

  (2)字段映射问题总结

  1)字段类型

  仅支持数据表中字符串和整数字段的映射(如果需要映射日期字段,需要将数据表中的对应字段改为字符串类型)

  2)字段长度

  需要注意字段长度能否满足本地采集的数据长度

  (3)导出中的错误日志摘要:

  Incorrect string value: '\xF0\x9F...' for column 'name' at row 1 的异常发生在 mysql 插入数据时,因为 UTF-8 编码可能是两个、三个或四个字节。Emoji表情或者一些特殊字符是4个字节,而mysql的utf8编码最多3个字节,所以无法插入数据。解决方法如下:

  在mysql安装目录下找到my.ini,进行如下修改:

  [mysql] default-character-set=utf8mb4 [mysqld] character-set-server=utf8mb4 修改后重启Mysql sudo service mysql restart

  通过管理工具将建好的表及对应字段转为utf8mb4

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线