多种方法:新版优采云采集过程中常出现的问题以及解决方法131.doc

优采云 发布时间: 2022-10-18 17:17

  多种方法:新版优采云采集过程中常出现的问题以及解决方法131.doc

  优采云采集过程中常见问题及解决方法

  本教程主要讲如果您在使用优采云采集时遇到一些问题,如何快速找出错误,解决错误或如何理解错误,以及与客服沟通的更好方法。

  优采云采集器主要通过技术定位和模拟用户对网页的浏览操作来采集数据。用户无需了解网页架构、数据采集原理等技能。采集器 可以形成一个 优采云 可以理解并且可以循环工作的采集 进程。

  如果出现采集模式不符合要求的情况,排查后有更详细的教程。

  采集过程中的错误可以分为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、云端问题。当采集出现异常时,请按照以下步骤排查错误,查找问题类型:

  1.手动执行一次规则:打开界面右上角的流程图,用鼠标点击流程图中的规则,从上到下,每次点击下一步都会有相应的响应,而没有反应的步骤就是出现问题的步骤。

  当心:

  1)点击提取循环中的元素,手动选择循环中第一个以外的内容,防止循环失效,只点击提取循环中的第一个元素

  2)所有规则的每一步都执行完后,再执行下一步。网页未加载完毕,即浏览器上的圆圈等待图标消失时,观察网页内容是否加载完毕。如果满载可以自行取消

  加载,然后配置规则。

  2. 执行单机采集,查看采集结果中没有收到数据采集的项目。

  注意:最好将当前的URL添加到规则中,这样如果数据中有不是采集的项,可以复制URL在浏览器中打开查看原因并确定错误。

  可能出现的症状描述如下,供您参考:

  1.手动步骤无反应

  有两种可能的现象:

  1) 步骤没有正常执行

  原因:规则问题、采集器问题、定位模拟问题

  解决方案:

  您可以执行故障排除,删除此步骤,然后重新添加。如果仍然无法执行,则排除规则问题。你可以:

  在浏览器中打开网页进行操作,如果在浏览器中可以执行一些滚动或点击翻页,而在采集器中却不能执行,那就是采集器的问题,原因是采集器 内置浏览器是火狐,可能是内置的浏览器版本在后续版本中发生了变化,导致浏览器中可以实现的功能无法在采集器中执行内置浏览器。此类网页中的数据,智能采集翻页或滚动之前的数据。

  排除采集器问题和规则问题后,可以尝试在页面上重新添加步骤,布局与制定规则时相同。如果可以在这样的页面上执行,但在某些页面上不能执行,那就是定位模拟。这个问题在时间跨度较大的网站中经常存在,因为网站的布局

  如果发生变化,采集器 定位所需的 XPath 将发生变化。请参考XPath章节修改规则或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  优采云采集器故障排除 - 图 1

  2)循环中的点击或采集只在点击第一个内容时发生,第二个内容还是点击采集到第一个内容

  原因:规则问题,定位模拟问题

  解决方案:

  检查循环中的第一项是否勾选点击当前循环中设置的元素

  如果勾选了还是不能,可以:如果循环中还有其他循环,先参考问题1的*敏*感*词*去掉里面的内容,删除有问题的循环,再重新设置,如果去掉的规则不自动复位需要手动复位。如果可以使用循环,则排除问题。如果不是,那就是定位模拟的问题。你可以:

  勾选循环中提取数据的自定义数据字段,勾选自定义定位元素方法,看里面是否有相对的Xpath路径,如果没有,删除该字段,勾选外部高级选项中的使用循环,添加再次,再次尝试,如果有反应,问题就解决了,如果还是不行,可以:

  参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  优采云采集器故障排除 - 图 2

  2.单机采集无法采集数据

  有4个可能的原因:

  

  1) 单机运行规则,数据采集前会显示采集completed

  这种现象分为3种情况

  ①打开网页后会直接显示采集完成

  原因:网页问题,第一个网页加载太慢,优采云会等待一段时间,如果过了一定时间仍然加载,优采云会跳过这一步,后续步骤认为内容尚未加载。如果没有数据,优采云 将结束任务,导致 采集 没有数据。

  解决方法:增加网页的超时时间,或者在设置下一步执行之前等待,让网页有足够的时间加载。

  优采云采集器故障排除 - 图 3

  优采云采集器故障排除 - 图 4

  ②网页一直在加载

  原因:网页问题,有些网页加载很慢。采集 的所需数据未出现。

  解决方法:如果当前步骤是打开网页,可以延长网页的超时时间。如果是点击元素步骤,并且要加载采集的数据,可以在点击元素步骤中设置ajax延迟。点击后,新数据加载完毕,网页URL不变,是ajax链接。

  优采云采集器故障排除 - 图 5

  ③网页没有进入采集页面

  原因:这个问题经常出现在点击元素步骤。当某些网页收录ajax链接时,根据点击位置来判断是否需要设置。如果不设置,单机采集,采集无数据时,总是卡在上一步。网页异步加载时,如果不设置Ajax延迟,一般不会正确执行操作,导致规则无法进行下一步,无法提取数据。

  解决方法:在相应的步骤中设置ajax延迟,一般为2-3S。如果网页加载时间较长,可以适当增加延迟时间。点击元素,循环下一页,将鼠标移到元素上,这三步都有ajax设置

  2)单机运行规则无法正常执行

  原因:规则问题或定位模拟问题

  解决方案:

  首先判断ajax是否需要设置,是否设置正确,如果不是ajax问题,可以:

  删除问题步骤并重新设置。如果问题解决了,那就是规则问题。如果问题没有解决,那就是定位仿真问题。你可以:

  参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  3)单机运行规则,第一页或第一页数据正常,后面不能执行

  原因:规则问题 - 循环部分出现问题

  解决方法:参考第二个内容的手动执行。

  4) 单机操作规则,数据采集缺失或错误

  这种现象分为5种情况:

  ①部分字段没有数据

  原因:网页中的数据为空,模拟定位问题

  解决方案:

  查看没有字段的链接并使用浏览器打开它们。如果没有字段,则没有问题。如果浏览器打开内容,这是一个模拟定位问题。你可以:

  参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址及错误原因,以便客服提供解决方案。

  ②采集数据个数不对

  原因:规则问题 - 循环部分出现问题

  解决方法:参考手动执行第二个内容

  

  ③采集数据乱七八糟,没有对应的信息

  原因:规则问题——提取步骤太多,页面加载时间过长,如果设置ajax忽略加载,可能会由于内容未加载或加载不完整而导致部分提取步骤多的错误。

  解决方案:将规则分为两个步骤。如果采集评论网页数据,第一步是采集当前页面信息和评论页面的URL,第二步是循环URL采集评论数据,和然后将数据导出到excel和数据库中进行匹配处理。

  ④ 字段出现在不同位置

  原因:网页问题 - Xpath 更改

  解决方法:参考Xpath章节修改网页的Xpath或咨询客服。

  服务描述网站URL及错误原因,以便客服给出解决方案。

  ⑤数据重复

  原因:网页问题——Xpath定位问题,问题主要出现在翻页时,比如只循环一两页,或者最后一页的下一页按钮仍然可以点击。

  解决方法:参考Xpath章节修改网页的Xpath或咨询客服。建议向客服说明网站网址和错误原因,以便客服给出解决方案。

  3.单机采集正常,云采集无数据

  这种现象分为4种情况:

  1)网页问题——封IP的原因

  原因:大部分网站优采云有IP屏蔽措施都可以解决,很少有网站采取极其严格的IP屏蔽措施,会导致云采集采集 无可用数据。

  解决方案:

  如果是单机采集,可以使用代理IP功能。详见代理IP教程。

  如果是云采集,可以为任务分配到多个节点,可以让多个节点空闲,避免同一个云采集同IP上的任务。

  2)云问题——云服务器带宽小

  原因:云端带宽小,导致本地网站打开慢,在云端打开时间较长。一旦超时,将无法打开网站或无法加载数据,导致跳过此步骤。

  解决方法:将打开URL的超时时间或下次执行前的等待时间设置长一些。

  3) 规则问题 - 增量 采集

  原因:规则设置了增量采集,增量采集根据URL判断采集是否已经通过。部分网页使用增量采集,会导致增量判断错误,跳过。这页纸。

  解决方法:关闭增量采集。

  4)规则问题——禁止浏览器加载图片和云采集不要拆分任务

  原因:很少有网页不能勾选禁止浏览器加载图片和云采集不要拆分任务解决方法:取消勾选相关选项。

  如有更多问题,请在官网或客服反馈,感谢您的支持。

  相关 采集 教程:

  天猫商品信息采集

  美团商业资讯采集

  市场招聘信息采集

  优采云——70万用户选择的网页数据采集器。

  1.操作简单,任何人都可以使用:不需要技术背景,只要能上网采集即可。完成流程可视化,点击鼠标完成操作,2分钟快速上手。

  2、功能强大,任意网站可选:对于点击、登录、翻页、身份验证码、瀑布流、Ajax脚本异步加载数据,所有页面都可以通过简单设置采集。

  3.云采集,也可以关机。配置采集任务后,可以将其关闭,并可以在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP阻塞和网络中断。

  4、免费功能+增值服务,按需选择。免费版具有满足用户基本采集需求的所有功能。同时设置一些增值服务(如私有云),满足高端付费企业用户的需求。

  解决方案:敢吗?10个落地项目+5个流量方法,挑战月入10万!

  全网营销,覆盖超过26个平台!

  3. 工具

  软件思维,放大量化5-10倍运算。

  过程决定结果。为什么老手可以操作1天超过新手10天,因为老手精通方法,会使用工具;毕竟我们在运营项目和流量的时候,需要重复的步骤很多,一天要重复好几次。数百次,基本上是一千次,这些操作都可以用工具来量化。工具无需休息,可7*24挂机操作,提高操作效率5-10倍。

  微信搜索下拉词采集助手

  批量挂机采集搜索和下拉关键词,用来做搜索和搜索排名,因为手动排序很难,所以我们开发了这个软件来自动采集。

  微信搜一搜营销助理

  每天自动批量发送公众号文章。比如你有100个公众号,每天发8篇文章,通过软件可以自动挂机,每天发800篇。

  AdPower 多账户沙盒系统

  一台电脑模拟成无数电脑,用于实现多账号登录批量操作。每个沙盒下的IP、浏览器版本、操作系统信息、指纹信息都不同。

  1. 开发和购买与学生共享的平台

  以上系统都是我们使用的,因为我们在采购、测试和开发上投入了大量的成本。我们自己使用它,只有一个人可以受益。如果我们与学生分享,每个人都可以受益。

  以上系统无需自行购买服务器,开户连接即可使用;

  因此,系统将赠送一年,第二年将以内部折扣价续订。让我们共同分担维护和开发成本。

  2.软件量化操作

  如需购买,请联系白竹老师,训练营学员可享受40%优惠。

  3. 采集和整理工具

  1. 虚拟资源网站程序

  2. 3D调音软件及插件

  3.mp3文件属性修改软件

  4.视频批量去水印、logo去除软件

  5.网站Logo生成软件

  6. V9引擎翻译和清洗软件

  7.桌面视频录制和编辑软件

  8.wei*PC版辅助软件

  9.视频号视频下载器-PC版

  10. AI批伪原创清洗系统

  11.文件夹批处理*敏*感*词*

  12.个人微*、企业微*无限开放软件

  13.抖音无水印分析软件

  14、视频分割、合并、裁剪软件

  15. MD5值检查修改工具

  16.批量重命名和删除文件名长度工具

  17. 关键词插入助手

  18. 文章批处理采集器

  19.txt关键词批量过滤工具

  20.txt文本文件高效去重

  二十一。关键词标题采集器

  二十二。电脑录音软件

  23。关键词类别分组工具

  24。竞标微*添加粉丝动态评论监控码

  251,000个4K高清视频素材

  

  26.500 种商业免许可字体

  27.着色插件集

  28. 虚拟机软件

  29. 115套朋友圈背景封面PSD源文件

  ...

  所有的软件和工具都是我们在运营项目和流量时需要用到的。以上软件无时间限制免费分享使用,可任意使用。

  创业梦想项目训练营,6大核心板块,助你打造互联网项目体系!

  权限 1. 在线直播项目训练营!

  每期6-10场直播训练营,老师带你现场操作项目;

  直播通过训练营专属VIP团教室进行。老师现场讲解演示,现场互动,现场安排验收项目工作!

  线上直播时间:10月27日-11月10日

  提前加入,先看加密录像,夯实基础,参与直播,效果更佳!

  权限2. 6节价值9960元的网课

  1、《抖音Matrix Class》已更新57个视频,售价1500元。

  2、《5G新视频营销课》已更新94个视频,售价1580元。

  3、《贴吧推广引流6.0》已更新45个视频,售价1280元。

  4、《新微信营销课》已更新96个视频,售价1800元。

  5、《竞价营销课》已更新45个视频,售价2000元。

  共337个在线学校在线视频(在线工作许可)

  商盟网校课程逻辑:脚踏实地学习技术,掌握获客方法,不缺客户,不缺钱,技术是互联网之本!

  权限3. 4天3夜线下面授项目实践学习

  现场讲解、现场演示、学员现场操作、现场解决问题!

  什么是实战?

  现场操作,现场学习,这才叫实战!

  线上和线下教学的内容是一样的。线下的好处是你自带笔记本电脑,带你去现场学习和操作,因为面授的一半时间都在操作。

  现场学生资源对接,寻找项目和技术合作伙伴!

  下次下线时间:12月3-6日,广东。广州

  线下课程自2013年开始开展,已开展近百门课程:

  2022.09.24苏州线下合影

  2022.07.23重庆线下合影

  受宿迁市工业和信息化局邀请与当地企业分享网络营销

  许可 4. 两年内免费复训

  1. 两年内无限次线上线下学习;

  2、关注商盟2年,让商盟网校成为您的技术后盾;

  3. 2年内更新的课程可免费学习;

  权限5.训​​练营VIP社区

  1. 积累同学们的常见问题,解决群新闻刷不积累的痛点!

  2.掌握项目、课程、软件的更新升级,专属VIP公众号通知!

  3、所有软件均配有安装教程,可根据教程进行操作;

  

  4、合并多个平台,将项目军械库+知识星球合并到本平台;

  6. 学生评价

  部分学员在商盟运营项目的成果,所有评价均为真实学员的反馈评价,加入商盟训练营,可以直接与项目运营商交流学习!

  知识付费项目,日收入不到2000,尚萌老师教的很详细!

  经营虚拟产品一天赚2000+,尚萌对我帮助很大!

  虚拟资源项目,月收入2W+!做自己的项目和创业比*敏*感*词*好得多!

  创业梦课程尽心尽责,服务周到;走了无数弯路,才知道创业梦想真的很不错!

  每天上百个精准粉丝加微信,微信加到爆炸,快乐烦恼!

  商盟的方法效果出众,售后服务也很负责,棒棒哒!

  视频营销称霸全网,一搜每天增加100+粉丝,节省1万元+*敏*感*词*!

  运营商盟万瓷霸屏技术,2个网站,权重6,每天给我带来20000+的流量!

  4个半月,从0到1,赚到了人生的第一个200万!

  学完课程,18年经营微商赚了人生第一个100万!

  三年关注尚盟网校,报名学习,使用搜一搜技术,每天新增100多人!

  从月入1000到突破15万,可能接近20万!

  更多学生评价,请将下方网址复制到浏览器打开。

  商业梦想“项目落地训练营”=产品+流量+工具

  1. 6-10天线直播项目训练营!

  2. 5节在线课程,价值9760元

  3. 4天3夜线下面授项目实操学习

  4、两年内免费复训

  5.训练营VIP社区

  1、线上训练营:3800元

  送上12套价值20224元的尚盟开发和付费购买平台

  在线学习时间:10月27日-11月10日

  2、线上+线下集训:4800元

  1.所有权限在线

  2、再送一门价值4500元的“整合营销班”课程

  线下学习时间:12月3-6日,广东。广州

  【线上+线下】给SVIP会员送“整合营销课堂”

  系统学习网络整合营销!

  提升网络综合运营能力,突破项目瓶颈!

  前期的互联网技术,后期的运营能力!

  尚盟网校单独购买的本课程价格为:4500元;

  整合营销课程目录:

  “后台引导交易系统”如何关闭客户,销售交易系统!

  《小红书推广引流合集》小红书运营推广全攻略

  《微博营销引流策略》与微博话题营销、搜索营销相得益彰!

  《问答平台精准引流》如何知道如何通过百度吸引精子!

  ...

  更多课程正在更新中

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线