事实:关于优采云网络爬虫的几个常见问题

优采云 发布时间: 2020-09-01 02:13

  关于优采云网络抓取工具的几个常见问题

  我昨天才开始联系网络爬虫. 根据互联网上的好评,我选择了优采云的V9版本.

  一开始,它是针对其友好而全面的傻瓜操作页面的. 谁知道完成基本的JD产品审查任务并不像想象的那么简单.

  1. 首先,请注意将向导添加到起始URL的步骤,

  因为现在通常可以直接在产品页面上查看JD注释,但是此URL是使用json技术呈现的,

  使用这种技术,可以根据用户操作(例如第二页的上一页)执行动态数据包捕获和更新,因此制定相应的规则更加困难,

  在参考了以下教程以获取价格后,操作仍然不令人满意(稍后学习json)

  直到我发现有关这些年来我的前辈的评论的文档,我发现那里有一个特别的评论页面,并且有相应的规则,

  [地址参数] -0.html,此问题已解决

  2. 第二个问题是未检查每个字段的循环匹配,这导致采集每次采集采集后都会以相同格式产生一些注释

  3. 第三个问题是默认输出txt文档样式没有任何修改,导致每个输出都在[label: title] [label: content]

  之前设置.

  4. 另一个问题是,如果发现上述问题后修改配置并重新采集,则必须清除采集数据,否则它将无法工作并报告信息

  说采集采样0

  ×5. 发现的一个新问题是JD用户ID的html标签种类繁多. 如果您不熟悉正则表达式,则只能采集到相关的注释文本,

  采集是整个用户的ID,这导致用户ID和用户评论之间不*敏*感*词*的对应关系. 此外,优采云的采集评论顺序似乎不符合网页上显示的评论

  顺序,稍后将对此问题进行研究

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线