事实:关于优采云网络爬虫的几个常见问题
优采云 发布时间: 2020-09-01 02:13关于优采云网络抓取工具的几个常见问题
我昨天才开始联系网络爬虫. 根据互联网上的好评,我选择了优采云的V9版本.
一开始,它是针对其友好而全面的傻瓜操作页面的. 谁知道完成基本的JD产品审查任务并不像想象的那么简单.
1. 首先,请注意将向导添加到起始URL的步骤,
因为现在通常可以直接在产品页面上查看JD注释,但是此URL是使用json技术呈现的,
使用这种技术,可以根据用户操作(例如第二页的上一页)执行动态数据包捕获和更新,因此制定相应的规则更加困难,
在参考了以下教程以获取价格后,操作仍然不令人满意(稍后学习json)
直到我发现有关这些年来我的前辈的评论的文档,我发现那里有一个特别的评论页面,并且有相应的规则,
[地址参数] -0.html,此问题已解决
2. 第二个问题是未检查每个字段的循环匹配,这导致采集每次采集采集后都会以相同格式产生一些注释
3. 第三个问题是默认输出txt文档样式没有任何修改,导致每个输出都在[label: title] [label: content]
之前设置.
4. 另一个问题是,如果发现上述问题后修改配置并重新采集,则必须清除采集数据,否则它将无法工作并报告信息
说采集采样0
×5. 发现的一个新问题是JD用户ID的html标签种类繁多. 如果您不熟悉正则表达式,则只能采集到相关的注释文本,
采集是整个用户的ID,这导致用户ID和用户评论之间不*敏*感*词*的对应关系. 此外,优采云的采集评论顺序似乎不符合网页上显示的评论
顺序,稍后将对此问题进行研究