事实：关于优采云网络爬虫的几个常见问题

优采云发布时间: 2020-09-01 02:13

　　关于优采云网络抓取工具的几个常见问题

　　我昨天才开始联系网络爬虫. 根据互联网上的好评，我选择了优采云的V9版本.

　　一开始，它是针对其友好而全面的傻瓜操作页面的. 谁知道完成基本的JD产品审查任务并不像想象的那么简单.

　　1. 首先，请注意将向导添加到起始URL的步骤，

　　因为现在通常可以直接在产品页面上查看JD注释，但是此URL是使用json技术呈现的，

　　使用这种技术，可以根据用户操作（例如第二页的上一页）执行动态数据包捕获和更新，因此制定相应的规则更加困难，

　　在参考了以下教程以获取价格后，操作仍然不令人满意（稍后学习json）

　　直到我发现有关这些年来我的前辈的评论的文档，我发现那里有一个特别的评论页面，并且有相应的规则，

　　[地址参数] -0.html，此问题已解决

　　2. 第二个问题是未检查每个字段的循环匹配，这导致采集每次采集采集后都会以相同格式产生一些注释

　　3. 第三个问题是默认输出txt文档样式没有任何修改，导致每个输出都在[label: title] [label: content]

　　之前设置.

　　4. 另一个问题是，如果发现上述问题后修改配置并重新采集，则必须清除采集数据，否则它将无法工作并报告信息

　　说采集采样0

　　×5. 发现的一个新问题是JD用户ID的html标签种类繁多. 如果您不熟悉正则表达式，则只能采集到相关的注释文本，

　　采集是整个用户的ID，这导致用户ID和用户评论之间不*敏*感*词*的对应关系. 此外，优采云的采集评论顺序似乎不符合网页上显示的评论

　　顺序，稍后将对此问题进行研究

0

2020-09-01

网站程序自带的采集器采集文章

0 个评论

要回复文章请先登录或注册