采集器采集源(如何使用优采云采集器采集京东的网页源码中看不到的数据)
优采云 发布时间: 2021-10-20 18:06采集器采集源(如何使用优采云采集器采集京东的网页源码中看不到的数据)
经常有朋友问小蔡如何采集电子商务网站网页源码中没有显示的评论数据。今天小蔡教你如何使用优采云采集器采集京东网页源代码中看不到的数据。
所需工具:fiddler抓包工具,优采云采集器
采集 网址:京东网站
首先我们打开fiddler,这次使用的fiddler是中文版的,英文版的原理是一样的
然后我们打开对应的网站
对应产品评价
看看源码中有没有这个评测,复制下图的部分内容
此时,我们并没有在源代码中找到该页面数据的相应信息。
我们开启fiddler刷新当前页面
这时候会刷新很多请求信息,我们关闭fiddler,使用源码中找到的文字在fiddler中用Ctrl+F查找
这里有显着信息,表示要查找的信息在这个请求中
可以看到web view中有相应的信息(对应英文版的webview)。这时候http请求就是我们要的信息了。此源代码是实际注释的源代码。
我们把这个URL放到采集器中测试采集
要测试此单个 URL,请检查重复匹配项
与浏览器打开页面对比
这里其实是有图片的,只是小菜用html标签过滤出来进行测试。此时获取的信息与浏览器的信息相同。没有分页。分页可以通过抓取不同页面的数据包,然后比较 URL 来完成。区别,让你可以采集到源码中页面上没有显示的评论数据。
相关日志:
每周一算|限时免费送,10万+合肥服务直通车信访大数据
2019年合肥乐围清明节放假通知
快来这里|平安夜优采云 和你一起训练快乐!
每周统计|12万条环评信息数据免费发送
《What is Page》走红网络的背后,是幕后推广人员的完美策划和精准营销
«如何获取喜马拉雅应用的音频数据?|[教程]优采云采集器获取58城租房信息»